La technologie de génération de vidéos par IA a fait des progrès révolutionnaires, apportant de nouvelles opportunités à l'IA Web3
L'une des évolutions les plus marquantes récemment dans le domaine de l'IA est la percée de la technologie de génération vidéo multimodale. Cette technologie a évolué d'une génération de vidéos purement textuelles à un modèle de génération de bout en bout intégrant texte, images et audio.
Quelques exemples de percées technologiques dignes d'attention incluent :
Le cadre EX-4D, open source d'une entreprise technologique, peut convertir des vidéos monoculaires en contenu 4D à vue libre, avec un taux d'acceptation des utilisateurs de plus de 70 %. Cela signifie que l'IA peut automatiquement générer des effets de vision sous n'importe quel angle pour des vidéos ordinaires, ce qui nécessitait auparavant une équipe de modélisation 3D professionnelle.
Une plateforme d'IA prétend pouvoir générer une vidéo de 10 secondes de qualité "cinéma" à partir d'une seule image. Les effets précis devront être vérifiés après la mise à jour de sa version professionnelle.
Une technologie développée par un institut de recherche en IA réputé peut générer simultanément des vidéos 4K et des sons d'environnement. Cette technologie surmonte le défi de la synchronisation audio-vidéo dans des scènes complexes, comme la correspondance précise entre les mouvements de marche à l'écran et le bruit des pas.
Un modèle d'IA d'une plateforme de courtes vidéos utilise 8 milliards de paramètres et peut générer une vidéo 1080p en 2,3 secondes, avec un coût d'environ 3,67 yuan pour 5 secondes. Bien que le contrôle des coûts soit satisfaisant, il y a encore de la place pour améliorer la qualité de génération dans des scènes complexes.
Ces percées ont une importance significative en matière de qualité vidéo, de coût de génération et de scénarios d'application :
D'un point de vue technique, la complexité de la génération vidéo multimodale augmente de manière exponentielle. Elle nécessite de traiter la génération d'images à une seule frame (environ 10^6 points de pixels), d'assurer la cohérence temporelle (au moins 100 frames), de synchroniser l'audio (10^4 points d'échantillonnage par seconde) et de garantir la cohérence spatiale 3D. Actuellement, ces tâches complexes sont réalisées grâce à une décomposition modulaire et à une collaboration entre de grands modèles, chaque module se concentrant sur une fonction spécifique, telle que l'estimation de profondeur, la conversion de perspective, l'interpolation temporelle et l'optimisation du rendu.
Du point de vue des coûts, l'optimisation de l'architecture d'inférence joue un rôle clé. Cela inclut une stratégie de génération en couches (générer d'abord une ébauche à basse résolution, puis améliorer les détails à haute résolution), un mécanisme de réutilisation de cache (réutilisation de scènes similaires) et une allocation dynamique des ressources (ajuster la profondeur du modèle en fonction de la complexité du contenu).
Dans le domaine de l'application, la technologie AI est en train de bouleverser le processus de production vidéo traditionnel. Autrefois, un spot publicitaire de 30 secondes pouvait coûter des dizaines de milliers de yuans en frais de production, impliquant équipements, lieux, acteurs et post-production. Maintenant, l'IA peut réduire ce processus à quelques minutes après avoir saisi des mots-clés, tout en réalisant des angles de vue et des effets spéciaux difficiles à atteindre par la méthode traditionnelle. Cette transformation va remodeler l'économie des créateurs, faisant de la créativité et de l'esthétique des facteurs clés.
Les avancées de ces technologies d'IA Web2 ont également un impact important sur le domaine de l'IA Web3 :
Le changement dans la structure de la demande en puissance de calcul a créé des opportunités pour la puissance de calcul distribuée inutilisée, tout en augmentant la demande pour divers modèles de réglage fin distribués, algorithmes et plateformes d'inférence.
L'augmentation de la demande en annotation de données offre de nouveaux cas d'utilisation pour les mécanismes d'incitation Web3. La création de vidéos de niveau professionnel nécessite des descriptions de scènes précises, des images de référence, des styles audio, des trajectoires de caméra et des conditions d'éclairage, ainsi que d'autres données professionnelles. Les mécanismes d'incitation Web3 peuvent encourager les photographes, les ingénieurs du son et les artistes 3D à fournir des matériaux de données de haute qualité.
L'évolution de la technologie AI d'une allocation de ressources centralisée et à grande échelle vers une collaboration modulaire crée de nouveaux besoins pour les plateformes décentralisées. À l'avenir, la combinaison de la puissance de calcul, des données, des modèles et des mécanismes d'incitation pourrait former un cycle vertueux auto-renforçant, favorisant une intégration profonde des scénarios Web3 AI et Web2 AI.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
19 J'aime
Récompense
19
7
Partager
Commentaire
0/400
rekt_but_not_broke
· 07-15 13:44
Il n'y a rien d'extraordinaire, c'est juste ajouter des détails inutiles.
Voir l'originalRépondre0
DefiOldTrickster
· 07-15 06:02
Le vieux a joué pendant tant d'années, on peut clairement prendre les gens pour des idiots avec cette chose, ça va encore provoquer une grosse hausse sur off-chain... Hélas, vous vous souvenez de ce piège de jeton AI dont je vous ai parlé la dernière fois ?
Voir l'originalRépondre0
ReverseTradingGuru
· 07-13 12:22
Ah oui, oui, oui, avoir des mains ça suffit, tout le monde est devenu un professionnel de l'IA.
Voir l'originalRépondre0
WalletDetective
· 07-13 12:21
À ce niveau ? Pas mieux que les anciennes caméras de surveillance.
Voir l'originalRépondre0
GasOptimizer
· 07-13 12:18
Venez, venez ! Économisez le gas dans le pool de tout le monde.
Voir l'originalRépondre0
InfraVibes
· 07-13 12:13
C'est un peu en dehors de ma compréhension 233
Voir l'originalRépondre0
DevChive
· 07-13 12:03
Bull, il semble que l'industrie cinématographique de demain pourrait voir une partie de ses employés perdre leur emploi.
Les percées dans la technologie de génération de vidéos par IA, de nouvelles opportunités pour l'IA Web3
La technologie de génération de vidéos par IA a fait des progrès révolutionnaires, apportant de nouvelles opportunités à l'IA Web3
L'une des évolutions les plus marquantes récemment dans le domaine de l'IA est la percée de la technologie de génération vidéo multimodale. Cette technologie a évolué d'une génération de vidéos purement textuelles à un modèle de génération de bout en bout intégrant texte, images et audio.
Quelques exemples de percées technologiques dignes d'attention incluent :
Le cadre EX-4D, open source d'une entreprise technologique, peut convertir des vidéos monoculaires en contenu 4D à vue libre, avec un taux d'acceptation des utilisateurs de plus de 70 %. Cela signifie que l'IA peut automatiquement générer des effets de vision sous n'importe quel angle pour des vidéos ordinaires, ce qui nécessitait auparavant une équipe de modélisation 3D professionnelle.
Une plateforme d'IA prétend pouvoir générer une vidéo de 10 secondes de qualité "cinéma" à partir d'une seule image. Les effets précis devront être vérifiés après la mise à jour de sa version professionnelle.
Une technologie développée par un institut de recherche en IA réputé peut générer simultanément des vidéos 4K et des sons d'environnement. Cette technologie surmonte le défi de la synchronisation audio-vidéo dans des scènes complexes, comme la correspondance précise entre les mouvements de marche à l'écran et le bruit des pas.
Un modèle d'IA d'une plateforme de courtes vidéos utilise 8 milliards de paramètres et peut générer une vidéo 1080p en 2,3 secondes, avec un coût d'environ 3,67 yuan pour 5 secondes. Bien que le contrôle des coûts soit satisfaisant, il y a encore de la place pour améliorer la qualité de génération dans des scènes complexes.
Ces percées ont une importance significative en matière de qualité vidéo, de coût de génération et de scénarios d'application :
D'un point de vue technique, la complexité de la génération vidéo multimodale augmente de manière exponentielle. Elle nécessite de traiter la génération d'images à une seule frame (environ 10^6 points de pixels), d'assurer la cohérence temporelle (au moins 100 frames), de synchroniser l'audio (10^4 points d'échantillonnage par seconde) et de garantir la cohérence spatiale 3D. Actuellement, ces tâches complexes sont réalisées grâce à une décomposition modulaire et à une collaboration entre de grands modèles, chaque module se concentrant sur une fonction spécifique, telle que l'estimation de profondeur, la conversion de perspective, l'interpolation temporelle et l'optimisation du rendu.
Du point de vue des coûts, l'optimisation de l'architecture d'inférence joue un rôle clé. Cela inclut une stratégie de génération en couches (générer d'abord une ébauche à basse résolution, puis améliorer les détails à haute résolution), un mécanisme de réutilisation de cache (réutilisation de scènes similaires) et une allocation dynamique des ressources (ajuster la profondeur du modèle en fonction de la complexité du contenu).
Dans le domaine de l'application, la technologie AI est en train de bouleverser le processus de production vidéo traditionnel. Autrefois, un spot publicitaire de 30 secondes pouvait coûter des dizaines de milliers de yuans en frais de production, impliquant équipements, lieux, acteurs et post-production. Maintenant, l'IA peut réduire ce processus à quelques minutes après avoir saisi des mots-clés, tout en réalisant des angles de vue et des effets spéciaux difficiles à atteindre par la méthode traditionnelle. Cette transformation va remodeler l'économie des créateurs, faisant de la créativité et de l'esthétique des facteurs clés.
Les avancées de ces technologies d'IA Web2 ont également un impact important sur le domaine de l'IA Web3 :
Le changement dans la structure de la demande en puissance de calcul a créé des opportunités pour la puissance de calcul distribuée inutilisée, tout en augmentant la demande pour divers modèles de réglage fin distribués, algorithmes et plateformes d'inférence.
L'augmentation de la demande en annotation de données offre de nouveaux cas d'utilisation pour les mécanismes d'incitation Web3. La création de vidéos de niveau professionnel nécessite des descriptions de scènes précises, des images de référence, des styles audio, des trajectoires de caméra et des conditions d'éclairage, ainsi que d'autres données professionnelles. Les mécanismes d'incitation Web3 peuvent encourager les photographes, les ingénieurs du son et les artistes 3D à fournir des matériaux de données de haute qualité.
L'évolution de la technologie AI d'une allocation de ressources centralisée et à grande échelle vers une collaboration modulaire crée de nouveaux besoins pour les plateformes décentralisées. À l'avenir, la combinaison de la puissance de calcul, des données, des modèles et des mécanismes d'incitation pourrait former un cycle vertueux auto-renforçant, favorisant une intégration profonde des scénarios Web3 AI et Web2 AI.