Le 'Keling' de Kuaishou explose : un énorme choc dans les cercles étrangers de l'IA, la version chinoise de Sora est difficile à trouver-IA-php.cn

Après seulement un an, le « manger des nouilles » généré par l'IA est devenu si naturel et si doux ? Cela a choqué les internautes du monde entier.

Le Keling de Kuaishou explose : un énorme choc dans les cercles étrangers de lIA, la version chinoise de Sora est difficile à trouver

Les vidéos générées à droite proviennent du modèle vidéo Wensheng qui vient d'être lancé par Kuaishou.

Il ne s'agit pas d'une pré-version ou d'une pure collection de démonstration, mais d'une application au niveau du produit qui est directement ouverte aux tests et que tout le monde peut postuler. De plus, Keling prend en charge la génération de vidéos 1080P jusqu'à 2 minutes et 30 ips, en se concentrant sur la « conversion en un clic » du brainstorming en œuvres publiables. (Adresse officielle du site Web : https://kling.kuaishou.com/)

Les premiers utilisateurs qui l'ont utilisé étaient des "véritables encens" :

Le Keling de Kuaishou explose : un énorme choc dans les cercles étrangers de lIA, la version chinoise de Sora est difficile à trouver

^{source : https://x.com/ op7418/status/1799047146089619589}

Le Keling de Kuaishou explose : un énorme choc dans les cercles étrangers de lIA, la version chinoise de Sora est difficile à trouver

m8Or?refer_flag=1001030103_

Le groupe de communication compte un maximum de 500 personnes et se remplira rapidement. Maintenant, l'écran est plein de tql :

Le Keling de Kuaishou explose : un énorme choc dans les cercles étrangers de lIA, la version chinoise de Sora est difficile à trouver

Les amis étrangers qui ne l'ont pas encore utilisé ne peuvent qu'être anxieux et poster « s'il vous plaît » sur les réseaux sociaux :

Il n'est pas exagéré de dire que Ke Ling est désormais « un Il est difficile de trouver un numéro » :

La nouvelle s'est répandue dans le cercle du capital-risque de la Silicon Valley et a déclenché une discussion animée.

Emad Mostaque, ancien PDG de Stability AI, a déclaré : "La technologie chinoise de l'IA a ses propres avantages."

Prompt: Une personne tapant son meilleur croc dans son hamburger

^{Adresse vidéo : https://x.com/AngryTomtweets/status/1799787209651859910}

Pour ceux qui font attention à l'IA, ils ont dû voir beaucoup de Ke Ling ces derniers jours. . Ce site Web a également cliqué sur le canal de candidature dès que possible et a obtenu la qualification d'essai.

Ensuite, autant l'essayer et analyser les raisons pour lesquelles Keling est si populaire.

La première application vidéo Wensheng au niveau du produit en Chine

Peut-être vous souvenez-vous encore de cette vidéo autrefois très populaire "Balloon Man". Trois créateurs ont passé près de deux semaines à utiliser Sora pour créer cette superbe courte vidéo d'une minute et 21 secondes. Cependant, Patrick Cederberg, qui était en charge de la post-production, a avoué de nombreux problèmes dans le processus, comme la couleur du ballon changeant à chaque génération, certains défauts apparaissant dans les images, etc.

Le Keling de Kuaishou explose : un énorme choc dans les cercles étrangers de lIA, la version chinoise de Sora est difficile à trouver

Sora génère des résultats. Adresse vidéo complète : https://youtu.be/9oryIMNVtto?si=F6oDzvrhzfVcQGeh

Pour les modèles de génération vidéo précédente, il est en effet difficile de générer plus d'1 minute de contenu d'un seul coup, surtout si l'écran est requis. Tous les éléments restent cohérents.

Fu Sheng, président-directeur général de Cheetah Mobile et président d'Orion Star, a publié la vidéo "Balloon Man" qu'il a réalisée avec Corin et a déclaré qu'il n'avait fallu que "des dizaines de minutes" pour créer la continuité, un court métrage avec un réalisme et une clarté excellents.

Au cours du processus de test interne, nous avons également découvert des tutoriels et des documents de démonstration créés spontanément par une communauté de créateurs professionnels, comprenant des centaines d'œuvres pouvant être générées, et avons également fourni des conseils sur les dimensions de test.

Lecteurs intéressés, veuillez cliquer sur : https://waytoagi.feishu.cn/wiki/GevKwyEt1i4SUVk0q2JcqQFtnRd

Le court métrage de bien-être public de 2 minutes suivant "A Place Far Far Away" est également entièrement généré par Keling Oui, tu le vois ?

Dans l'ouvrage "Zootopia Racing Competition" du créateur @AIGC Thirteen, ces 20 secondes incluent la génération de voitures de course rapides (grands mouvements), de véhicules à propulsion animale (combinaisons conceptuelles qui testent l'imagination), etc. Difficile, mais à en juger par les résultats, Keling a très bien résolu ces problèmes :

Source : Keling créateur @AIGC Thirteen

Il existe un autre cas très intéressant "Comment ouvrir les vacances" créé par. @八级Mechanics. Cette courte vidéo de 56 secondes a pris un total de 3 heures à produire et comprenait 23 plans. Ajoutez ensuite le doublage aux résultats générés par Ke Ling, et le sentiment d'humour sera là immédiatement : Après avoir lu ces lignes, nous aurions dû réaliser que l'influence de la technologie de génération vidéo représentée par Keling va bien au-delà de la simple création. La mise en œuvre de cette technologie s'accélère dans différents domaines de recherche et secteurs industriels, offrant un potentiel de transformation pour une variété de tâches allant de la génération automatique de contenu aux processus décisionnels complexes.

Quelles industries seront modifiées en premier ?

Le développement de jeux traditionnels est souvent limité par des environnements pré-rendus et des événements scriptés. Une fois que les modèles de génération vidéo seront intégrés dans les jeux, la manière dont les jeux sont développés, joués et vécus sera innovée, apportant de nouvelles possibilités de narration, d’interactivité et d’expériences immersives. Pour les développeurs de jeux, l’une des façons de jouer les plus intuitives consiste à générer des effets visuels personnalisés et même des actions de personnages basées sur les récits des utilisateurs. M Dans la DÉMO ci-dessous, nous pouvons voir que les utilisateurs peuvent créer une expérience corporelle inégalée avec l'aide du cacao :

source : https://x.com/dustinhollywood/status /1800056286215553444

Le Keling de Kuaishou explose : un énorme choc dans les cercles étrangers de lIA, la version chinoise de Sora est difficile à trouver

Une autre industrie qui sera perturbée est celle de la production cinématographique et télévisuelle. La réalisation de films traditionnels est un processus ardu et coûteux qui nécessite souvent des années d'efforts, un équipement considérable et un investissement financier. L'émergence de la technologie de génération vidéo annonce une nouvelle « ère de démocratisation » dans la production cinématographique. Le rêve de générer indépendamment des œuvres cinématographiques et télévisuelles personnelles à partir d'une simple saisie de texte est en train de devenir une réalité.

Maintenant, nous utilisons Keling pour générer un clip unique de 5 secondes. À mesure que la technologie continue d'évoluer, la durée de la vidéo que les utilisateurs peuvent générer à la fois augmentera également. Par exemple, à l’avenir, nous pourrons peut-être générer simultanément du contenu vidéo plus long afin de maintenir la cohérence et le plaisir des scènes d’histoire. Les techniques de caméra peuvent être plus avancées, comme les longs plans continus.

Le Keling de Kuaishou explose : un énorme choc dans les cercles étrangers de lIA, la version chinoise de Sora est difficile à trouver

Le travail de silhouette ci-dessous prouve une fois de plus un point : la compréhension de l'IA et le niveau esthétique de l'art, pas du tout inférieurs aux humains.

Invite : « La silhouette d'un danseur évolue de manière transparente à travers différents styles de danse, du hip-hop au ballet, en un seul plan continu »

。

. Source de l'image : https://x.com/dustinhollywood/status/1799970059957555210

Le style des films de science-fiction est parfaitement maîtrisé :
Source : créateur de Keling @狗儿李

L'IA peut également inspirer la production de superproductions de luxe :
Nous pouvons jeter un oeil à ceci généré par Ke Ling Dans la publicité "Honey", les performances de l'IA dans la simulation du gros plan de verser du miel n'est pas inférieure à celle de l'équipe de caméra professionnelle :

Quelles technologies se cachent derrière KeLing ?
Nous n'avons pas pu obtenir suffisamment de détails sur la recherche et le développement de Sora à partir du bref rapport technique d'OpenAI, mais le site officiel de Keling Large Model a divulgué plus d'informations de référence, notamment la préparation des données, l'architecture du modèle, le plan de formation et plusieurs aspects de stratégie d'optimisation.

Préparation des données
S'appuyant sur les années d'accumulation de Kuaishou dans le domaine de la technologie vidéo, l'équipe Keling Model a construit un système d'étiquetage complet, comprenant la qualité vidéo de base, l'esthétique, le naturel, etc. Dimensions caractériser la qualité des données vidéo et concevoir une variété de fonctionnalités d'étiquette personnalisées pour chaque dimension afin d'affiner les données d'entraînement ou d'ajuster la distribution des données d'entraînement.
Afin de répondre aux besoins de descriptions vidéo et textuelles appariées dans le processus de formation du modèle vidéo Wensheng, l'équipe Keling Big Model a auto-développé un modèle de description vidéo, qui peut générer une vidéo précise, détaillée et structurée. descriptions, améliorant considérablement la génération vidéo. La réactivité du modèle aux commandes de texte.

Architecture du modèle
Une fois les données d'annotation de haute qualité préparées, comment le grand modèle de Keling obtient-il la capacité de simuler les caractéristiques et les combinaisons de concepts du monde physique ?
Dans la conception globale de l'architecture, Keling adopte le transformateur de diffusion (DiT) actuellement populaire. Les modèles de diffusion traditionnels utilisent principalement un U-Net convolutif contenant des blocs de sous-échantillonnage et de suréchantillonnage comme épine dorsale du réseau de débruitage. Mais certaines études ont montré que l’architecture U-Net n’est pas essentielle à la bonne performance des modèles de diffusion. En adoptant une architecture Transformer plus flexible, les modèles de diffusion peuvent utiliser davantage de données de formation et des paramètres de modèle plus larges. DiT est l'un des travaux représentatifs de cette idée de recherche.
Au cours des derniers mois, l'industrie est parvenue à un consensus selon lequel le succès des modèles de génération vidéo dépend en fin de compte de la loi de mise à l'échelle. Ce consensus est basé sur les conclusions de l'article DiT selon lesquelles l'utilisation de Transformer peut augmenter progressivement la taille du modèle : à mesure que la quantité de calculs d'entraînement augmente (le temps d'entraînement du modèle augmente ou le modèle augmente, ou les deux), les performances augmenteront également. par conséquent.
Cela signifie que pour les modèles de génération vidéo, tant que plus de puissance de calcul et plus de données sont utilisées pour la mise à l'échelle, la qualité de la génération continuera de s'améliorer.
La raison pour laquelle Keling peut transformer les invites textuelles des utilisateurs en images spécifiques, y compris des scènes fictives qui n'apparaîtront pas dans le monde réel, est basée sur une compréhension approfondie de la sémantique texte-vidéo et sur les puissantes capacités du transformateur de diffusion. architecture . Grâce aux puissantes capacités de modélisation inspirées de son architecture auto-développée et de sa loi de mise à l'échelle, Keling peut simuler les caractéristiques physiques du monde réel et générer des vidéos conformes aux lois physiques.

En même temps, basé sur le réseau VAE 3D auto-développé par l'équipe, le modèle à grande échelle peut générer une vidéo de niveau film d'une résolution de 1080p, qu'il s'agisse d'une scène vaste et majestueuse ou d'un gros plan délicat, cela peut être un présent vif. Dans les scènes naturelles, la lumière change en douceur. Testeur : @shanshan

^{Bien sûr, pour le modèle de génération vidéo, un autre facteur à prendre en compte est : la vidéo est une sorte de contenu visuel avec une dimension temporelle, et un contenu incohérent incitera les utilisateurs à regarder L'expérience est grandement compromis.}

Afin de garantir que la présentation du mouvement dans l'image soit plus raisonnable, le grand modèle Keling adopte un mécanisme d'attention conjointe spatio-temporelle 3D pour mieux modéliser un mouvement spatio-temporel complexe et peut générer du contenu vidéo avec un contenu vidéo plus grand. mouvements tout en répondant aux exigences du modèle de mouvement.

Stratégie de formation et d'optimisation

Si vous l'avez testé vous-même, vous constaterez que Keling prend en charge la sortie de plusieurs formats d'image vidéo pour le même contenu pendant le processus d'inférence. En effet, Keling adopte une stratégie de formation à résolution variable pour répondre aux besoins d'utilisation de matériel vidéo dans des scènes plus riches.

Dans le même temps, grâce à une infrastructure de formation efficace, une optimisation d'inférence extrême et une infrastructure évolutive, le modèle Keling peut générer des vidéos d'une durée maximale de 2 minutes avec une fréquence d'images de 30 ips.

La génération vidéo n'est plus un jeu de "rattraper OpenAI"

2024 est appelée l'année de l'explosion de la technologie de génération vidéo, mais avant Keling, nous ne l'avons jamais vu au niveau Sora les produits sont disponibles et on ne sait pas quand Sora sera disponible.

Dans un sens, Keling est la première véritable "version chinoise de Sora" et amène cette technologie à un stade où elle est utilisable, facile à utiliser et pratique.

Comme l'a dit Fu Sheng : "C'est peut-être le meilleur produit vidéo Wensheng que vous puissiez utiliser dans le monde aujourd'hui." Quiconque a essayé Keling en personne comprendra que ce n'est en aucun cas une exagération.

La vidéo de Fu Sheng a également donné un autre point de vue : "À son tour, elle montre aussi que Sora n'est pas une avancée technique, mais une avancée produit."

Je me souviens encore d'il y a quelques mois, Sora a élevé le niveau technique de l'ensemble de la piste de génération vidéo avec ses avantages de 60 secondes de vidéo continue, une texture d'image haute définition, un mouvement continu de la caméra et des méthodes de mouvement, déclenchant une vague de concurrence dans la piste vidéo vincentienne.

Nous pensions à l'origine que le domaine de la génération vidéo évoluerait vers un rattrapage technologique entre les pays nationaux et étrangers, tout comme le modèle textuel de l'année dernière. Cependant, la sortie de Keling signifie que l'exploration de la technologie nationale de grands modèles vidéo Wensheng a atteint un nouveau sommet et a atteint un leadership substantiel dans la mise en œuvre du produit. Nous n’aurons peut-être pas besoin de rejouer au jeu du « rattrapage d’OpenAI ».

Certains ont jugé que la Chine dépassait les États-Unis dans le domaine de l'intelligence artificielle.

La naissance de Keling pourrait signifier le début d'une nouvelle ère. À l’ère de l’IA générative, générer et éditer des vidéos pourrait être aussi simple que d’utiliser des photos sur des téléphones mobiles aujourd’hui, et la barrière entre l’imagination et la réalité sera complètement brisée.
En raison de sa popularité, le nombre de personnes faisant actuellement la queue pour tester Corin a dépassé les 50 000. Si vous êtes intéressé par le gameplay des vidéos générées par l'IA, vous souhaiterez peut-être d'abord suivre le « Compte vidéo Keling AI » pour obtenir davantage de cas de haute qualité.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!