Zhipu 大型モデルチームは自己開発および構築されています。
Kuaishou Keling AIが国内外で人気を集めているため、2023年にはテキストモデルと同様に国内のビデオ生成がますます人気が高まっています。 たった今、別の大型ビデオ生成モデル製品が正式にリリースされることが発表されました。Zhipu AI は「Qingying」を正式にリリースしました。良いアイデア (数単語から数百単語) と少しの忍耐力 (30 秒) があれば、「Qingying」は解像度 1440x960 の高精度ビデオを生成できます。 今後、Qingying は Qingyan アプリを起動し、すべてのユーザーが対話、写真、ビデオ、コード、エージェント生成の機能を完全に体験できるようになります。 Zhipu Qingyan の Web とアプリをカバーすることに加えて、「AI ダイナミック フォト ミニ プログラム」を操作して、携帯電話上の写真にダイナミックな効果をすばやく実現することもできます。 Zhipu「Qingying」によって生成されたビデオの長さは 6 秒で、解像度は 1440×960 で、すべてのユーザーが無料で使用できます。
- PCアクセスリンク: https://chatglm.cn/
- モバイルアクセスリンク: https://chatglm.cn/download?fr=web_home
智Pu AI同氏は、技術の継続的な発展により、「Qingying」の生成機能は間もなくショートビデオ制作、広告生成、さらには映画編集にも使用されるようになるだろうと述べています。 生成 AI ビデオ モデルの開発において、スケーリング則はアルゴリズムとデータの両方で役割を果たし続けます。 「私たちはモデルレベルでより効率的なスケーリング手法を積極的に模索しています。」 Zhipu AI の CEO、Zhang Peng 氏は Zhipu Open Day で次のように述べました。
現在のいくつかのデモと簡単なトライアルから判断すると、Zhipu AI の「Qingying」には次の特徴があります:
- 風景の中で、動物、サイエンス フィクション、人文科学、歴史などのビデオ コンテンツがより適切に生成されます
- 生成に適したビデオ スタイルには、漫画スタイル、実写スタイル、二次元アニメーション スタイルなどが含まれます
- ;エンティティ タイプのプレゼンテーション効果 見てください、動物 > 植物 > アイテム > 建物 > 人。
テキストや写真を含むビデオを生成でき、生成されるスタイルはファンタジーアニメーションスタイルをカバーします。 プロンプトワード: 低い角度で上方に押し上げ、ゆっくりと頭を上げます。氷山に突然ドラゴンが現れ、ドラゴンがあなたを見つけてあなたに向かって突進します。ハリウッド映画風。
一言: 魔術師が波の中で呪文を唱えており、宝石が海水を集めて魔法のポータルを開きます。
プロンプトワード: 森では、人間の視点から見ると、そびえ立つ木々が太陽を遮り、葉の隙間からいくらかの日光が差し込みます、チンダル効果。
一言: 水モルモットは人間のように立ち、手にアイスクリームを持って嬉しそうに食べています。
En plus des vidéos générées par texte, vous pouvez également jouer avec des vidéos générées par des images sur Qingying. Tusheng Video propose de nouvelles façons de jouer, notamment des émoticônes, la production publicitaire, la création d'intrigues, la création de courtes vidéos, etc. Dans le même temps, l'applet « Old Photos Animated » basée sur Qingying sera également lancée simultanément. Il vous suffit de télécharger d'anciennes photos en une seule étape, et l'IA peut animer les photos condensées à l'ancienne. Mot rapide : Un poisson coloré qui se déplace librement.
Mot rapide : L'homme sur la photo se lève, le vent souffle dans ses cheveux.
Mot rapide : Le petit jouet canard jaune flotte à la surface de la piscine, en gros plan.
Conseils : La caméra tourne autour d'un groupe de vieux téléviseurs diffusant différents programmes - films de science-fiction des années 1950, films d'horreur, informations, statiques, sitcoms des années 1970 et plus encore, dans un décor grande galerie dans un musée de New York.
Mot rapide : sortez un iPhone et prenez une photo.
Vos émoticônes couramment utilisées, Zhipu AI peut les étendre en "séries". Mots rapides : Les quatre maîtres et apprentis ont tendu la main pour se saluer, avec des expressions confuses sur leurs visages. Mot rapide : Le chaton ouvrit grand la bouche, avec une expression confuse sur le visage et de nombreux points d'interrogation. On peut voir que Qingying peut gérer différents styles, et il existe d'autres façons de jouer en attendant que les gens les découvrent. Cliquez simplement sur la fonction « Qingying Intelligent » sur le PC/APP Zhipu Qingyan, et chaque idée que vous avez peut devenir réalité en un instant. Technologie entièrement auto-développéeLe tout dans une IA à spectre intelligent à grand modèle, qui a commencé très tôt à déployer des modèles d'IA générative multimodaux. À partir de 2021, Zhipu AI a publié de nombreuses études telles que CogView (NeurIPS'21), CogView2 (NeurIPS'22), CogVideo (ICLR'23), Relay Diffusion (ICLR'24), CogView3 (2024), etc. Selon les rapports, "Qingying" s'appuie sur CogVideoX, une nouvelle génération de grand modèle de génération vidéo développée indépendamment par l'équipe de grands modèles Zhipu AI. En novembre de l'année dernière, son équipe a créé le modèle de génération de texte en vidéo CogVideo basé sur le modèle graphique de Vincent CogView2, et l'a ensuite rendu open source.
CogVideo possède 9,4 milliards de paramètres. Il génère une série d'images initiales via CogView2 et implémente la génération vidéo en interpolant des images à partir d'images basées sur le modèle d'attention bidirectionnel. De plus, CogVideo génère un environnement 3D basé sur des descriptions textuelles et peut utiliser directement des modèles pré-entraînés pour éviter une formation coûteuse. Il prend également en charge la saisie d'invites en chinois. Le modèle de génération vidéo de Qingying Base cette fois est CogVideoX, qui peut intégrer les trois dimensions du texte, du temps et de l'espace. Il fait référence à la conception de l'algorithme de Sora. Grâce à l'optimisation, CogVideoX L'inférence. la vitesse de la génération précédente (CogVideo) a été multipliée par 6. L'émergence de Sora d'OpenAI a permis à l'IA de faire des progrès significatifs dans la génération de vidéos, mais la plupart des modèles ont encore des difficultés à générer du contenu vidéo avec cohérence et consistance logique. Afin de résoudre ces problèmes, Zhipu AI a développé indépendamment une structure d'encodeur automatique variationnel tridimensionnel efficace (VAE 3D), qui peut compresser l'espace vidéo d'origine à 2 %, réduisant considérablement le coût de formation du modèle. la difficulté est également considérablement réduite. La structure du modèle utilise la convolution causale 3D comme composant principal du modèle et supprime le module d'attention couramment utilisé dans les encodeurs automatiques, afin que le modèle ait la capacité d'être transféré à différentes résolutions. Dans le même temps, la convolution causale dans la dimension temporelle rend la séquence d'encodage et de décodage vidéo du modèle indépendante d'avant en arrière, ce qui permet d'étendre le modèle à des fréquences d'images plus élevées et à des scènes plus longues grâce à un réglage fin. De plus, la génération de vidéo est également confrontée à un tel problème, c'est-à-dire que la plupart des données vidéo manquent de texte descriptif correspondant ou que la qualité de la description est faible. Pour cette raison, Zhipu AI a auto-développé un système de bout en bout. modèle de compréhension vidéo final pour générer des descriptions détaillées qui correspondent au contenu de données vidéo massives, puis créer des paires vidéo-texte massives de haute qualité, rendant le modèle formé hautement conforme aux instructions. Enfin, il convient de mentionner que Zhipu AI a développé une architecture de transformateur qui intègre le texte, le temps et l'espace. Cette architecture n'utilise pas le module d'attention croisée traditionnel, mais intègre le texte et la vidéo dans l'étape d'entrée. connectés pour une interaction plus complète des deux modalités. Cependant, il existe de grandes différences dans les espaces de fonctionnalités de texte et de vidéo. Zhipu AI traite les deux séparément via une norme de couche adaptative experte, permettant au modèle d'utiliser efficacement les paramètres pour mieux aligner les informations visuelles avec les informations sémantiques. Zhipu AI a déclaré que grâce à la technologie d'optimisation, la vitesse d'inférence du modèle vidéo génératif de Zhipu AI a augmenté de 6 fois. Actuellement, le temps théorique nécessaire au modèle pour générer une vidéo 6s est de 30 secondes. Maintenant, avec le lancement de "Qingying", Zhipu AI, un acteur majeur dans le domaine de la génération vidéo, est de nouveau apparu. En plus des applications que tout le monde peut essayer, l'API Qingying est également lancée simultanément sur la plate-forme ouverte de grand modèle bigmodel.cn. Les entreprises et les développeurs peuvent découvrir et utiliser Wensheng Video et Tusheng Video en appelant les capacités du modèle API. Avec le lancement continu de fonctions de génération vidéo d'IA par diverses entreprises, le concours d'IA générative de cette année est entré dans une phase brûlante. Pour la plupart des utilisateurs, il existe plus de choix : désormais, les personnes sans expérience en production vidéo et les créateurs de contenu professionnels peuvent réaliser la création vidéo à l'aide de capacités de grands modèles. 以上がZhipu AI がビデオ生成に参入: 「Qingying」はオンライン、6 秒、無料、無制限の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。