AI アプリケーションの次の注目のアプリケーションが登場しました。アリババとバイトダンスは、メッシを簡単に踊らせることができる同様の成果物を静かに発表しました。

王林

Dec 05, 2023 pm 05:43 PM

AI ビデオ生成アーティファクトが再び登場しました。最近、アリババとバイトダンスはそれぞれのツールを密かに開始しました

Ali は、Alibaba Intelligent Computing Research Institute が開発したプロジェクトである AnimateEveryone を立ち上げました。提供する必要があるのは、静的なキャラクター画像 (実在の人物、アニメーション/漫画のキャラクターなど) といくつかのアクションと姿勢 (ダンス、歩行) を使用すると、キャラクターの詳細な特徴 (表情、服装の詳細など) を保持したままアニメートできます。

メッシの写真さえあれば、「ボールの王様」にさまざまなポーズをとらせることができる（下図参照）この原則に従えば、メッシを踊らせるのは簡単だ。

シンガポール国立大学とバイトダンスは共同で Magic Animate を立ち上げました。これも AI テクノロジーを使用して静止画像を動的なビデオに変換します。 Byte 氏は、非常に困難な TikTok ダンスデータセットにおいて、Magic Animate によって生成されたビデオのリアリズムは、最も強力なベースラインと比較して 38% 以上向上したと述べました。

Tusheng Video プロジェクトでは、Alibaba と ByteDance が協力し、論文リリース、コード公開、テストアドレス公開などの一連の作業をほぼ同時に完了しました。2 つの関連論文のリリース時間はわずか 1 日しか違えませんでした

バイトに関する関連論文が 11 月 27 日にリリースされました:

アリ関連の論文は11月28日に発売されます:

両社のオープンソースファイルは Github で継続的に更新されます

書き直す必要があるコンテンツは次のとおりです: Magic Animate のオープンソースプロジェクトファイルパッケージ

AnimateEveryone のオープンソースプロジェクトファイルパッケージ

これは、次の事実を改めて強調しています: ビデオ生成は AIGC で人気のある競争イベントであり、テクノロジー大手やスター企業がそれに細心の注意を払っており、積極的に投資しています。 Runway、Meta、Stable AI が AI Vincent ビデオアプリケーションを開始したことがわかり、Adobe は最近 AI ビデオ作成会社 Rephrase.ai の買収を発表しました。

上記 2 社の展示ビデオを見る限り、生成効果は大幅に向上しており、以前よりも滑らかさとリアルさが向上しています。局所的な歪み、ぼやけた詳細、一貫性のないプロンプトワード、元の画像との違い、フレーム落ち、画面のジッターなど、現在の画像/ビデオ生成アプリケーションの欠点を克服します。

両方のツールは拡散モデルを使用して時間的に一貫したポートレートアニメーションを作成し、トレーニングデータはほぼ同じです。両方で使用される安定拡散は、CompVis、Stability AI、LAION の研究者とエンジニアによって作成されたテキストから画像への潜在拡散モデルであり、LAION-5B データベースのサブセットからの 512x512 画像を使用してトレーニングされました。 LAION-5B は、自由にアクセスできる、現存する最大のマルチモーダルデータセットです。

アプリケーションについて言えば、Alibaba の研究者は論文の中で、Animate Anybody は基本的な方法として、将来的にさまざまな Tusheng ビデオアプリケーションに拡張される可能性があると述べています。このツールには、オンライン小売、エンターテイメントビデオ、アート制作とバーチャルキャラクター。 ByteDance はまた、Magic Animate が強力な汎用化機能を実証しており、複数のシナリオに適用できることも強調しました。

マルチモーダルアプリケーションの「聖杯」: Vincent Video Vincent Video は、テキストと音声テクノロジーを組み合わせたビデオコンテンツのマルチモーダル分析と処理のアプリケーションを指します。テキストおよび音声情報をビデオ画像に関連付けて、より豊かなビデオの理解とインタラクティブなエクスペリエンスを提供します。 Vincent Video Application には、インテリジェントなビデオ監視、仮想現実、ビデオ編集、コンテンツ分析など、幅広い応用分野があります。 Vincent Video は、テキストと音声の分析を通じて、ビデオ内のオブジェクト、シーン、アクションを識別して理解できるため、よりインテリジェントなビデオ処理および制御機能をユーザーに提供できます。インテリジェントなビデオ監視の分野では、Vincent Video は監視ビデオコンテンツに自動的にラベルを付けて分類できるため、監視の効率と精度が向上します。仮想現実の分野では、Vincent Video はユーザーの音声コマンドや仮想環境と対話して、より没入型の仮想体験を実現できます。ビデオ編集とコンテンツ分析の分野では、Vincent Video はユーザーがビデオから重要な情報を自動的に抽出し、インテリジェントな編集と編集を実行できるように支援します。つまり、Vincent Video は、マルチモーダルアプリケーションの「聖杯」として、ビデオコンテンツの理解と対話のための、より包括的でインテリジェントなソリューションを提供します。その発展は、さまざまな分野に更なる革新と利便性をもたらし、科学技術の進歩と社会の発展を促進します。

動画はテキストや画像に比べて、情報をより適切に表現し、画像を豊かにし、ダイナミックにすることができるという利点があります。ビデオはテキスト、画像、サウンド、視覚効果を組み合わせて、複数の情報形式を統合して 1 つのメディアに表示できます

AI ビデオツールは強力な製品機能を備えており、より幅広いアプリケーションシナリオを開くことができます。 AI ビデオツールは、簡単なテキスト説明やその他の操作を通じて、高品質で完全なビデオコンテンツを生成できるため、ビデオ作成の敷居が低くなります。これにより、専門家でなくても動画を通じてコンテンツを正確に表示できるようになり、さまざまな業界分野でコンテンツ制作の効率が向上し、より創造的なアイデアが生み出されることが期待されます。
Guosheng Securities の Song Jiaji 氏は、AI Wensheng ビデオがマルチモーダルアプリケーションの次の目的地であり、マルチモーダル AIGC の「聖杯」であると以前に指摘しました。AI ビデオはマルチモーダルパズルの最後のピースを完成させます。 AI の作成、下流アプリケーションが加速する瞬間も来る；盛港証券は、ビデオ AI はマルチモーダル分野の最後のリンクであると述べた；華泰証券は、AIGC のトレンドは徐々にビンセントのテキストやビンセントの写真から、 Vincentian ビデオと Vincentian ビデオは計算が非常に難しく、高いデータ要件が上流の AI コンピューティング能力に対する継続的な強い需要をサポートします。

しかし、大企業間、大企業とベンチャーの差はそれほど大きくなく、同じスタートラインにいるとも言えます
。現在、Vincent Video のパブリックベータアプリケーションは非常に少なく、Runway Gen-2、Zero Scope、Pika などの少数のみです。 Meta や Google などのシリコンバレーの人工知能大手でさえ、Vincent Video の進歩は遅く、それぞれがリリースした Make-A-Video と Phenaki はまだ公開テスト用にリリースされていません。技術的な観点から見ると、ビデオ生成ツールの基礎となるモデルとテクノロジーはまだ最適化されています。現在、主流の Vincent ビデオモデルは主に Transformer モデルと Diffusion モデルを使用しています。拡散モデルツールは主にビデオの品質を向上させ、粗い効果や詳細の欠如の問題を克服することに特化しています。ただし、これらのビデオの長さは 4 秒未満です

一方、拡散モデルはうまく機能しますが、そのトレーニングプロセスには大量のメモリとコンピューティング能力が必要となるため、モデルトレーニングのコストを負担できるのは、多額の投資を受けた大企業や新興企業だけです。

出典: Science and Technology Innovation Board Daily

以上がAI アプリケーションの次の注目のアプリケーションが登場しました。アリババとバイトダンスは、メッシを簡単に踊らせることができる同様の成果物を静かに発表しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。