ホームページ テクノロジー周辺機器 AI AI アプリケーションの次の注目のアプリケーションが登場しました。アリババとバイトダンスは、メッシを簡単に踊らせることができる同様の成果物を静かに発表しました。

AI アプリケーションの次の注目のアプリケーションが登場しました。アリババとバイトダンスは、メッシを簡単に踊らせることができる同様の成果物を静かに発表しました。

Dec 05, 2023 pm 05:43 PM

AI ビデオ生成アーティファクトが再び登場しました。最近、アリババとバイトダンスはそれぞれのツールを密かに開始しました

Ali は、Alibaba Intelligent Computing Research Institute が開発したプロジェクトである AnimateEveryone を立ち上げました。提供する必要があるのは、静的なキャラクター画像 (実在の人物、アニメーション/漫画のキャラクターなど) といくつかのアクションと姿勢 (ダンス、歩行) を使用すると、キャラクターの詳細な特徴 (表情、服装の詳細など) を保持したままアニメートできます。

メッシの写真さえあれば、「ボールの王様」にさまざまなポーズをとらせることができる(下図参照) この原則に従えば、メッシを踊らせるのは簡単だ。

シンガポール国立大学とバイトダンスは共同で Magic Animate を立ち上げました。これも AI テクノロジーを使用して静止画像を動的なビデオに変換します。 Byte 氏は、非常に困難な TikTok ダンス データセットにおいて、Magic Animate によって生成されたビデオのリアリズムは、最も強力なベースラインと比較して 38% 以上向上したと述べました。

Tusheng Video プロジェクトでは、Alibaba と ByteDance が協力し、論文リリース、コード公開、テストアドレス公開などの一連の作業をほぼ同時に完了しました。2 つの関連論文のリリース時間はわずか 1 日しか違えませんでした

バイトに関する関連論文が 11 月 27 日にリリースされました:

AI アプリケーションの次の注目のアプリケーションが登場しました。アリババとバイトダンスは、メッシを簡単に踊らせることができる同様の成果物を静かに発表しました。

アリ関連の論文は11月28日に発売されます:

AI アプリケーションの次の注目のアプリケーションが登場しました。アリババとバイトダンスは、メッシを簡単に踊らせることができる同様の成果物を静かに発表しました。

両社のオープンソース ファイルは Github で継続的に更新されます

AI アプリケーションの次の注目のアプリケーションが登場しました。アリババとバイトダンスは、メッシを簡単に踊らせることができる同様の成果物を静かに発表しました。

書き直す必要があるコンテンツは次のとおりです: Magic Animate のオープンソース プロジェクト ファイル パッケージ

AI アプリケーションの次の注目のアプリケーションが登場しました。アリババとバイトダンスは、メッシを簡単に踊らせることができる同様の成果物を静かに発表しました。

AnimateEveryone のオープンソース プロジェクト ファイル パッケージ

これは、次の事実を改めて強調しています: ビデオ生成は AIGC で人気のある競争イベントであり、テクノロジー大手やスター企業がそれに細心の注意を払っており、積極的に投資しています。 Runway、Meta、Stable AI が AI Vincent ビデオ アプリケーションを開始したことがわかり、Adobe は最近 AI ビデオ作成会社 Rephrase.ai の買収を発表しました。

上記 2 社の展示ビデオを見る限り、生成効果は大幅に向上しており、以前よりも滑らかさとリアルさが向上しています。局所的な歪み、ぼやけた詳細、一貫性のないプロンプトワード、元の画像との違い、フレーム落ち、画面のジッターなど、現在の画像/ビデオ生成アプリケーションの欠点を克服します。

両方のツールは拡散モデルを使用して時間的に一貫したポートレート アニメーションを作成し、トレーニング データはほぼ同じです。両方で使用される安定拡散は、CompVis、Stability AI、LAION の研究者とエンジニアによって作成されたテキストから画像への潜在拡散モデルであり、LAION-5B データベースのサブセットからの 512x512 画像を使用してトレーニングされました。 LAION-5B は、自由にアクセスできる、現存する最大のマルチモーダル データセットです。

アプリケーションについて言えば、Alibaba の研究者は論文の中で、Animate Anybody は基本的な方法として、将来的にさまざまな Tusheng ビデオ アプリケーションに拡張される可能性があると述べています。このツールには、オンライン小売、エンターテイメント ビデオ、アート制作とバーチャルキャラクター。 ByteDance はまた、Magic Animate が強力な汎用化機能を実証しており、複数のシナリオに適用できることも強調しました。

マルチモーダル アプリケーションの「聖杯」: Vincent Video Vincent Video は、テキストと音声テクノロジーを組み合わせたビデオ コンテンツのマルチモーダル分析と処理のアプリケーションを指します。テキストおよび音声情報をビデオ画像に関連付けて、より豊かなビデオの理解とインタラクティブなエクスペリエンスを提供します。 Vincent Video Application には、インテリジェントなビデオ監視、仮想現実、ビデオ編集、コンテンツ分析など、幅広い応用分野があります。 Vincent Video は、テキストと音声の分析を通じて、ビデオ内のオブジェクト、シーン、アクションを識別して理解できるため、よりインテリジェントなビデオ処理および制御機能をユーザーに提供できます。 インテリジェントなビデオ監視の分野では、Vincent Video は監視ビデオ コンテンツに自動的にラベルを付けて分類できるため、監視の効率と精度が向上します。仮想現実の分野では、Vincent Video はユーザーの音声コマンドや仮想環境と対話して、より没入型の仮想体験を実現できます。ビデオ編集とコンテンツ分析の分野では、Vincent Video はユーザーがビデオから重要な情報を自動的に抽出し、インテリジェントな編集と編集を実行できるように支援します。 つまり、Vincent Video は、マルチモーダル アプリケーションの「聖杯」として、ビデオ コンテンツの理解と対話のための、より包括的でインテリジェントなソリューションを提供します。その発展は、さまざまな分野に更なる革新と利便性をもたらし、科学技術の進歩と社会の発展を促進します。

動画はテキストや画像に比べて、情報をより適切に表現し、画像を豊かにし、ダイナミックにすることができるという利点があります。ビデオはテキスト、画像、サウンド、視覚効果を組み合わせて、複数の情報形式を統合して 1 つのメディアに表示できます

AI ビデオ ツールは強力な製品機能を備えており、より幅広いアプリケーション シナリオを開くことができます。 AI ビデオ ツールは、簡単なテキスト説明やその他の操作を通じて、高品質で完全なビデオ コンテンツを生成できるため、ビデオ作成の敷居が低くなります。これにより、専門家でなくても動画を通じてコン​​テンツを正確に表示できるようになり、さまざまな業界分野でコンテンツ制作の効率が向上し、より創造的なアイデアが生み出されることが期待されます。

Guosheng Securities の Song Jiaji 氏は、AI Wensheng ビデオがマルチモーダル アプリケーションの次の目的地であり、マルチモーダル AIGC の「聖杯」であると以前に指摘しました。AI ビデオはマルチモーダル パズルの最後のピースを完成させます。 AI の作成、下流 アプリケーションが加速する瞬間も来る;盛港証券は、ビデオ AI はマルチモーダル分野の最後のリンクであると述べた;華泰証券は、AIGC のトレンドは徐々にビンセントのテキストやビンセントの写真から、 Vincentian ビデオと Vincentian ビデオは計算が非常に難しく、高いデータ要件が上流の AI コンピューティング能力に対する継続的な強い需要をサポートします。

しかし、大企業間、大企業とベンチャーの差はそれほど大きくなく、同じスタートラインにいるとも言えます

。現在、Vincent Video のパブリック ベータ アプリケーションは非常に少なく、Runway Gen-2、Zero Scope、Pika などの少数のみです。 Meta や Google などのシリコンバレーの人工知能大手でさえ、Vincent Video の進歩は遅く、それぞれがリリースした Make-A-Video と Phenaki はまだ公開テスト用にリリースされていません。 技術的な観点から見ると、ビデオ生成ツールの基礎となるモデルとテクノロジーはまだ最適化されています。現在、主流の Vincent ビデオ モデルは主に Transformer モデルと Diffusion モデルを使用しています。拡散モデル ツールは主にビデオの品質を向上させ、粗い効果や詳細の欠如の問題を克服することに特化しています。ただし、これらのビデオの長さは 4 秒未満です

一方、拡散モデルはうまく機能しますが、そのトレーニング プロセスには大量のメモリとコンピューティング能力が必要となるため、モデル トレーニングのコストを負担できるのは、多額の投資を受けた大企業や新興企業だけです。

出典: Science and Technology Innovation Board Daily

以上がAI アプリケーションの次の注目のアプリケーションが登場しました。アリババとバイトダンスは、メッシを簡単に踊らせることができる同様の成果物を静かに発表しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

カーソルAIでバイブコーディングを試してみましたが、驚くべきことです! カーソルAIでバイブコーディングを試してみましたが、驚くべきことです! Mar 20, 2025 pm 03:34 PM

バイブコーディングは、無限のコード行の代わりに自然言語を使用してアプリケーションを作成できるようにすることにより、ソフトウェア開発の世界を再構築しています。 Andrej Karpathyのような先見の明に触発されて、この革新的なアプローチは開発を許可します

2025年2月のトップ5 Genai発売:GPT-4.5、Grok-3など! 2025年2月のトップ5 Genai発売:GPT-4.5、Grok-3など! Mar 22, 2025 am 10:58 AM

2025年2月は、生成AIにとってさらにゲームを変える月であり、最も期待されるモデルのアップグレードと画期的な新機能のいくつかをもたらしました。 Xai’s Grok 3とAnthropic's Claude 3.7 SonnetからOpenaiのGまで

オブジェクト検出にYolo V12を使用する方法は? オブジェクト検出にYolo V12を使用する方法は? Mar 22, 2025 am 11:07 AM

Yolo(あなたは一度だけ見ています)は、前のバージョンで各反復が改善され、主要なリアルタイムオブジェクト検出フレームワークでした。最新バージョンYolo V12は、精度を大幅に向上させる進歩を紹介します

ChatGpt 4 oは利用できますか? ChatGpt 4 oは利用できますか? Mar 28, 2025 pm 05:29 PM

CHATGPT 4は現在利用可能で広く使用されており、CHATGPT 3.5のような前任者と比較して、コンテキストを理解し、一貫した応答を生成することに大幅な改善を示しています。将来の開発には、よりパーソナライズされたインターが含まれる場合があります

Google' s Gencast:Gencast Mini Demoを使用した天気予報 Google' s Gencast:Gencast Mini Demoを使用した天気予報 Mar 16, 2025 pm 01:46 PM

Google Deepmind's Gencast:天気予報のための革新的なAI 天気予報は、初歩的な観察から洗練されたAI駆動の予測に移行する劇的な変化を受けました。 Google DeepmindのGencast、グラウンドブレイク

chatgptよりも優れたAIはどれですか? chatgptよりも優れたAIはどれですか? Mar 18, 2025 pm 06:05 PM

この記事では、Lamda、Llama、GrokのようなChatGptを超えるAIモデルについて説明し、正確性、理解、業界への影響における利点を強調しています(159文字)

O1対GPT-4O:OpenAIの新しいモデルはGPT-4Oよりも優れていますか? O1対GPT-4O:OpenAIの新しいモデルはGPT-4Oよりも優れていますか? Mar 16, 2025 am 11:47 AM

OpenaiのO1:12日間の贈り物は、これまでで最も強力なモデルから始まります 12月の到着は、世界の一部の地域で雪片が世界的に減速し、雪片がもたらされますが、Openaiは始まったばかりです。 サム・アルトマンと彼のチームは12日間のギフトを立ち上げています

次のラグモデルにミストラルOCRを使用する方法 次のラグモデルにミストラルOCRを使用する方法 Mar 21, 2025 am 11:11 AM

Mistral OCR:マルチモーダルドキュメントの理解により、検索された世代の革命を起こします 検索された生成(RAG)システムはAI機能を大幅に進めており、より多くの情報に基づいた応答のために膨大なデータストアにアクセスできるようになりました

See all articles