目次
最後に、EMO を支えるチームのメンバーを見てみましょう。
One More Thing
ホームページ テクノロジー周辺機器 AI AIビデオが再び爆発!写真+音声がビデオになり、アリババはヒロインのソラにLi Ziと一緒に歌ってラップするように頼みました。

AIビデオが再び爆発!写真+音声がビデオになり、アリババはヒロインのソラにLi Ziと一緒に歌ってラップするように頼みました。

Feb 29, 2024 pm 07:07 PM
ai 写真

Sora の後に、実は新しい AI ビデオ モデルがあり、これはとても素晴らしいもので、誰もが気に入って賞賛しています。

AIビデオが再び爆発!写真+音声がビデオになり、アリババはヒロインのソラにLi Ziと一緒に歌ってラップするように頼みました。写真

これで、「クロニクス」の悪役ガオ・チー強がルオ・シャンに変身し、みんなを教育できるようになります(犬頭)。

AIビデオが再び爆発!写真+音声がビデオになり、アリババはヒロインのソラにLi Ziと一緒に歌ってラップするように頼みました。

これは、Alibaba の最新のオーディオ主導のポートレート ビデオ生成フレームワーク、EMO (Emote Portrait Alive) です。

これを使えば、1枚の参考画像と音声(スピーチ、歌、ラップなども可)を入力するだけで、生き生きとした表情のAI動画を生成できます。ビデオの最終的な長さは、入力音声の長さによって異なります。

AI エフェクト体験のベテラン出場者であるモナ リザにモノローグを朗読してもらうことができます:

AIビデオが再び爆発!写真+音声がビデオになり、アリババはヒロインのソラにLi Ziと一緒に歌ってラップするように頼みました。

若くてハンサムな小さなプラムが登場します。このペースの速い RAP タレント ショーでは、口の形についていくのに問題はありませんでした。

AIビデオが再び爆発!写真+音声がビデオになり、アリババはヒロインのソラにLi Ziと一緒に歌ってラップするように頼みました。

広東語のリップシンクさえも続けることができ、弟のレスリー チャンはそれを可能にしました。イーソン・チャンの「無条件」を歌う:

AIビデオが再び爆発!写真+音声がビデオになり、アリババはヒロインのソラにLi Ziと一緒に歌ってラップするように頼みました。

#要するに、肖像画に歌わせるか(さまざまなスタイルの肖像画や歌)、肖像画にしゃべらせるか(さまざまな言語)、またはあらゆる種類の「大げさな」ものを作るためです。俳優を超えたパフォーマンスとEMO効果には、私たちはしばらく唖然としました。

ネチズンは嘆いた:「私たちは新たな現実に入りつつある!」

AIビデオが再び爆発!写真+音声がビデオになり、アリババはヒロインのソラにLi Ziと一緒に歌ってラップするように頼みました。2019年版『ジョーカー』は2008年版『ダークナイト』のセリフを言った

一部のネチズンは、EMO で生成されたビデオのビデオを取得し、その効果をフレームごとに分析し始めています。

下の動画にあるように、主人公はソラが生成したAIレディで、今回彼女が歌ってくれたのは「Don’t Start Now」です。

コメント投稿者が分析:

このビデオの一貫性は以前よりもさらに優れています。
1分以上の動画では、ソラさんの顔のサングラスはほとんど動かず、耳と眉毛が独立して動きました。
一番興奮したのは、そらさんの喉が本当に息をしているように見えることです!歌いながら体が震えたり、微妙に動いたりして、衝撃を受けました!

AIビデオが再び爆発!写真+音声がビデオになり、アリババはヒロインのソラにLi Ziと一緒に歌ってラップするように頼みました。写真

# とはいえ、EMO は注目の新技術であるため、類似製品と比較することは避けられません——

昨日、AI動画生成会社ピカも動画キャラクターの吹き替えと「口パク」を同時に行う口パク機能をリリースし、大ヒットしました。

具体的な効果は何ですか? 直接ここに載せます

AIビデオが再び爆発!写真+音声がビデオになり、アリババはヒロインのソラにLi Ziと一緒に歌ってラップするように頼みました。

比較後、コメントエリアのネチズンはアリに負けたという結論に達しました。

AIビデオが再び爆発!写真+音声がビデオになり、アリババはヒロインのソラにLi Ziと一緒に歌ってラップするように頼みました。写真

EMO は論文を公開し、オープンソースであると発表しました。 ######しかし!オープンソースですが、GitHub にはまだショートポジションがあります。

しかしまた!ショートポジションですがスター数は2.1kを超えています。

写真

AIビデオが再び爆発!写真+音声がビデオになり、アリババはヒロインのソラにLi Ziと一緒に歌ってラップするように頼みました。 これは、ジジ王と同じくらいネットユーザーを本当に不安にさせました。

Sora とは異なるアーキテクチャAIビデオが再び爆発!写真+音声がビデオになり、アリババはヒロインのソラにLi Ziと一緒に歌ってラップするように頼みました。

EMO の論文が発表されるとすぐに、サークル内の多くの人が安堵のため息をつきました。

ソラの技術的なルートとは異なり、ソラをコピーすることが唯一の方法ではないことを示しています。

EMO は DiT のようなアーキテクチャに基づいていません。つまり、Transformer は従来の UNet を置き換えるために使用されていません。そのバックボーン ネットワークは Stable Diffusion 1.5 から変更されています。

具体的には、EMO は、入力ビデオの長さに基づいて任意の長さのビデオを生成できる、表現力豊かなオーディオ主導のポートレート ビデオ生成フレームワークです。

AIビデオが再び爆発!写真+音声がビデオになり、アリババはヒロインのソラにLi Ziと一緒に歌ってラップするように頼みました。#画像

フレームワークは主に 2 つのステージで構成されます:

    #フレーム エンコード ステージ
  • # ReferenceNet と呼ばれる UNet ネットワークを展開します。これは、参照画像とビデオのフレームから特徴を抽出する役割を果たします。

拡散段階
  • まず、事前トレーニングされたオーディオ エンコーダーがオーディオの埋め込みを処理し、顔領域マスクがマルチフレーム ノイズと結合されて、ノイズの生成が制御されます。顔画像。

バックボーン ネットワークがノイズ除去操作を主導します。バックボーン ネットワークでは、リファレンス アテンションとオーディオ アテンションという 2 種類のアテンションが適用され、それぞれキャラクターのアイデンティティの一貫性を維持し、キャラクターの動きを制御します。

さらに、時間モジュールは時間次元を操作し、動きの速度を調整するために使用されます。

トレーニング データに関しては、チームは 250 時間以上のビデオと 1,500 万以上の画像を含む、大規模で多様な音声およびビデオ データ セットを構築しました。

最終実装の具体的な機能は次のとおりです。

キャラクターのアイデンティティの一貫性を確保しながら、入力音声に基づいて任意の長さのビデオを生成できます (指定された最長の単一ビデオ)デモは 1 分 49 秒です)。
  • さまざまな言語での会話と歌をサポート (デモには中国語、広東語、英語、日本語、韓国語が含まれます)
  • さまざまな絵画スタイルをサポート (写真、伝統的な絵画、コミック、3D レンダリング、 AI デジタル パーソン)

写真 AIビデオが再び爆発!写真+音声がビデオになり、アリババはヒロインのソラにLi Ziと一緒に歌ってラップするように頼みました。# 口の形状を測定するだけで SOTA を取得する以前の方法と比較して、定量的な比較も大幅に改善されました。 SyncNet の同期品質の指標は若干劣ります。

写真AIビデオが再び爆発!写真+音声がビデオになり、アリババはヒロインのソラにLi Ziと一緒に歌ってラップするように頼みました。 拡散モデルに依存しない他の方法と比較して、EMO は時間がかかります。

そして、明示的な制御信号が使用されていないため、手などの他の身体部分が不用意に生成される可能性があるため、潜在的な解決策は、特に身体部分に制御信号を使用することです。

EMO のチーム

最後に、EMO を支えるチームのメンバーを見てみましょう。

この論文は、EMO チームがアリババ インテリジェント コンピューティング研究所から来ていることを示しています。

著者は Linrui Tian、Qi Wang、Bang Zhang、Liefeng Bo の 4 人です。

写真AIビデオが再び爆発!写真+音声がビデオになり、アリババはヒロインのソラにLi Ziと一緒に歌ってラップするように頼みました。 このうち、リーフェン・ボー氏はアリババ同義研究所のXR研究室の現所長です。

Bo Liefeng 博士は、西安電子科学技術大学を卒業し、シカゴ大学トヨタ研究所およびワシントン大学で博士研究員研究に従事し、主に ML、 CVとロボット工学。 Google Scholar での引用数は 13,000 を超えています。

アリババに入社する前は、まずアマゾンのシアトル本社でチーフサイエンティストを務め、その後、JD Digital Technology Group の AI 研究所にチーフサイエンティストとして加わりました。

2022 年 9 月、薄烈峰氏はアリババに入社しました。

写真AIビデオが再び爆発!写真+音声がビデオになり、アリババはヒロインのソラにLi Ziと一緒に歌ってラップするように頼みました。アリババが AIGC 分野で成功を収めたのは、EMO が初めてではありません。

写真AIビデオが再び爆発!写真+音声がビデオになり、アリババはヒロインのソラにLi Ziと一緒に歌ってラップするように頼みました。OutfitAI を使えば誰でもワンクリックでドレスアップできます。

写真AIビデオが再び爆発!写真+音声がビデオになり、アリババはヒロインのソラにLi Ziと一緒に歌ってラップするように頼みました。世界中の犬や猫にお風呂ダンスを踊らせる AnimateAnyone もあります。

これは以下のものです:

写真AIビデオが再び爆発!写真+音声がビデオになり、アリババはヒロインのソラにLi Ziと一緒に歌ってラップするように頼みました。EMOが開始された今、多くのネチズンはアリババが何らかのテクノロジーを蓄積していることを嘆いていますその上で。

AIビデオが再び爆発!写真+音声がビデオになり、アリババはヒロインのソラにLi Ziと一緒に歌ってラップするように頼みました。写真

これらのテクノロジーをすべて組み合わせると、その効果は次のようになります...

あえて考えませんが、でも本当に楽しみです。

AIビデオが再び爆発!写真+音声がビデオになり、アリババはヒロインのソラにLi Ziと一緒に歌ってラップするように頼みました。写真

つまり、「AIにスクリプトを送って動画全体を出力する」という状況にどんどん近づいています。

AIビデオが再び爆発!写真+音声がビデオになり、アリババはヒロインのソラにLi Ziと一緒に歌ってラップするように頼みました。写真

One More Thing

Sora は、テキスト駆動のビデオ合成における崖っぷちの画期的な進歩を表します。

EMO は、新しいレベルのオーディオ駆動型ビデオ合成も表します。

2 つのタスクは異なり、具体的なアーキテクチャも異なりますが、重要な共通点が 1 つあります:

中間に明示的な物理モデルはありませんが、両方とも物理法則をシミュレートします。ある程度まで。 。

したがって、一部の人々は、これは「ピクセルを生成してアクションの世界をモデル化することは無駄であり、失敗する運命にある」という Lecun の主張に反しており、Jim Fan の「データ駆動型世界モデル」のアイデアを支持していると信じています。

AIビデオが再び爆発!写真+音声がビデオになり、アリババはヒロインのソラにLi Ziと一緒に歌ってラップするように頼みました。写真

過去にはさまざまな手法が失敗してきましたが、現在の成功は強化学習の父であるサットンの「苦い教訓」から来ているのかもしれません. 勢いよく奇跡を。

#人間が発見したものを封じ込めるのではなく、AI が同様の人間を発見できるようにする

画期的な進歩は、最終的にはコンピューティングをスケールアップすることで達成されます

#論文:
https://www.php.cn/link/a717f41c203cb970f96f706e4b12617b

GitHub:https://www.php.cn/link/e43a09ffc30b44cb1f0db46f87836f40参考リンク:

[1]

https://www.php.cn/link/0dd4f2526c7c874d06f19523264f6552

以上がAIビデオが再び爆発!写真+音声がビデオになり、アリババはヒロインのソラにLi Ziと一緒に歌ってラップするように頼みました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

ブートストラップリストのサイズを変更する方法は? ブートストラップリストのサイズを変更する方法は? Apr 07, 2025 am 10:45 AM

ブートストラップリストのサイズは、リスト自体ではなく、リストを含むコンテナのサイズに依存します。 BootstrapのグリッドシステムまたはFlexBoxを使用すると、コンテナのサイズを制御することで、リスト項目を間接的に変更します。

ブートストラップリストのネストを実装する方法は? ブートストラップリストのネストを実装する方法は? Apr 07, 2025 am 10:27 AM

ブートストラップのネストされたリストでは、スタイルを制御するためにブートストラップのグリッドシステムを使用する必要があります。まず、外層< ul>を使用します。および< li>リストを作成するには、内側のレイヤーリストを< div class =" row>に巻き付けます。 and< div class =" col-md-6">内側のレイヤーリストに、内側の層リストが行の幅の半分を占めることを指定します。このように、内側のリストは正しいものを持つことができます

ブートストラップリストにアイコンを追加する方法は? ブートストラップリストにアイコンを追加する方法は? Apr 07, 2025 am 10:42 AM

アイコンをブートストラップリストに追加する方法:アイコンライブラリ(Font Awesomeなど)が提供するクラス名を使用して、アイコンをリストアイテム< li>に直接詰めます。 Bootstrapクラスを使用して、アイコンとテキストを調整します(たとえば、d-flex、Justify-content-wether、align-Items-center)。ブートストラップタグコンポーネント(バッジ)を使用して、数字またはステータスを表示します。アイコンの位置(Flex-Direction:Row-Reverse;)を調整し、スタイル(CSSスタイル)を制御します。一般的なエラー:アイコンは表示されません(違います

vue.jsのストリングをオブジェクトに変換するためにどのような方法が使用されますか? vue.jsのストリングをオブジェクトに変換するためにどのような方法が使用されますか? Apr 07, 2025 pm 09:39 PM

vue.jsのオブジェクトに文字列を変換する場合、標準のjson文字列にはjson.parse()が推奨されます。非標準のJSON文字列の場合、文字列は正規表現を使用して処理し、フォーマットまたはデコードされたURLエンコードに従ってメソッドを削減できます。文字列形式に従って適切な方法を選択し、バグを避けるためにセキュリティとエンコードの問題に注意してください。

ブートストラップ5のリストスタイルでどのような変更が加えられましたか? ブートストラップ5のリストスタイルでどのような変更が加えられましたか? Apr 07, 2025 am 11:09 AM

Bootstrap 5リストスタイルの変更は、主に詳細の最適化とセマンティック改善が原因です。これには、以下を含みます。リストスタイルはセマンティクスを強調し、アクセシビリティと保守性を向上させます。

Bootstrapのグリッドシステムを表示する方法 Bootstrapのグリッドシステムを表示する方法 Apr 07, 2025 am 09:48 AM

Bootstrapのメッシュシステムは、コンテナ(コンテナ)、行(行)、およびcol(列)の3つのメインクラスで構成されるレスポンシブレイアウトを迅速に構築するためのルールです。デフォルトでは、12列のグリッドが提供され、各列の幅はCol-MD-などの補助クラスを通じて調整でき、それにより、さまざまな画面サイズのレイアウト最適化を実現できます。オフセットクラスとネストされたメッシュを使用することにより、レイアウトの柔軟性を拡張できます。グリッドシステムを使用する場合は、各要素が正しいネスト構造を持っていることを確認し、パフォーマンスの最適化を検討してページの読み込み速度を改善します。詳細な理解と実践によってのみ、ブートストラップグリッドシステムを習熟させることができます。

Laravelの地理空間:インタラクティブマップと大量のデータの最適化 Laravelの地理空間:インタラクティブマップと大量のデータの最適化 Apr 08, 2025 pm 12:24 PM

700万のレコードを効率的に処理し、地理空間技術を使用したインタラクティブマップを作成します。この記事では、LaravelとMySQLを使用して700万を超えるレコードを効率的に処理し、それらをインタラクティブなマップの視覚化に変換する方法について説明します。最初の課題プロジェクトの要件:MySQLデータベースに700万のレコードを使用して貴重な洞察を抽出します。多くの人は最初に言語をプログラミングすることを検討しますが、データベース自体を無視します。ニーズを満たすことができますか?データ移行または構造調​​整は必要ですか? MySQLはこのような大きなデータ負荷に耐えることができますか?予備分析:キーフィルターとプロパティを特定する必要があります。分析後、ソリューションに関連している属性はわずかであることがわかりました。フィルターの実現可能性を確認し、検索を最適化するためにいくつかの制限を設定しました。都市に基づくマップ検索

ブートストラップ用のコンテナに画像を集中させる方法 ブートストラップ用のコンテナに画像を集中させる方法 Apr 07, 2025 am 09:12 AM

概要:ブートストラップを使用して画像を中心にする方法はたくさんあります。基本方法:MX-Autoクラスを使用して、水平に中央に配置します。 IMG-Fluidクラスを使用して、親コンテナに適応します。 Dブロッククラスを使用して、画像をブロックレベルの要素(垂直センタリング)に設定します。高度な方法:FlexBoxレイアウト:Justify-Content-CenterおよびAlign-Items-Centerプロパティを使用します。グリッドレイアウト:Place-Items:Centerプロパティを使用します。ベストプラクティス:不必要なネスティングやスタイルを避けてください。プロジェクトに最適な方法を選択してください。コードの維持可能性に注意を払い、興奮を追求するためにコードの品質を犠牲にしないでください

See all articles