AIビデオが再び爆発!写真+音声がビデオになり、アリババはヒロインのソラにLi Ziと一緒に歌ってラップするように頼みました。
Sora の後に、実は新しい AI ビデオ モデルがあり、これはとても素晴らしいもので、誰もが気に入って賞賛しています。
写真
これで、「クロニクス」の悪役ガオ・チー強がルオ・シャンに変身し、みんなを教育できるようになります(犬頭)。
これは、Alibaba の最新のオーディオ主導のポートレート ビデオ生成フレームワーク、EMO (Emote Portrait Alive) です。
これを使えば、1枚の参考画像と音声(スピーチ、歌、ラップなども可)を入力するだけで、生き生きとした表情のAI動画を生成できます。ビデオの最終的な長さは、入力音声の長さによって異なります。
AI エフェクト体験のベテラン出場者であるモナ リザにモノローグを朗読してもらうことができます:
若くてハンサムな小さなプラムが登場します。このペースの速い RAP タレント ショーでは、口の形についていくのに問題はありませんでした。
広東語のリップシンクさえも続けることができ、弟のレスリー チャンはそれを可能にしました。イーソン・チャンの「無条件」を歌う:
#要するに、肖像画に歌わせるか(さまざまなスタイルの肖像画や歌)、肖像画にしゃべらせるか(さまざまな言語)、またはあらゆる種類の「大げさな」ものを作るためです。俳優を超えたパフォーマンスとEMO効果には、私たちはしばらく唖然としました。
ネチズンは嘆いた:「私たちは新たな現実に入りつつある!」
2019年版『ジョーカー』は2008年版『ダークナイト』のセリフを言った
一部のネチズンは、EMO で生成されたビデオのビデオを取得し、その効果をフレームごとに分析し始めています。
下の動画にあるように、主人公はソラが生成したAIレディで、今回彼女が歌ってくれたのは「Don’t Start Now」です。
コメント投稿者が分析:
このビデオの一貫性は以前よりもさらに優れています。
1分以上の動画では、ソラさんの顔のサングラスはほとんど動かず、耳と眉毛が独立して動きました。
一番興奮したのは、そらさんの喉が本当に息をしているように見えることです!歌いながら体が震えたり、微妙に動いたりして、衝撃を受けました!
写真
昨日、AI動画生成会社ピカも動画キャラクターの吹き替えと「口パク」を同時に行う口パク機能をリリースし、大ヒットしました。 具体的な効果は何ですか? 直接ここに載せます
写真
これは、ジジ王と同じくらいネットユーザーを本当に不安にさせました。
Sora とは異なるアーキテクチャ
EMO は DiT のようなアーキテクチャに基づいていません。つまり、Transformer は従来の UNet を置き換えるために使用されていません。そのバックボーン ネットワークは Stable Diffusion 1.5 から変更されています。
具体的には、EMO は、入力ビデオの長さに基づいて任意の長さのビデオを生成できる、表現力豊かなオーディオ主導のポートレート ビデオ生成フレームワークです。
#画像
- #フレーム エンコード ステージ
- # ReferenceNet と呼ばれる UNet ネットワークを展開します。これは、参照画像とビデオのフレームから特徴を抽出する役割を果たします。
- まず、事前トレーニングされたオーディオ エンコーダーがオーディオの埋め込みを処理し、顔領域マスクがマルチフレーム ノイズと結合されて、ノイズの生成が制御されます。顔画像。
バックボーン ネットワークがノイズ除去操作を主導します。バックボーン ネットワークでは、リファレンス アテンションとオーディオ アテンションという 2 種類のアテンションが適用され、それぞれキャラクターのアイデンティティの一貫性を維持し、キャラクターの動きを制御します。
さらに、時間モジュールは時間次元を操作し、動きの速度を調整するために使用されます。
トレーニング データに関しては、チームは 250 時間以上のビデオと 1,500 万以上の画像を含む、大規模で多様な音声およびビデオ データ セットを構築しました。
最終実装の具体的な機能は次のとおりです。
キャラクターのアイデンティティの一貫性を確保しながら、入力音声に基づいて任意の長さのビデオを生成できます (指定された最長の単一ビデオ)デモは 1 分 49 秒です)。- さまざまな言語での会話と歌をサポート (デモには中国語、広東語、英語、日本語、韓国語が含まれます)
- さまざまな絵画スタイルをサポート (写真、伝統的な絵画、コミック、3D レンダリング、 AI デジタル パーソン)
写真 # 口の形状を測定するだけで SOTA を取得する以前の方法と比較して、定量的な比較も大幅に改善されました。 SyncNet の同期品質の指標は若干劣ります。
写真 拡散モデルに依存しない他の方法と比較して、EMO は時間がかかります。
そして、明示的な制御信号が使用されていないため、手などの他の身体部分が不用意に生成される可能性があるため、潜在的な解決策は、特に身体部分に制御信号を使用することです。
EMO のチーム
最後に、EMO を支えるチームのメンバーを見てみましょう。
この論文は、EMO チームがアリババ インテリジェント コンピューティング研究所から来ていることを示しています。
著者は Linrui Tian、Qi Wang、Bang Zhang、Liefeng Bo の 4 人です。
写真 このうち、リーフェン・ボー氏はアリババ同義研究所のXR研究室の現所長です。
Bo Liefeng 博士は、西安電子科学技術大学を卒業し、シカゴ大学トヨタ研究所およびワシントン大学で博士研究員研究に従事し、主に ML、 CVとロボット工学。 Google Scholar での引用数は 13,000 を超えています。
アリババに入社する前は、まずアマゾンのシアトル本社でチーフサイエンティストを務め、その後、JD Digital Technology Group の AI 研究所にチーフサイエンティストとして加わりました。
2022 年 9 月、薄烈峰氏はアリババに入社しました。
写真アリババが AIGC 分野で成功を収めたのは、EMO が初めてではありません。
写真OutfitAI を使えば誰でもワンクリックでドレスアップできます。
写真世界中の犬や猫にお風呂ダンスを踊らせる AnimateAnyone もあります。
これは以下のものです:
写真EMOが開始された今、多くのネチズンはアリババが何らかのテクノロジーを蓄積していることを嘆いていますその上で。
写真
これらのテクノロジーをすべて組み合わせると、その効果は次のようになります...
あえて考えませんが、でも本当に楽しみです。
写真
つまり、「AIにスクリプトを送って動画全体を出力する」という状況にどんどん近づいています。
写真
One More Thing
Sora は、テキスト駆動のビデオ合成における崖っぷちの画期的な進歩を表します。
EMO は、新しいレベルのオーディオ駆動型ビデオ合成も表します。
2 つのタスクは異なり、具体的なアーキテクチャも異なりますが、重要な共通点が 1 つあります:
中間に明示的な物理モデルはありませんが、両方とも物理法則をシミュレートします。ある程度まで。 。
したがって、一部の人々は、これは「ピクセルを生成してアクションの世界をモデル化することは無駄であり、失敗する運命にある」という Lecun の主張に反しており、Jim Fan の「データ駆動型世界モデル」のアイデアを支持していると信じています。
写真
過去にはさまざまな手法が失敗してきましたが、現在の成功は強化学習の父であるサットンの「苦い教訓」から来ているのかもしれません. 勢いよく奇跡を。
#人間が発見したものを封じ込めるのではなく、AI が同様の人間を発見できるようにする画期的な進歩は、最終的にはコンピューティングをスケールアップすることで達成されます #論文:https://www.php.cn/link/a717f41c203cb970f96f706e4b12617b
GitHub:https://www.php.cn/link/e43a09ffc30b44cb1f0db46f87836f40参考リンク:
[1]以上がAIビデオが再び爆発!写真+音声がビデオになり、アリババはヒロインのソラにLi Ziと一緒に歌ってラップするように頼みました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック

ブートストラップリストのサイズは、リスト自体ではなく、リストを含むコンテナのサイズに依存します。 BootstrapのグリッドシステムまたはFlexBoxを使用すると、コンテナのサイズを制御することで、リスト項目を間接的に変更します。

ブートストラップのネストされたリストでは、スタイルを制御するためにブートストラップのグリッドシステムを使用する必要があります。まず、外層< ul>を使用します。および< li>リストを作成するには、内側のレイヤーリストを< div class =" row>に巻き付けます。 and< div class =" col-md-6">内側のレイヤーリストに、内側の層リストが行の幅の半分を占めることを指定します。このように、内側のリストは正しいものを持つことができます

アイコンをブートストラップリストに追加する方法:アイコンライブラリ(Font Awesomeなど)が提供するクラス名を使用して、アイコンをリストアイテム< li>に直接詰めます。 Bootstrapクラスを使用して、アイコンとテキストを調整します(たとえば、d-flex、Justify-content-wether、align-Items-center)。ブートストラップタグコンポーネント(バッジ)を使用して、数字またはステータスを表示します。アイコンの位置(Flex-Direction:Row-Reverse;)を調整し、スタイル(CSSスタイル)を制御します。一般的なエラー:アイコンは表示されません(違います

vue.jsのオブジェクトに文字列を変換する場合、標準のjson文字列にはjson.parse()が推奨されます。非標準のJSON文字列の場合、文字列は正規表現を使用して処理し、フォーマットまたはデコードされたURLエンコードに従ってメソッドを削減できます。文字列形式に従って適切な方法を選択し、バグを避けるためにセキュリティとエンコードの問題に注意してください。

Bootstrap 5リストスタイルの変更は、主に詳細の最適化とセマンティック改善が原因です。これには、以下を含みます。リストスタイルはセマンティクスを強調し、アクセシビリティと保守性を向上させます。

Bootstrapのメッシュシステムは、コンテナ(コンテナ)、行(行)、およびcol(列)の3つのメインクラスで構成されるレスポンシブレイアウトを迅速に構築するためのルールです。デフォルトでは、12列のグリッドが提供され、各列の幅はCol-MD-などの補助クラスを通じて調整でき、それにより、さまざまな画面サイズのレイアウト最適化を実現できます。オフセットクラスとネストされたメッシュを使用することにより、レイアウトの柔軟性を拡張できます。グリッドシステムを使用する場合は、各要素が正しいネスト構造を持っていることを確認し、パフォーマンスの最適化を検討してページの読み込み速度を改善します。詳細な理解と実践によってのみ、ブートストラップグリッドシステムを習熟させることができます。

700万のレコードを効率的に処理し、地理空間技術を使用したインタラクティブマップを作成します。この記事では、LaravelとMySQLを使用して700万を超えるレコードを効率的に処理し、それらをインタラクティブなマップの視覚化に変換する方法について説明します。最初の課題プロジェクトの要件:MySQLデータベースに700万のレコードを使用して貴重な洞察を抽出します。多くの人は最初に言語をプログラミングすることを検討しますが、データベース自体を無視します。ニーズを満たすことができますか?データ移行または構造調整は必要ですか? MySQLはこのような大きなデータ負荷に耐えることができますか?予備分析:キーフィルターとプロパティを特定する必要があります。分析後、ソリューションに関連している属性はわずかであることがわかりました。フィルターの実現可能性を確認し、検索を最適化するためにいくつかの制限を設定しました。都市に基づくマップ検索

概要:ブートストラップを使用して画像を中心にする方法はたくさんあります。基本方法:MX-Autoクラスを使用して、水平に中央に配置します。 IMG-Fluidクラスを使用して、親コンテナに適応します。 Dブロッククラスを使用して、画像をブロックレベルの要素(垂直センタリング)に設定します。高度な方法:FlexBoxレイアウト:Justify-Content-CenterおよびAlign-Items-Centerプロパティを使用します。グリッドレイアウト:Place-Items:Centerプロパティを使用します。ベストプラクティス:不必要なネスティングやスタイルを避けてください。プロジェクトに最適な方法を選択してください。コードの維持可能性に注意を払い、興奮を追求するためにコードの品質を犠牲にしないでください
