目次
賢い科学者はすでに AI に、たった 1 文で画像を生成するよう依頼しています。彼らは次に何をするのでしょうか?
著者紹介
ネチズンはショックを受けました
ホームページ テクノロジー周辺機器 AI Meta の革新的な SOTA モデルは、一文に基づいて素晴らしいビデオを生成し、インターネットの流行を引き起こします。

Meta の革新的な SOTA モデルは、一文に基づいて素晴らしいビデオを生成し、インターネットの流行を引き起こします。

Apr 23, 2023 am 09:22 AM
ビデオ ai

段落をあげてビデオを作ってもらいますが、できますか?

メタは、「私にはできる」と言いました。

そのとおりです。AI を使用すると、映画製作者になることもできます。

最近、Meta は Make-A-Video という非常にわかりやすい名前の新しい AI モデルを発表しました。

#このモデルはどのくらい強力ですか?

たった一文で「三頭の馬が疾走する」シーンが実現します。

Meta の革新的な SOTA モデルは、一文に基づいて素晴らしいビデオを生成し、インターネットの流行を引き起こします。

ルカンでさえ、来るはずのものは必ず来ると言いました。

Meta の革新的な SOTA モデルは、一文に基づいて素晴らしいビデオを生成し、インターネットの流行を引き起こします。

視覚効果は素晴らしいです

早速、その効果を見てみましょう。

#2 頭のカンガルーが台所で忙しく料理をしています (食べられるかどうかは別問題です)

Meta の革新的な SOTA モデルは、一文に基づいて素晴らしいビデオを生成し、インターネットの流行を引き起こします。

# # クローズショット: 画家がキャンバスに絵を描く

Meta の革新的な SOTA モデルは、一文に基づいて素晴らしいビデオを生成し、インターネットの流行を引き起こします。

大雨の中を歩く二人の世界(歩幅は一定)

Meta の革新的な SOTA モデルは、一文に基づいて素晴らしいビデオを生成し、インターネットの流行を引き起こします。

馬は水を飲んでいます

Meta の革新的な SOTA モデルは、一文に基づいて素晴らしいビデオを生成し、インターネットの流行を引き起こします。

超高層ビルで踊るバレエ少女

Meta の革新的な SOTA モデルは、一文に基づいて素晴らしいビデオを生成し、インターネットの流行を引き起こします。

夏の美しい熱帯のビーチで、ゴールデンレトリバーがアイスクリームを食べています(足は進化しています)

Meta の革新的な SOTA モデルは、一文に基づいて素晴らしいビデオを生成し、インターネットの流行を引き起こします。

猫の飼い主はリモコンでテレビを見ています (足が進化しています)

Meta の革新的な SOTA モデルは、一文に基づいて素晴らしいビデオを生成し、インターネットの流行を引き起こします。

テディベアがくれます 自分の自画像を描いてください

Meta の革新的な SOTA モデルは、一文に基づいて素晴らしいビデオを生成し、インターネットの流行を引き起こします。

意外ですが合理的です、犬はアイスクリームを取り、猫はリモコンを取りますコントロールとテディベアの描く「「手」もまさに人間と同じように「進化」した! (戦術的な後退)

もちろん、テキストをビデオに変換することに加えて、Make-A-Video は静止画像を Gif に変換することもできます。 ############入出力:############# ##

入力:

Meta の革新的な SOTA モデルは、一文に基づいて素晴らしいビデオを生成し、インターネットの流行を引き起こします。

出力: (光が少し場違いに見えます)

Meta の革新的な SOTA モデルは、一文に基づいて素晴らしいビデオを生成し、インターネットの流行を引き起こします。

静止画 2 枚を GIF に変換し、隕石画像を入力

Meta の革新的な SOTA モデルは、一文に基づいて素晴らしいビデオを生成し、インターネットの流行を引き起こします。

##出力:

Meta の革新的な SOTA モデルは、一文に基づいて素晴らしいビデオを生成し、インターネットの流行を引き起こします。

そして、そのビデオをビデオにしますか?

#入力出力:

Meta の革新的な SOTA モデルは、一文に基づいて素晴らしいビデオを生成し、インターネットの流行を引き起こします。入力出力:

technicalprincipleMeta の革新的な SOTA モデルは、一文に基づいて素晴らしいビデオを生成し、インターネットの流行を引き起こします。

本日、Meta は最新の研究「MAKE-A-VIDEO: TEXT-TO-VIDEO GENERATION WITHOUT TEXT-VIDEO DATA」を発表しました。

Meta の革新的な SOTA モデルは、一文に基づいて素晴らしいビデオを生成し、インターネットの流行を引き起こします。#紙のアドレス: https://makeavideo.studio/Make-A-Video.pdf

#このモデルが登場する前に、すでに安定拡散がありました。

Meta の革新的な SOTA モデルは、一文に基づいて素晴らしいビデオを生成し、インターネットの流行を引き起こします。

賢い科学者はすでに AI に、たった 1 文で画像を生成するよう依頼しています。彼らは次に何をするのでしょうか?

明らかに、それはビデオを生成するためです。 Meta の革新的な SOTA モデルは、一文に基づいて素晴らしいビデオを生成し、インターネットの流行を引き起こします。

#赤いマントをかぶったスーパーヒーローの犬が空を飛ぶ

##画像の生成に比べて、ビデオの生成ははるかに困難です。同じ被写体やシーンの複数のフレームを生成する必要があるだけでなく、それらをタイムリーかつ一貫性のあるものにする必要もあります。

これにより、画像生成タスクが複雑になります。DALLE を使用して 60 枚の画像を生成し、それらをビデオにつなぎ合わせるだけでは済みません。効果は非常に乏しく、非現実的です。

したがって、より強力な方法で世界を理解し、このレベルの理解に基づいて一貫した一連の画像を生成できるモデルが必要です。そうして初めて、画像をシームレスに融合させることができます。

Meta の革新的な SOTA モデルは、一文に基づいて素晴らしいビデオを生成し、インターネットの流行を引き起こします。

言い換えれば、私たちの目標は、世界をシミュレートし、その記録をシミュレートすることです。どうやってするの?

以前のアイデアによれば、研究者はモデルをトレーニングするために多数のテキストとビデオのペアを使用することになりますが、現在の状況では、この処理方法は現実的ではありません。これらのデータは入手が難しく、トレーニングのコストが非常に高価であるためです。

したがって、研究者たちは心を開いて、まったく新しいアプローチを採用しました。

彼らは、テキストから画像へのモデルを開発し、それをビデオに適用することを選択しました。

偶然にも、しばらく前に、Meta はテキストから画像へのモデルである Make-A-Scene を開発しました。

Meta の革新的な SOTA モデルは、一文に基づいて素晴らしいビデオを生成し、インターネットの流行を引き起こします。

#Make-A-Scene メソッドの概要

このモデルは、チャンスは、Meta が、このテキストから画像へのトレンドと以前のスケッチから画像へのモデルを組み合わせて、クリエイティブな表現を促進したいと考えていることです。その結果、テキストとスケッチ条件付き画像生成の間の素晴らしい融合が実現します。

これは、猫をすばやくスケッチして、どのような画像が必要かを書き出すことができることを意味します。スケッチとテキストのガイダンスに従って、このモデルは私たちが望む完璧なイラストを数秒で作成します。

Meta の革新的な SOTA モデルは、一文に基づいて素晴らしいビデオを生成し、インターネットの流行を引き起こします。

このマルチモーダルな生成 AI アプローチは、生成をより詳細に制御できる Dall-E モデルと考えることができます。これは、クイック スケッチも実行できるためです。入力として使用されます。

マルチモーダルと呼ばれる理由は、テキストや画像などの複数のモダリティを入力として受け取ることができるためです。対照的に、Dall-E はテキストからのみ画像を生成できます。

ビデオを生成するには、時間の次元を追加する必要があるため、研究者はメイク・ア・シーン モデルに時空間パイプラインを追加しました。

Meta の革新的な SOTA モデルは、一文に基づいて素晴らしいビデオを生成し、インターネットの流行を引き起こします。

時間ディメンションを追加した後、このモデルは 1 枚の画像だけを生成するのではなく、16 枚の低解像度画像を生成して、一貫した短いビデオを作成します。 。

この方法は実際にはテキストから画像へのモデルに似ていますが、従来の 2 次元の畳み込みに基づいて 1 次元の畳み込みを追加する点が異なります。

Meta の革新的な SOTA モデルは、一文に基づいて素晴らしいビデオを生成し、インターネットの流行を引き起こします。

1 次元の畳み込みを追加するだけで、研究者は時間次元を追加しながら、事前にトレーニングされた 2 次元の畳み込みを変更せずに維持することができました。 。研究者は、Make-A-Scene 画像モデルのコードとパラメータの多くを再利用して、最初からトレーニングすることができます。

Meta の革新的な SOTA モデルは、一文に基づいて素晴らしいビデオを生成し、インターネットの流行を引き起こします。

同時に、研究者らはテキスト入力を使用してこのモデルをガイドしたいとも考えています。これは、CLIP 埋め込みを使用した画像モデルと非常によく似ています。 。

この場合、研究者らは、上記と同じ方法を使用して、テキストの特徴と画像の特徴を混合するときに空間次元を増加しました。つまり、Make-A-Scene モデルにアテンション モジュールを保持し、そして、時間用の 1 次元アテンション モジュールを追加します。画像ジェネレーター モデルをコピー&ペーストし、もう 1 次元に対して生成モジュールを繰り返して、16 個の初期フレームを取得します。

Meta の革新的な SOTA モデルは、一文に基づいて素晴らしいビデオを生成し、インターネットの流行を引き起こします。

#しかし、これらの 16 の初期フレームのみに依存してもビデオを生成することはできません。

研究者は、これら 16 個のメイン フレームから高解像度ビデオを作成する必要があります。彼らのアプローチは、以前と将来のフレームにアクセスし、それらを時間次元と空間次元の両方で同時に反復的に補間することです。

このようにして、これらの 16 個の最初のフレームの間に、前後のフレームに基づいて新しい大きなフレームが生成されるため、動きが一貫性を持ち、ビデオ全体がスムーズになりました。 。

これはフレーム補間ネットワークを通じて行われ、既存の画像を取得してギャップを埋め、中間情報を生成できます。空間次元でも同じことを行います。画像を拡大し、ピクセルの隙間を埋め、画像をより高解像度にします。

Meta の革新的な SOTA モデルは、一文に基づいて素晴らしいビデオを生成し、インターネットの流行を引き起こします。

要約すると、ビデオを生成するために、研究者たちはテキストから画像へのモデルを微調整しました。彼らは、すでにトレーニング済みの強力なモデルを使用し、ビデオに合わせて微調整し、トレーニングしました。

空間モジュールと時間モジュールが追加されたため、モデルを再トレーニングすることなく、この新しいデータにモデルを適応させるだけで、大幅なコストが節約されます。

この種の再トレーニングでは、ラベルのないビデオを使用し、モデルにビデオとビデオ フレームの一貫性を理解するように教えるだけでよいため、データ セットの構築が容易になります。

最後に、研究者らは画像最適化モデルを再度使用して空間解像度を向上させ、フレーム補間コンポーネントを使用してフレームを追加してビデオをより滑らかにしました。

もちろん、Make-A-Video の現在の結果には、テキストから画像へのモデルと同様に、まだ欠点があります。しかし、AI 分野の進歩がいかに急速であるかは誰もが知っています。

Meta の革新的な SOTA モデルは、一文に基づいて素晴らしいビデオを生成し、インターネットの流行を引き起こします。

さらに詳しく知りたい場合は、リンクにある Meta AI の論文を参照してください。コミュニティは PyTorch 実装も開発しているため、自分で実装したい場合は注目してください。

Meta の革新的な SOTA モデルは、一文に基づいて素晴らしいビデオを生成し、インターネットの流行を引き起こします。

著者紹介

この論文には多くの中国人研究者が参加しています: ying Xi、An Jie、Zhang Songyang、Qiyuan Hu 。

イン・シー、FAIR 研究科学者。以前は Microsoft で Microsoft Cloud と AI の上級アプリケーション サイエンティストとして働いていました。彼は、2013 年にミシガン州立大学のコンピューター科学工学部で博士号を取得し、武漢大学で電気工学の学士号を取得しました。主な研究分野は、マルチモーダル理解、大規模ターゲット検出、顔推論などです。

Anjie は、ロチェスター大学のコンピューター サイエンス学部の博士課程の学生です。ロジャー・ボー教授に師事。以前は2016年と2019年に北京大学で学士号と修士号を取得しています。研究対象には、コンピューター ビジョン、深層生成モデル、AI アートなどがあります。 Make-A-Videoのリサーチにインターンとして参加。

Zhang Songyang は、ロチェスター大学コンピューター サイエンス学部の博士課程の学生で、ロジャー ボー教授の下で勉強しています。東南大学で学士号を取得し、浙江大学で修士号を取得しました。研究対象には、自然言語モーメントローカリゼーション、教師なし文法帰納、スケルトンベースの動作認識などが含まれます。 Make-A-Videoのリサーチにインターンとして参加。

当時 FAIR の AI レジデントだった Qiyuan Hu は、人間の創造性を向上させるマルチモーダル生成モデルの研究に従事していました。彼女はシカゴ大学で医学物理学の博士号を取得し、AI を利用した医療画像解析に取り組みました。現在、Tempus Labs で機械学習科学者として働いています。

ネチズンはショックを受けました

少し前に、Google や他の大手企業が、Parti などの独自のテキストから画像へのモデルをリリースしました。

テキストからビデオへの生成モデルはまだしばらく先のことだと考える人もいます。

予想外なことに、今回メタは爆弾を投下しました。

実際、現在、ICLR 2023 に提出されたテキストからビデオへの生成モデル Phenaki もあります。まだブラインドレビューの段階にあるため、作成者の機関はまだ不明です。

Meta の革新的な SOTA モデルは、一文に基づいて素晴らしいビデオを生成し、インターネットの流行を引き起こします。

ネチズンは、DALLE から Stable Diffuson、Make-A-Video まで、すべての出来事があまりにも速すぎると述べました。

Meta の革新的な SOTA モデルは、一文に基づいて素晴らしいビデオを生成し、インターネットの流行を引き起こします。

Meta の革新的な SOTA モデルは、一文に基づいて素晴らしいビデオを生成し、インターネットの流行を引き起こします。#

以上がMeta の革新的な SOTA モデルは、一文に基づいて素晴らしいビデオを生成し、インターネットの流行を引き起こします。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Centosシャットダウンコマンドライン Centosシャットダウンコマンドライン Apr 14, 2025 pm 09:12 PM

Centos Shutdownコマンドはシャットダウンし、構文はシャットダウン[オプション]時間[情報]です。オプションは次のとおりです。-hシステムをすぐに停止します。 -pシャットダウン後に電源をオフにします。 -r再起動; -t待機時間。時間は、即時(現在)、数分(分)、または特定の時間(HH:mm)として指定できます。追加の情報をシステムメッセージに表示できます。

Centosのgitlabのバックアップ方法は何ですか Centosのgitlabのバックアップ方法は何ですか Apr 14, 2025 pm 05:33 PM

Centosシステムの下でのGitlabのバックアップと回復ポリシーデータセキュリティと回復可能性を確保するために、Gitlab on Centosはさまざまなバックアップ方法を提供します。この記事では、いくつかの一般的なバックアップ方法、構成パラメーター、リカバリプロセスを詳細に紹介し、完全なGitLabバックアップと回復戦略を確立するのに役立ちます。 1.手動バックアップGitlab-RakeGitlabを使用:バックアップ:コマンドを作成して、マニュアルバックアップを実行します。このコマンドは、gitlabリポジトリ、データベース、ユーザー、ユーザーグループ、キー、アクセスなどのキー情報をバックアップします。デフォルトのバックアップファイルは、/var/opt/gitlab/backupsディレクトリに保存されます。 /etc /gitlabを変更できます

CentOS HDFS構成をチェックする方法 CentOS HDFS構成をチェックする方法 Apr 14, 2025 pm 07:21 PM

CENTOSシステムでHDFS構成をチェックするための完全なガイドこの記事では、CENTOSシステム上のHDFSの構成と実行ステータスを効果的に確認する方法をガイドします。次の手順は、HDFSのセットアップと操作を完全に理解するのに役立ちます。 Hadoop環境変数を確認します。最初に、Hadoop環境変数が正しく設定されていることを確認してください。端末では、次のコマンドを実行して、Hadoopが正しくインストールおよび構成されていることを確認します。HDFS構成をチェックするHDFSファイル:HDFSのコア構成ファイルは/etc/hadoop/conf/ディレクトリにあります。使用

CentosのPytorchのGPUサポートはどのようにサポートされていますか CentosのPytorchのGPUサポートはどのようにサポートされていますか Apr 14, 2025 pm 06:48 PM

Pytorch GPUアクセラレーションを有効にすることで、CentOSシステムでは、PytorchのCUDA、CUDNN、およびGPUバージョンのインストールが必要です。次の手順では、プロセスをガイドします。CUDAおよびCUDNNのインストールでは、CUDAバージョンの互換性が決定されます。NVIDIA-SMIコマンドを使用して、NVIDIAグラフィックスカードでサポートされているCUDAバージョンを表示します。たとえば、MX450グラフィックカードはCUDA11.1以上をサポートする場合があります。 cudatoolkitのダウンロードとインストール:nvidiacudatoolkitの公式Webサイトにアクセスし、グラフィックカードでサポートされている最高のCUDAバージョンに従って、対応するバージョンをダウンロードしてインストールします。 cudnnライブラリをインストールする:

Centosはmysqlをインストールします Centosはmysqlをインストールします Apr 14, 2025 pm 08:09 PM

CentOSにMySQLをインストールするには、次の手順が含まれます。適切なMySQL Yumソースの追加。 yumを実行して、mysql-serverコマンドをインストールして、mysqlサーバーをインストールします。ルートユーザーパスワードの設定など、MySQL_SECURE_INSTALLATIONコマンドを使用して、セキュリティ設定を作成します。必要に応じてMySQL構成ファイルをカスタマイズします。 MySQLパラメーターを調整し、パフォーマンスのためにデータベースを最適化します。

Dockerの原則の詳細な説明 Dockerの原則の詳細な説明 Apr 14, 2025 pm 11:57 PM

DockerはLinuxカーネル機能を使用して、効率的で孤立したアプリケーションランニング環境を提供します。その作業原則は次のとおりです。1。ミラーは、アプリケーションを実行するために必要なすべてを含む読み取り専用テンプレートとして使用されます。 2。ユニオンファイルシステム(UnionFS)は、違いを保存するだけで、スペースを節約し、高速化する複数のファイルシステムをスタックします。 3.デーモンはミラーとコンテナを管理し、クライアントはそれらをインタラクションに使用します。 4。名前空間とcgroupsは、コンテナの分離とリソースの制限を実装します。 5.複数のネットワークモードは、コンテナの相互接続をサポートします。これらのコア概念を理解することによってのみ、Dockerをよりよく利用できます。

Centos8はsshを再起動します Centos8はsshを再起動します Apr 14, 2025 pm 09:00 PM

SSHサービスを再起動するコマンドは次のとおりです。SystemCTL再起動SSHD。詳細な手順:1。端子にアクセスし、サーバーに接続します。 2。コマンドを入力します:SystemCtl RestArt SSHD; 3.サービスステータスの確認:SystemCTLステータスSSHD。

CentosでPytorchの分散トレーニングを操作する方法 CentosでPytorchの分散トレーニングを操作する方法 Apr 14, 2025 pm 06:36 PM

Pytorchの分散トレーニングでは、Centosシステムでトレーニングには次の手順が必要です。Pytorchのインストール:PythonとPipがCentosシステムにインストールされていることです。 CUDAバージョンに応じて、Pytorchの公式Webサイトから適切なインストールコマンドを入手してください。 CPUのみのトレーニングには、次のコマンドを使用できます。PipinstalltorchtorchtorchvisionTorchaudioGPUサポートが必要な場合は、CUDAとCUDNNの対応するバージョンがインストールされ、インストールに対応するPytorchバージョンを使用してください。分散環境構成:分散トレーニングには、通常、複数のマシンまたは単一マシンの複数GPUが必要です。場所

See all articles