Sora 이후, OpenAI Lilian Weng은 처음부터 비디오 생성 확산 모델을 설계하는 방법을 알려주는 기사를 직접 작성했습니다.-일체 포함-php.cn

지난 몇 년 동안 확산 모델의 강력한 이미지 합성 기능이 완벽하게 입증되었습니다. 연구 커뮤니티는 이제 더 어려운 작업인 비디오 생성을 다루고 있습니다. 최근 OpenAI 안전 시스템 책임자인 Lilian Weng은 비디오 생성 확산 모델에 대한 블로그를 작성했습니다.

Sora之后，OpenAI Lilian Weng亲自撰文教你从头设计视频生成扩散模型

^{그 자체는 이미지 합성의 상위 집합이며, 이미지는 비디오의 단일 프레임이기 때문입니다. 비디오 합성은 다음과 같은 이유로 훨씬 더 어렵습니다:}1. 비디오 합성에는 서로 다른 프레임 간의 시간적 일관성도 필요하며, 이는 자연스럽게 더 많은 세계 지식을 모델에 인코딩해야 합니다.

2. 텍스트나 이미지에 비해, 텍스트-영상 쌍 데이터는 물론, 고품질, 고차원의 영상 데이터를 대량으로 수집하기가 더 어렵습니다.

이미지 생성에 확산 모델을 적용하는 방법에 대해 알아보려면 이 기사의 저자인 Lilian Weng이 게시한 이전 블로그 게시물 "확산 모델이란 무엇입니까?"를 읽어보세요. 링크: https://lilianweng. github.io/posts/2021-07 -11-diffusion-models/

처음부터 비디오 생성 모델링

먼저, 처음부터 확산 비디오 모델을 설계하고 훈련하는 방법을 살펴보겠습니다. 사전 훈련된 이미지 생성기를 사용합니다.

매개변수화 및 샘플링

여기에 사용된 변수 정의는 이전 기사와 약간 다르지만 수학적 형식은 일관됩니다. ?~?_real을 이 실제 데이터 분포에서 샘플링된 데이터 포인트로 둡니다. 이제 시간에 소량의 가우스 노이즈를 추가하면 다음과 같이 표시되는 ?의 일련의 노이즈가 생성됩니다. 여기서 노이즈는 ?의 증가에 따라 증가합니다. ?(?_?)~?(?,?). 노이즈를 추가하는 이러한 순방향 프로세스는 가우스 프로세스입니다. ?_? 및 ?_?를 이 가우스 프로세스의 미분 가능한 노이즈 일정으로 지정합니다.

?(?_?|?_?)를 표현하려면 다음이 있습니다.

Sora之后，OpenAI Lilian Weng亲自撰文教你从头设计视频生成扩散模型

대수 신호 대 잡음 비율을

로 하면 DDIM 업데이트는 다음과 같이 표현될 수 있습니다. ≤?，有：

Sora之后，OpenAI Lilian Weng亲自撰文教你从头设计视频生成扩散模型

Salimans & Ho의 "Progressive Distillation for Fast Sampling of Diffusion Models" 논문(2022) 여기에 제안되었습니다. 특수 예측 매개변수: Sora之后，OpenAI Lilian Weng亲自撰文教你从头设计视频生成扩散模型 . 연구에 따르면 ? 매개변수는 ? 매개변수에 비해 비디오 생성 시 색상 변경 문제를 방지하는 데 도움이 됩니다.

?의 매개변수화는 각도 좌표의 트릭을 통해 파생됩니다. 먼저, ?_?=arctan(?_?/?_?)을 정의합니다. 여기서 ?_?=cos ?, ?_?=sin ?, ?_?=cos ??+sin ??을 얻을 수 있습니다. ?_?의 속도는 다음과 같이 쓸 수 있습니다: Sora之后，OpenAI Lilian Weng亲自撰文教你从头设计视频生成扩散模型

Sora之后，OpenAI Lilian Weng亲自撰文教你从头设计视频生成扩散模型

그리고 추론할 수 있습니다:

Sora之后，OpenAI Lilian Weng亲自撰文教你从头设计视频生成扩散模型

DDIM 업데이트 규칙은 그에 따라 업데이트될 수 있습니다:

Sora之后，OpenAI Lilian Weng亲自撰文教你从头设计视频生成扩散模型

図 1: 角度座標の形式で更新ステップを分散する作業方法。その中で、DDIM は

^{の方向に移動することで進化を続けています。}^{モデルの場合、? のパラメータ化は予測です}

ビデオ生成タスクの場合、ビデオの長さを延長したり、フレームレートを増加させるために、拡散モデルは複数のアップサンプリングステップを実行する必要があります。これには、最初のビデオ ?^? に基づいて 2 番目のビデオ ?^? をサンプリングする機能が必要です。ここで、?^? は、?^? の自己回帰拡張または低フレームレートのビデオの欠落フレームである可能性があります。

Sora之后，OpenAI Lilian Weng亲自撰文教你从头设计视频生成扩散模型対応するノイズの多い変数に加えて、?^? のサンプリングも ?^? に基づく必要があります。 Ho & Salimans らの 2022 年のビデオ拡散モデル (VDM) は、?^? のサンプリングが適切に行われるように、調整されたノイズ除去モデルを使用して再構築ガイダンス方法を実装することを提案しています。

提供されたノイズ除去モデルによると、?^? と ?^? はどこで再構築されますか。 ?_? は重み付け係数であり、サンプリング品質を向上させるために、より大きな ?_? を見つけることができます。同じ再構成ガイダンス方法を使用して、低解像度ビデオに基づくサンプルを高解像度サンプルに拡張することも可能であることに注意してください。 Sora之后，OpenAI Lilian Weng亲自撰文教你从头设计视频生成扩散模型

モデルアーキテクチャ: 3D U-Net と DiT

Sora之后，OpenAI Lilian Weng亲自撰文教你从头设计视频生成扩散模型 Vincent グラフ拡散モデルと同様に、U-Net と Transformer は依然として一般的なアーキテクチャの選択肢です。 Google は、U-net アーキテクチャに基づいた一連の普及ビデオモデリングの論文を開発しており、OpenAI の最新の Sora モデルは Transformer アーキテクチャを利用しています。

VDM は標準の拡散モデル設定を使用しますが、ビデオモデリングタスクにより適したものにするためにアーキテクチャにいくつかの変更を加えています。これは 2D U-net を拡張して 3D データを処理します。各特徴マップは 4D テンソル (フレーム数 x 高さ x 幅 x チャネル数) を表します。この 3D U-net は空間と時間に分解されます。つまり、各層は空間または時間の 1 つの次元のみを操作し、両方を同時に操作することはできません。

空間の処理: 2D U-net の元の 2D 畳み込み層は、空間専用の 3D 畳み込みに拡張されます。具体的には、3x3 畳み込みが 1x3x3 畳み込みになります。各空間的注意モジュールは依然として空間的注意に焦点を当てており、最初の軸 (フレーム) はバッチディメンションとして扱われます。

処理時間: 時間的注意モジュールは、各空間的注意モジュールの後に追加されます。最初の軸 (フレーム) に焦点を当て、空間軸をバッチディメンションとして扱います。この相対位置を埋め込んでフレームのシーケンスを追跡することができます。この時間的注意モジュールにより、モデルは良好な時間的一貫性を達成できます。

図 2: 3D U-net アーキテクチャ。ネットワークへの入力は、ノイズのあるビデオ z_?、状態情報 c、および対数信号対雑音比 (log-SNR) λ_? です。チャネル乗数 M_1,...,M_? は、各層のチャネル数を表します。

Sora之后，OpenAI Lilian Weng亲自撰文教你从头设计视频生成扩散模型 Ho らが 2022 年に提案した Imagen Video は、一連のカスケード拡散モデルに基づいており、ビデオ生成の品質を向上させ、出力を 24 フレームレートで 1280x768 解像度のビデオにアップグレードできます。 Imagen Video アーキテクチャは次のコンポーネントで構成され、合計 7 つの拡散モデルになります。

^{条件付き入力としてテキスト埋め込みを提供するフリーズされた T5 テキストエンコーダー。}

基本的なビデオ普及モデル。

3 つの TSR (時間的超解像度) コンポーネントと 3 つの SSR (空間的超解像度) コンポーネントを含む、カスケードインターリーブ空間的および時間的超解像度拡散モデルのセット。図 3: Imagen Video のカスケードサンプリングプロセス。実際には、テキストの埋め込みは、基本モデルだけでなく、すべてのコンポーネントに挿入されます。
基本のノイズ除去モデルは、共有パラメータを使用してすべてのフレームに対して空間操作を同時に実行し、その後、時間層がフレーム間のアクティベーションをブレンドして、時間的一貫性をより良く実現します。このアプローチは、フレーム自己回帰手法よりも優れたパフォーマンスを発揮することが証明されています。
Rajah 4: Seni bina modul boleh dipisahkan ruang-masa dalam model penyebaran Video Imagen.

Kedua-dua model SSR dan TSR adalah berdasarkan input upsampled yang digabungkan mengikut saluran dengan data bising ?_? SSR upsamples by bilinear resizes, while TSR upsamples by repeating frames or filling blank frames. ^{Video Imej juga menggunakan penyulingan progresif untuk mempercepatkan pensampelan, memotong separuh langkah pensampelan yang diperlukan dengan setiap lelaran penyulingan. Dalam percubaan, mereka dapat menyaring kesemua 7 model resapan video kepada hanya 8 langkah pensampelan bagi setiap model tanpa kehilangan kualiti persepsi yang ketara.}Untuk mengembangkan skala model dengan lebih baik, Sora menggunakan seni bina DiT (Diffusion Transformer), yang beroperasi pada tampalan ruang masa bagi kod video dan imej terpendam. Ia mewakili input visual sebagai jujukan blok spatio-temporal dan menggunakan blok spatio-temporal ini sebagai token input Transformer. Rajah 5: Sora ialah model Transformer resapan. . hanya Perhalusi lapisan baharu pada video atau elakkan latihan tambahan sepenuhnya. Model baharu ini mewarisi pengetahuan sedia ada tentang pasangan teks-imej, dengan itu membantu mengurangkan keperluan untuk pasangan teks-video.

Penalaan halus pada data video

Make-A-Video yang dicadangkan oleh Singer et al pada 2022 adalah untuk memanjangkan dimensi temporal berdasarkan model imej resapan yang telah dilatih, yang mengandungi tiga komponen utama:

1. . Model graf asas Vincent yang dilatih pada data pasangan teks-imej.
2. Lapisan lilitan dan perhatian Spatiotemporal membolehkan rangkaian merangkumi dimensi masa.
3. Rangkaian interpolasi bingkai untuk penjanaan kadar bingkai yang tinggi. Rajah 6: Gambar rajah aliran kerja Buat-A-Video.理 Bentuk matematik skema penaakulan video akhir boleh ditulis seperti ini: Antaranya:

? Ia memasukkan teks

adalah teks yang dikodkan oleh BPE

P (.) adalah priori, diberikan pembenaman teks ?_? dan teks berkod BPE
hasilkan pembenaman imej ?_?:
Bahagian ini dilatih pada data pasangan teks-imej, bukan pada video Perhalusi data.
は、一連の 16 フレームのビデオを生成する時空間デコーダーであり、各フレームは低解像度の 64x64 RGB 画像です。
は、生成されたフレーム間を補間することでフレームレートを効果的に向上させることができるフレーム補間ネットワークです。これは、ビデオアップサンプリングタスクのマスクされたフレームを予測するために使用できる微調整されたモデルです。
は、画像解像度をそれぞれ 256x256 と 768x768 に高めることができる空間および時空間の超解像度モデルです。
は、最終的に生成されたビデオです。

時空間超解像度レイヤーには、擬似 3D 畳み込みレイヤーと擬似 3D アテンションレイヤーが含まれます:

擬似 3D 畳み込みレイヤー: 各空間 2D 畳み込みレイヤー (事前トレーニングされた画像モデルによって初期化) が続きます。時間 1D 層による (恒等関数によって初期化)。概念的には、2D 畳み込み層は最初に複数のフレームを生成し、次にそれらのフレームがビデオに調整されます。
疑似 3D アテンションレイヤー: 完全な時空間アテンションレイヤーに近似するために、各 (事前トレーニングされた) 空間アテンションレイヤーの後に時間的アテンションレイヤーをスタックします。図 7: 擬似 3D コンボリューション層 (左) とアテンション層 (右) の仕組み。

それらは次のように表現できます: Sora之后，OpenAI Lilian Weng亲自撰文教你从头设计视频生成扩散模型

^{入力テンソルはどこですか?∈ℝ^{?×?×?×?×?} (バッチサイズ、チャネル数、フレーム数、高さに対応)と幅) ;} の機能は時間と空間の次元を交換することです; flatten (.) は ?'∈ℝ^{?×?×?×??} に変換できる行列演算子ですが、 flatten⁻¹( .) 効果は逆です。

トレーニングの際、Make-A-Video ワークフローのさまざまなコンポーネントが個別にトレーニングされます。

1. デコーダー D^?、前の P、および 2 つの超解像度コンポーネント

は、ペアのテキストを使用せずに画像のみで最初にトレーニングされます。 Sora之后，OpenAI Lilian Weng亲自撰文教你从头设计视频生成扩散模型

2. 次に、新しい時間レイヤーを追加します。これは恒等関数に初期化され、ラベルのないビデオデータで微調整されます。

Sora之后，OpenAI Lilian Weng亲自撰文教你从头设计视频生成扩散模型 Wu らが 2023 年に提案した Tune-A-Video は、単一サンプルのビデオ微調整を可能にする、事前トレーニングされた画像拡散モデルの拡張です。 =1,...,?}、説明プロンプト ? と組み合わせた場合、タスクの目標は、わずかに編集された関連性のあるテキストプロンプト ?* に基づいて新しいビデオ ?* を生成することです。たとえば、? = 「男はスキーをしています」は、?* ="スパイダーマンはビーチでスキーをしています" に拡張できます。 Tune-A-Video は、オブジェクトの編集、背景の変更、スタイルの転送用に設計されています。

2D 畳み込み層の拡張に加えて、Tune-A-Video の U-Net アーキテクチャには、前のフレーム内の関連する位置をクエリすることによって時間的一貫性を実現できる ST-tention (時空間的注意) モジュールも統合されています。フレーム ?_?、前のフレーム ?_{?-1}、および最初のフレーム ?_1 (クエリ?、キー?、および値?に投影される) の潜在的な特徴を考慮すると、ST-Attendance は次のように定義されます。

Sora之后，OpenAI Lilian Weng亲自撰文教你从头设计视频生成扩散模型

^{Rajah 8: Gambaran keseluruhan seni bina Tune-A-Video. Sebelum peringkat pensampelan, ia mula-mula menjalankan peringkat penalaan halus berwajaran ringan pada satu video. Sila ambil perhatian bahawa keseluruhan lapisan Perhatian Kendiri Temporal (T-Attn) akan diperhalusi kerana ia baru ditambah, tetapi semasa fasa penalaan halus, hanya unjuran pertanyaan dalam ST-Attn dan Cross-Attn akan dikemas kini kepada mengekalkan pengetahuan semantik sebelumnya. ST-Attn boleh meningkatkan ketekalan spatiotemporal dan Cross-Attn boleh mengoptimumkan penjajaran teks-video.}

Model Gen-1 (Landasan) yang dicadangkan oleh Esser et al pada tahun 2023 menyasarkan tugas menyunting video yang diberikan berdasarkan input teks. Ia merawat struktur dan kandungan video secara berasingan apabila mempertimbangkan keadaan penjanaan: p (? | ?,c). Walau bagaimanapun, tidak mudah untuk memisahkan kedua-dua aspek ini dengan jelas.

Kandungan ? merujuk kepada penampilan dan semantik video, yang boleh diambil sampel daripada teks untuk pengeditan bersyarat. Pembenaman CLIP bingkai video mewakili kandungan dengan baik dan sebahagian besarnya kekal ortogon kepada ciri struktur.
Struktur ? menerangkan sifat geometri dan dinamik, termasuk perubahan bentuk, kedudukan dan masa objek, ? Anggaran kedalaman atau maklumat tambahan khusus tugas lain (seperti pose manusia atau maklumat identiti muka untuk sintesis video manusia) boleh digunakan.

Perubahan seni bina dalam Gen-1 adalah agak standard, iaitu menambahkan lapisan convolutional temporal 1D selepas setiap lapisan convolutional spatial 2D dalam modul bakinya dan setiap perhatian spatial 2D dalam modul perhatiannya Tambah modul perhatian temporal 1D selepas modul . Semasa latihan, pembolehubah struktur ? digabungkan dengan pembolehubah pendam meresap ? , di mana pembolehubah kandungan disediakan dalam lapisan perhatian silang. Pada masa inferens, pembenaman CLIP diubah dengan sebelumnya - menukarnya daripada pembenaman teks CLIP kepada pembenaman imej CLIP. Rajah 9: Gambaran keseluruhan proses latihan model Gen-1.

Sora之后，OpenAI Lilian Weng亲自撰文教你从头设计视频生成扩散模型

Blattmann et al dicadangkan pada tahun 2023 Video LDM mula-mula melatih penjana imej LDM (Model Resapan Terpendam). Model itu kemudiannya diperhalusi untuk menghasilkan video dengan dimensi temporal tambahan. Proses penalaan halus ini hanya digunakan untuk lapisan temporal yang baru ditambah pada jujukan imej yang dikodkan. Lapisan sementara

(lihat Rajah 10) dalam Video LDM dijalin dengan lapisan ruang sedia ada , dan lapisan ruang ini kekal beku semasa penalaan halus. Maksudnya, hanya parameter baharu ? diperhalusi di sini, dan parameter model tulang belakang imej yang telah dilatih tidak akan diperhalusi. Aliran kerja Video LDM adalah untuk menjana bingkai utama kadar bingkai rendah dahulu dan kemudian meningkatkan kadar bingkai melalui proses interpolasi bingkai tersirat 2 langkah. Jujukan input panjang ? ditafsirkan ke dalam kumpulan imej (iaitu ?・?) untuk model imej asas dan kemudian diubah saiznya ke dalam format video untuk lapisan Terdapat sambungan langkau yang membawa kepada gabungan keluaran lapisan temporal ?' dan keluaran spatial melalui parameter gabungan yang dipelajari ?. Dalam amalan, dua jenis lapisan pencampuran temporal dilaksanakan: (1) perhatian temporal, (2) modul sisa berasaskan konvolusi 3D.

Sora之后，OpenAI Lilian Weng亲自撰文教你从头设计视频生成扩散模型

Sora之后，OpenAI Lilian Weng亲自撰文教你从头设计视频生成扩散模型 Rajah 10: LDM pra-latihan untuk sintesis imej yang dilanjutkan ke dalam penjana video. B,?,?,?,? ialah saiz kumpulan, panjang jujukan, bilangan saluran, tinggi dan lebar masing-masing. ?_S ialah syarat/bingkai konteks pilihan.

Sora之后，OpenAI Lilian Weng亲自撰文教你从头设计视频生成扩散模型

Walau bagaimanapun, pengekod auto pra-latihan LDM masih menghadapi masalah: ia hanya boleh melihat imej, bukan video. Menggunakannya secara langsung untuk menjana video akan menghasilkan artifak yang berkelip-kelip dengan ketekalan temporal yang lemah. Oleh itu, Video LDM menambah lapisan temporal tambahan pada penyahkod dan menggunakan diskriminator temporal blok demi blok yang dibina dengan konvolusi 3D untuk memperhalusi data video, manakala pengekod kekal tidak berubah, supaya data pra-latihan masih boleh digunakan semula. Semasa penalaan halus penyahkod temporal, pengekod beku memproses setiap bingkai video secara bebas dan menggunakan diskriminator sedar video untuk menguatkuasakan pembinaan semula konsisten sementara antara bingkai.

^{Rajah 11: Aliran kerja latihan autoencoder dalam model penyebaran laten video. Matlamat penalaan halus pengekod adalah untuk mendapatkan ketekalan temporal melalui diskriminator silang bingkai baharu, manakala pengekod kekal tidak berubah.}

Serupa dengan Video LDM, reka bentuk seni bina Stable Video Diffusion (SVD) yang dicadangkan oleh Blattmann et al pada tahun 2023 juga berdasarkan LDM, di mana lapisan temporal dimasukkan selepas setiap lilitan ruang dan lapisan perhatian, tetapi SVD. adalah Penalaan halus dilakukan pada keseluruhan tahap model. Video latihan LDM dibahagikan kepada tiga peringkat:

1 pra-latihan gambar rajah Vincent adalah sangat penting, membantu meningkatkan kualiti dan keupayaan untuk mengikuti arahan.

2 Adalah berfaedah untuk memisahkan pra-latihan video, yang sepatutnya dilakukan pada set data terkumpul berskala lebih besar.

3 Gunakan video pra-sari kata yang lebih kecil dan tinggi untuk penalaan halus video berkualiti tinggi.

SVD secara khusus menekankan peranan kritikal pemasangan set data pada prestasi model. Mereka menggunakan saluran paip pengesanan klip untuk mendapatkan lebih banyak klip daripada setiap video, dan kemudian menggunakan tiga model penanda sari kata yang berbeza padanya: (1) CoCa untuk bingkai di antara, (2) V-V untuk sari kata video BLIP, (3) menggunakan LLM untuk anotasi berdasarkan dua anotasi pertama. Mereka kemudiannya boleh terus menambah baik set data video dengan mengalih keluar klip video dengan kurang gerakan (menapis dengan mengira skor aliran optik rendah pada 2 fps) dan membersihkan teks yang berlebihan (menggunakan pengecaman aksara optik untuk mengenal pasti aksara dengan jumlah teks yang banyak). teks), dan alih keluar video yang kelihatan tidak cukup cantik (gunakan pembenaman CLIP untuk menganotasi bingkai pertama, tengah dan terakhir setiap video dan mengira skor estetik dan persamaan imej teks). Percubaan menunjukkan bahawa menggunakan set data berkualiti tinggi yang ditapis menghasilkan kualiti model yang lebih baik, walaupun set data ini jauh lebih kecil.

Untuk kaedah yang mula-mula menjana bingkai utama jauh dan kemudian menggunakan peleraian super temporal untuk interpolasi, cabaran utama ialah cara mengekalkan ketekalan temporal berkualiti tinggi. Lumiere yang dicadangkan oleh Bar-Tal et al pada tahun 2024 menggunakan seni bina U-Net (STUNet) spatio-temporal, yang boleh menghasilkan video berterusan untuk sepanjang masa dalam satu laluan, supaya tidak perlu bergantung pada TSR ( komponen resolusi super temporal. STUNet menurunkan sampel video dalam kedua-dua dimensi temporal dan ruang dan oleh itu adalah mahal dari segi pengiraan dalam ruang terpendam temporal-spatial yang padat.

^{Rajah 12: Lumiere tidak memerlukan model TSR (temporal super-resolusi). Disebabkan oleh had memori, rangkaian SSR lanjutan boleh menggunakan hanya segmen pendek video, jadi model SSR boleh menggunakan set segmen video yang lebih pendek tetapi bertindih.}

STUNet dapat menurunkan sampel dan menaikkan video secara serentak dalam dimensi temporal dan ruang selepas dilanjutkan pada U-Net graf Vincent yang telah dilatih. Modul berasaskan konvolusi terdiri daripada lapisan Vincent yang telah dilatih, diikuti oleh konvolusi spatiotemporal yang terurai. Dan modul berasaskan perhatian pada tahap U-Net berbutir paling kasar terdiri daripada modul graf Vincentian yang telah terlatih ini, diikuti dengan perhatian sementara. Hanya lapisan yang baru ditambah memerlukan latihan lanjut.

^.

Tiada penyesuaian latihan

Ia juga mungkin untuk mempunyai video output model graf Vincentian yang telah terlatih tanpa menggunakan sebarang latihan, yang agak mengejutkan.

Jika kita hanya mencuba urutan kod tersembunyi secara rawak dan kemudian membina video menggunakan imej sepadan yang dinyahkod, tiada jaminan ketekalan temporal antara objek dan semantik. Text2Video-Zero, yang dicadangkan oleh Khachatryan et al pada tahun 2023, membolehkan penjanaan video tanpa tangkapan sifar, tanpa latihan dengan melengkapkan model penyebaran imej terlatih dengan dua mekanisme utama untuk ketekalan temporal.

1. Mensampel jujukan kod tersirat dengan dinamik gerakan untuk memastikan ketekalan temporal adegan dan latar belakang global.

2. Gunakan perhatian bingkai silang baharu (perhatian setiap bingkai pada bingkai pertama) untuk memprogram semula perhatian diri peringkat bingkai untuk memastikan ketekalan konteks, penampilan dan maklumat identiti perkara latar depan. Rajah 14: Gambarajah skematik aliran kerja Text2Video-Zero.

Berikut ialah penerangan matematik proses pensampelan jujukan pembolehubah pendam dengan maklumat gerakan:

1. Tentukan arah ?=(?_?, ?_?)∈ℝ² untuk mengawal adegan global dan pergerakan kamera secara lalai, tetapkan ?=(1, 1). Tentukan hiperparameter lain λ>0 untuk mengawal jumlah gerakan global.

2 Mula-mula sampel secara rawak kod tersembunyi bingkai pertama

3 Gunakan model resapan imej yang telah terlatih (seperti model Stable Diffusion (SD) dalam kertas) untuk melakukan Δ?≥0 DDIM ke belakang. langkah kemas kini, dan dapatkan kod tersirat yang sepadan , di mana ?'=?-Δ?.

4 Untuk setiap bingkai dalam jujukan kod tersirat, gunakan operasi herotan (yang ditakrifkan sebagai ?^?=λ(?-1)? ) untuk melaksanakan terjemahan gerakan yang sepadan, dan dapatkan

5. untuk Semua Menggunakan langkah ke hadapan DDIM, kami mendapat

Selain itu, Text2Video-Zero juga menggantikan lapisan perhatian kendiri dalam model SD pra-latihan dan menggantikannya dengan perhatian bingkai silang baharu yang merujuk bingkai pertama mekanisme daya. Matlamatnya adalah untuk mengekalkan konteks, rupa dan maklumat identiti objek latar depan dalam hasil video yang dihasilkan.

Terdapat juga pilihan untuk menggunakan topeng latar belakang untuk menjadikan peralihan latar belakang video lebih lancar dan meningkatkan lagi ketekalan latar belakang. Andaikan bahawa kami telah menggunakan beberapa kaedah untuk mendapatkan topeng latar depan yang sepadan bagi bingkai ?_?, dan kemudian operasi pelicinan latar belakang boleh menggabungkan kod tersembunyi sebenar dan kod tersembunyi yang diherotkan oleh langkah penyebaran mengikut matriks latar belakang berikut:

di mana ialah kod tersembunyi sebenar, adakah kod tersembunyi diherotkan pada latar belakang, ? ialah hiperparameter, ditetapkan ?=0.6 dalam eksperimen kertas ini.

Text2Video-Zero boleh digabungkan dengan ControlNet, di mana pada setiap langkah masa penyebaran ?=?,...,1, setiap bingkai dipralatih menggunakan ControlNet pada (?=1,...,?) salin cawangan dan tambah output cawangan ControlNet ke sambungan langkau U-Net utama.

ControlVideo yang dicadangkan oleh Zhang et al pada tahun 2023 bertujuan untuk menjana video berdasarkan gesaan teks dan jujukan gerakan (seperti peta kedalaman atau tepi) . Model ini dilaraskan berdasarkan ControlNet, dengan tiga mekanisme baharu ditambah:

1 Perhatian silang bingkai: Tambahkan interaksi silang bingkai lengkap dalam modul perhatian kendiri. Ia memperkenalkan interaksi antara semua bingkai dengan memetakan bingkai tersembunyi untuk semua langkah masa ke matriks ?,?,?, tidak seperti Text2Video-Zero yang memfokuskan semua bingkai pada bingkai pertama.

2. Mekanisme licin bingkai berjalin mengurangkan kesan kelipan dengan menggunakan interpolasi bingkai pada bingkai berselang-seli. Pada setiap langkah masa ?, yang lebih licin menginterpolasi bingkai genap atau ganjil untuk melicinkan klip tiga bingkai yang sepadan. Ambil perhatian bahawa bilangan bingkai berkurangan dari semasa ke semasa selepas langkah pelicinan.

3. Pensampel berlapis boleh memastikan ketekalan temporal video panjang di bawah kekangan ingatan. Video panjang akan dibahagikan kepada berbilang video pendek dan bingkai utama akan dipilih untuk setiap video pendek. Model pra-menjana bingkai utama ini menggunakan perhatian bingkai silang penuh untuk ketekalan jangka panjang, dan setiap video pendek yang sepadan disintesis secara berurutan berdasarkan bingkai utama ini.
Figure 15 : Présentation de ControlVideo.

^{Lien original : https://lilianweng.github.io/posts/2024-04-12-diffusion-video/}

위 내용은 Sora 이후, OpenAI Lilian Weng은 처음부터 비디오 생성 확산 모델을 설계하는 방법을 알려주는 기사를 직접 작성했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!