Penyelesaian pembiakan sumber terbuka seperti Sora pertama di dunia ada di sini! Pendedahan penuh semua butiran latihan dan berat model-AI-php.cn

Jadual Kandungan

Tafsiran komprehensif penyelesaian replikasi Sora

Reka bentuk seni bina model

Pelan pembiakan latihan

Peringkat pertama ialah pra-latihan imej berskala besar.

Peringkat kedua ialah pra-latihan video berskala besar.

Peringkat ketiga ialah penalaan halus data video berkualiti tinggi.

Prapemprosesan Data

Sokongan latihan yang cekap

Rumah

Peranti teknologi

Penyelesaian pembiakan sumber terbuka seperti Sora pertama di dunia ada di sini! Pendedahan penuh semua butiran latihan dan berat model

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Mar 18, 2024 pm 08:25 PM

AI ai sora

Model penjanaan video seni bina seperti Sora terbuka sumber terbuka pertama di dunia ada di sini!

Keseluruhan proses latihan, termasuk pemprosesan data, semua butiran latihan dan berat model, semuanya terbuka.

Ini ialah Open-Sora 1.0 yang baru dikeluarkan.

Kesan sebenar yang dibawanya adalah seperti berikut, ia boleh menjana trafik yang sibuk dalam suasana malam bandar yang sibuk.

Penyelesaian pembiakan sumber terbuka seperti Sora pertama di dunia ada di sini! Pendedahan penuh semua butiran latihan dan berat model

Anda juga boleh menggunakan perspektif fotografi udara untuk menunjukkan pemandangan pantai tebing dan air laut menghantam batu.

Penyelesaian pembiakan sumber terbuka seperti Sora pertama di dunia ada di sini! Pendedahan penuh semua butiran latihan dan berat model

Atau langit berbintang yang luas di bawah fotografi selang masa.

Penyelesaian pembiakan sumber terbuka seperti Sora pertama di dunia ada di sini! Pendedahan penuh semua butiran latihan dan berat model

Sejak dikeluarkan, mendedahkan dan mengeluarkan semula Sora telah menjadi salah satu topik yang paling diperkatakan dalam komuniti pembangunan kerana kesannya yang menakjubkan dan kekurangan butiran teknikal. Sebagai contoh, pasukan Colossal-AI melancarkan latihan Sora dan proses replikasi inferens yang boleh mengurangkan kos sebanyak 46%.

Selepas hanya dua minggu, pasukan itu sekali lagi mengeluarkan kemajuan terkini, menghasilkan semula penyelesaian seperti Sora, dan menjadikan penyelesaian teknikal dan tutorial terperinci tersedia sebagai sumber terbuka secara percuma di GitHub.

Maka persoalannya, bagaimana cara untuk membiak Sora?

Alamat sumber terbuka Open-Sora: https://github.com/hpcaitech/Open-Sora

Tafsiran komprehensif penyelesaian replikasi Sora

Penyelesaian replikasi Sora merangkumi empat aspek:

Reka bentuk seni bina model
replikasi Penyelesaian semasa
Prapemprosesan data
Strategi pengoptimuman latihan yang cekap

Reka bentuk seni bina model

Model ini menggunakan seni bina homolog Sora Diffusion Transformer (DiT).

Ia berdasarkan PixArt-α, model graf sumber terbuka berkualiti tinggi menggunakan seni bina DiT Atas dasar ini, ia memperkenalkan lapisan perhatian sementara dan memanjangkannya kepada data video.

Secara khusus, keseluruhan seni bina termasuk VAE yang telah terlatih, pengekod teks dan model STDiT (Spatial Temporal Diffusion Transformer) yang menggunakan mekanisme perhatian spatial-temporal.

Antaranya, struktur setiap lapisan STDiT ditunjukkan dalam rajah di bawah.

Ia menggunakan kaedah bersiri untuk menindih modul perhatian temporal satu dimensi pada modul perhatian spatial dua dimensi untuk memodelkan hubungan temporal. Selepas modul perhatian temporal, modul perhatian silang digunakan untuk menyelaraskan semantik teks.

Berbanding dengan mekanisme perhatian penuh, struktur sedemikian sangat mengurangkan overhed latihan dan inferens.

Berbanding dengan model Latte, yang juga menggunakan mekanisme perhatian spatial-temporal, STDiT boleh menggunakan pemberat imej pra-latihan DiT dengan lebih baik untuk meneruskan latihan mengenai data video.

△STDiT rajah struktur

Proses latihan dan inferens keseluruhan model adalah seperti berikut.

Difahamkan bahawa dalam peringkat latihan, pengekod Variational Autoencoder (VAE) yang telah dilatih terlebih dahulu digunakan untuk memampatkan data video, dan kemudian model resapan STDiT dilatih bersama-sama dengan pembenaman teks dalam ruang pendam termampat.

Dalam peringkat inferens, hingar Gaussian diambil secara rawak daripada ruang terpendam VAE, dan dimasukkan ke dalam STDiT bersama-sama dengan pembenaman segera untuk mendapatkan ciri yang dihilangkan Akhirnya, ia dimasukkan ke penyahkod VAE, dan penyahkodan diperoleh video .

Penyelesaian pembiakan sumber terbuka seperti Sora pertama di dunia ada di sini! Pendedahan penuh semua butiran latihan dan berat model

△Proses latihan model

Pelan pembiakan latihan

Dalam bahagian pembiakan latihan, Open-Sora merujuk kepada Stable Video Diffusion (SVD).

Ia terbahagi kepada 3 peringkat:

Pralatihan imej berskala besar.
Latihan pra-latihan video berskala besar.
Penalaan halus data video berkualiti tinggi.

Setiap peringkat akan meneruskan latihan berdasarkan berat peringkat sebelumnya.

Berbanding dengan latihan satu peringkat dari awal, latihan berbilang peringkat mencapai matlamat penjanaan video berkualiti tinggi dengan lebih cekap dengan mengembangkan data secara beransur-ansur.

Penyelesaian pembiakan sumber terbuka seperti Sora pertama di dunia ada di sini! Pendedahan penuh semua butiran latihan dan berat model

△Tiga peringkat pelan latihan

Peringkat pertama ialah pra-latihan imej berskala besar.

Pasukan menggunakan data imej yang kaya dan teknologi graf Vincentian di Internet untuk melatih model graf Vincentian berkualiti tinggi terlebih dahulu dan menggunakan model ini sebagai pemberat permulaan untuk peringkat pra-latihan video yang seterusnya.

Pada masa yang sama, memandangkan pada masa ini tiada VAE spatio-temporal berkualiti tinggi, mereka menggunakan VAE imej terlatih Stable Diffusion.

Ini bukan sahaja memastikan prestasi unggul model awal, tetapi juga mengurangkan kos keseluruhan pra-latihan video dengan ketara.

Peringkat kedua ialah pra-latihan video berskala besar.

Peringkat ini terutamanya meningkatkan keupayaan generalisasi model dan memahami korelasi siri masa video dengan berkesan.

Ia perlu menggunakan sejumlah besar data video untuk latihan dan memastikan kepelbagaian bahan video.

Pada masa yang sama, model peringkat kedua menambah modul perhatian temporal berdasarkan model graf Vincentian peringkat pertama untuk mempelajari hubungan temporal dalam video. Modul yang selebihnya kekal konsisten dengan peringkat pertama dan memuatkan pemberat peringkat pertama sebagai permulaan Pada masa yang sama, output modul perhatian temporal dimulakan kepada sifar untuk mencapai penumpuan yang lebih cekap dan lebih cepat.

Pasukan Colossal-AI menggunakan pemberat sumber terbuka PixArt-alpha sebagai permulaan bagi model STDiT peringkat kedua dan model T5 sebagai pengekod teks. Mereka menggunakan resolusi kecil 256x256 untuk pra-latihan, yang meningkatkan lagi kelajuan penumpuan dan mengurangkan kos latihan.

△Kesan penjanaan Sora Terbuka (kata anjuran: rakaman dunia bawah air, di mana seekor penyu berenang santai di antara terumbu karang)

Peringkat ketiga ialah penalaan halus data video berkualiti tinggi.

Menurut laporan, peringkat ini boleh meningkatkan kualiti penjanaan model dengan ketara. Saiz data yang digunakan adalah satu susunan magnitud lebih rendah daripada peringkat sebelumnya, tetapi tempoh, resolusi dan kualiti video lebih tinggi.

Penalaan halus dengan cara ini boleh mencapai pengembangan penjanaan video yang cekap daripada pendek ke panjang, daripada peleraian rendah kepada peleraian tinggi dan daripada kesetiaan rendah kepada kesetiaan tinggi.

Perlu dinyatakan bahawa Colossal-AI juga mendedahkan penggunaan sumber setiap peringkat secara terperinci.

Dalam proses pembiakan Open-Sora, mereka menggunakan 64 H800 untuk latihan. Jumlah volum latihan peringkat kedua ialah 2808 jam GPU, iaitu lebih kurang AS$7,000, dan volum latihan peringkat ketiga ialah 1920 jam GPU, iaitu kira-kira AS$4,500. Selepas anggaran awal, keseluruhan pelan latihan berjaya mengawal proses pembiakan Open-Sora kepada kira-kira AS$10,000.

Prapemprosesan Data

Untuk mengurangkan lagi ambang dan kerumitan pengulangan Sora, pasukan Colossal-AI juga menyediakan skrip prapemprosesan data video yang mudah dalam gudang kod, supaya semua orang boleh memulakan pra-latihan ulangan Sora dengan mudah.

Termasuk memuat turun set data video awam, membahagikan video panjang kepada klip video pendek berdasarkan kesinambungan tangkapan, dan menggunakan model bahasa besar sumber terbuka LLaVA untuk menjana perkataan segera yang tepat.

Kod penjanaan tajuk video kelompok yang mereka sediakan boleh menganotasi video dengan dua kad dan 3 saat, dan kualitinya hampir dengan GPT-4V.

Pasangan video/teks akhir boleh digunakan terus untuk latihan. Dengan kod sumber terbuka yang mereka sediakan di GitHub, anda boleh dengan mudah dan cepat menjana pasangan video/teks yang diperlukan untuk latihan pada set data anda sendiri, dengan ketara mengurangkan ambang teknikal dan persediaan awal untuk memulakan projek replikasi Sora.

Penyelesaian pembiakan sumber terbuka seperti Sora pertama di dunia ada di sini! Pendedahan penuh semua butiran latihan dan berat model

Sokongan latihan yang cekap

Selain itu, pasukan Colossal-AI juga menyediakan penyelesaian pecutan latihan.

Melalui strategi latihan yang cekap seperti pengoptimuman operator dan keselarian hibrid, kesan pecutan 1.55x telah dicapai dalam latihan pemprosesan video 64 bingkai, 512x512.

Pada masa yang sama, terima kasih kepada sistem pengurusan memori heterogen Colossal-AI, tugas latihan video definisi tinggi 1080p 1 minit boleh dilakukan tanpa halangan pada satu pelayan (8H800).

Penyelesaian pembiakan sumber terbuka seperti Sora pertama di dunia ada di sini! Pendedahan penuh semua butiran latihan dan berat model

Dan pasukan juga mendapati bahawa seni bina model STDiT juga menunjukkan kecekapan yang sangat baik semasa latihan.

Berbanding dengan DiT menggunakan mekanisme perhatian penuh, STDiT mencapai pecutan sehingga 5 kali ganda apabila bilangan bingkai bertambah, yang amat kritikal dalam tugasan sebenar seperti memproses jujukan video yang panjang.

Penyelesaian pembiakan sumber terbuka seperti Sora pertama di dunia ada di sini! Pendedahan penuh semua butiran latihan dan berat model

Akhirnya, pasukan itu juga mengeluarkan lebih banyak kesan generasi Open-Sora.

, tempoh 00:25

Pasukan dan Qubits mendedahkan bahawa mereka akan mengemas kini dan mengoptimumkan penyelesaian dan pembangunan berkaitan Open-Sora dalam jangka panjang. Pada masa hadapan, lebih banyak data latihan video akan digunakan untuk menjana kualiti yang lebih tinggi, kandungan video yang lebih panjang dan menyokong ciri berbilang resolusi.

Dari segi aplikasi praktikal, pasukan mendedahkan bahawa ia akan mempromosikan pelaksanaan dalam filem, permainan, pengiklanan dan bidang lain.

Pembangun yang berminat boleh melawati projek GitHub untuk mengetahui lebih lanjut~

Open-Sora Alamat sumber terbuka: https://github.com/hpcaitech/Open-Sora

Pautan rujukan:

[1]https: //arxiv .org/abs/2212.09748 Model Resapan Boleh Skala dengan Transformer.

[2]https://arxiv.org/abs/2310.00426 PixArt-α: Latihan Pantas Transformer Resapan untuk Sintesis Teks-ke-Imej Fotorealistik.

[3]https://arxiv.org/abs/2311.15127 Resapan Video Stabil: Menskalakan Model Resapan Video Terpendam kepada Set Data Besar.

[4]https://arxiv.org/abs/2401.03048 Latte: Pengubah Resapan Terpendam untuk Penjanaan Video.

[5]https://huggingface.co/stabilityai/sd-vae-ft-mse-original.

[6]https://github.com/google-research/text-to-text-transfer-transformer.

[7]https://github.com/haotian-liu/LLaVA.

[8]https://hpc-ai.com/blog/open-sora-v1.0.

Atas ialah kandungan terperinci Penyelesaian pembiakan sumber terbuka seperti Sora pertama di dunia ada di sini! Pendedahan penuh semua butiran latihan dan berat model. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Tunjukkan Lagi

Artikel Panas

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

4 minggu yang lalu By DDD

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

3 minggu yang lalu By DDD

Di mana untuk mencari kad kunci kawalan kren di atomfall

4 minggu yang lalu By DDD

<🎜>: Rails Dead - Cara Melengkapkan Setiap Cabaran

1 bulan yang lalu By DDD

Panduan Atomfall: Lokasi Item, Panduan Pencarian, dan Petua

1 bulan yang lalu By DDD

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7702

Tutorial Java

1640

Tutorial CakePHP

1393

Tutorial Laravel

1287

Tutorial PHP

1230

Tunjukkan Lagi

Related knowledge

Ramalan Harga Worldcoin (WLD) 2025-2031: Adakah WLD akan mencapai $ 4 menjelang 2031? Apr 21, 2025 pm 02:42 PM

Worldcoin (WLD) menonjol dalam pasaran cryptocurrency dengan mekanisme pengesahan biometrik dan perlindungan privasi yang unik, menarik perhatian banyak pelabur. WLD telah melakukan yang luar biasa di kalangan altcoin dengan teknologi inovatifnya, terutamanya dalam kombinasi dengan teknologi kecerdasan buatan terbuka. Tetapi bagaimanakah aset digital akan berkelakuan dalam beberapa tahun akan datang? Mari kita meramalkan harga masa depan WLD bersama -sama. Ramalan harga WLD 2025 dijangka mencapai pertumbuhan yang signifikan di WLD pada tahun 2025. Analisis pasaran menunjukkan bahawa harga WLD purata boleh mencapai $ 1.31, dengan maksimum $ 1.36. Walau bagaimanapun, dalam pasaran beruang, harga mungkin jatuh ke sekitar $ 0.55. Harapan pertumbuhan ini disebabkan terutamanya oleh WorldCoin2.

Apakah yang dimaksudkan dengan transaksi rantaian rantaian? Apakah urus niaga salib? Apr 21, 2025 pm 11:39 PM

Pertukaran yang menyokong urus niaga rantaian: 1. Binance, 2. Uniswap, 3 Sushiswap, 4. Kewangan Curve, 5. Thorchain, 6. 1 inci Pertukaran, 7.

Cara Memenangi Ganjaran Airdrop Kernel pada Strategi Proses Penuh Binance Apr 21, 2025 pm 01:03 PM

Dalam dunia kriptografi yang ramai, peluang baru selalu muncul. Pada masa ini, aktiviti udara Kerneldao (kernel) menarik banyak perhatian dan menarik perhatian banyak pelabur. Jadi, apakah asalnya projek ini? Apakah faedah yang boleh diperoleh oleh pemegang BNB? Jangan risau, perkara berikut akan mendedahkannya satu demi satu untuk anda.

Mengapa kenaikan atau kejatuhan harga mata wang maya? Mengapa kenaikan atau kejatuhan harga mata wang maya? Apr 21, 2025 am 08:57 AM

Faktor kenaikan harga mata wang maya termasuk: 1. Peningkatan permintaan pasaran, 2. Menurunkan bekalan, 3. Berita positif yang dirangsang, 4. Sentimen pasaran optimis, 5. Persekitaran makroekonomi; Faktor penurunan termasuk: 1. Mengurangkan permintaan pasaran, 2. Peningkatan bekalan, 3.

'Black Monday Sell' adalah hari yang sukar untuk industri cryptocurrency Apr 21, 2025 pm 02:48 PM

Jatuh di pasaran cryptocurrency telah menyebabkan panik di kalangan pelabur, dan Dogecoin (Doge) telah menjadi salah satu kawasan terkena paling sukar. Harganya jatuh dengan ketara, dan jumlah nilai kunci kewangan yang terdesentralisasi (DEFI) (TVL) juga menyaksikan penurunan yang ketara. Gelombang jualan "Black Monday" menyapu pasaran cryptocurrency, dan Dogecoin adalah yang pertama dipukul. Defitvlnya jatuh ke tahap 2023, dan harga mata wang jatuh 23.78% pada bulan lalu. Defitvl Dogecoin jatuh ke tahap rendah $ 2.72 juta, terutamanya disebabkan oleh penurunan 26.37% dalam indeks nilai SOSO. Platform defi utama lain, seperti DAO dan Thorchain yang membosankan, TVL juga menurun sebanyak 24.04% dan 20.

Kedudukan pertukaran leverage dalam lingkaran mata wang Cadangan terkini sepuluh pertukaran leverage dalam lingkaran mata wang Apr 21, 2025 pm 11:24 PM

Platform yang mempunyai prestasi cemerlang dalam perdagangan, keselamatan dan pengalaman pengguna yang dimanfaatkan pada tahun 2025 adalah: 1. Okx, sesuai untuk peniaga frekuensi tinggi, menyediakan sehingga 100 kali leverage; 2. Binance, sesuai untuk peniaga berbilang mata wang di seluruh dunia, memberikan 125 kali leverage tinggi; 3. Gate.io, sesuai untuk pemain derivatif profesional, menyediakan 100 kali leverage; 4. Bitget, sesuai untuk orang baru dan peniaga sosial, menyediakan sehingga 100 kali leverage; 5. Kraken, sesuai untuk pelabur mantap, menyediakan 5 kali leverage; 6. Bybit, sesuai untuk penjelajah altcoin, menyediakan 20 kali leverage; 7. Kucoin, sesuai untuk peniaga kos rendah, menyediakan 10 kali leverage; 8. Bitfinex, sesuai untuk bermain senior

Platform Perdagangan Web3 Ranking_Web3 Global Exchanges Top Ten Ringkasan Apr 21, 2025 am 10:45 AM

Binance adalah tuan rumah ekosistem perdagangan aset digital global, dan ciri -cirinya termasuk: 1. Jumlah dagangan harian purata melebihi $ 150 bilion, menyokong 500 pasangan perdagangan, yang meliputi 98% mata wang arus perdana; 2. Matriks inovasi meliputi pasaran Derivatif, susun atur Web3 dan sistem pendidikan; 3. Kelebihan teknikal adalah enjin yang sepadan dengan milisaat, dengan jumlah pemprosesan puncak sebanyak 1.4 juta transaksi sesaat; 4. Kemajuan pematuhan memegang lesen 15 negara dan menetapkan entiti yang mematuhi di Eropah dan Amerika Syarikat.

Aavenomics adalah cadangan untuk mengubah suai token protokol AAVE dan memperkenalkan pembelian semula token, yang telah mencapai bilangan kuorum orang. Apr 21, 2025 pm 06:24 PM

Aavenomics adalah cadangan untuk mengubah token protokol AAVE dan memperkenalkan repos token, yang telah melaksanakan kuorum untuk Aavedao. Marc Zeller, pengasas Rantaian Projek AAVE (ACI), mengumumkan ini pada X, dengan menyatakan bahawa ia menandakan era baru untuk perjanjian itu. Marc Zeller, pengasas Inisiatif Rantaian AAVE (ACI), mengumumkan pada X bahawa cadangan aavenomik termasuk mengubah token protokol AAVE dan memperkenalkan repos token, telah mencapai kuorum untuk Aavedao. Menurut Zeller, ini menandakan era baru untuk perjanjian itu. Ahli -ahli Aavedao mengundi untuk menyokong cadangan itu, yang 100 seminggu pada hari Rabu

See all articles