Rumah > Peranti teknologi > AI > teks badan

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p

WBOY
Lepaskan: 2024-04-25 14:55:14
ke hadapan
937 orang telah melayarinya

Open-Sora telah dikemas kini secara senyap-senyap dalam komuniti sumber terbuka Ia kini menyokong penjanaan video sehingga 16 saat, dengan resolusi sehingga 720p, dan boleh mengendalikan sebarang nisbah aspek teks kepada imej, teks kepada video, imej kepada video. , Video ke video dan keperluan penjanaan video panjang tidak terhingga. Jom cuba.

Janakan pemandangan salji Krismas skrin mendatar, siarkan ke tapak B

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p

dan kemudian buat skrin menegak, tweet

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p

jana video berdurasi 16 saat dan juga 1 saat boleh Bagaimana untuk bermain jika anda ketagih dengan penulisan skrip? Bimbingan

GitHub: https://github.com/hpcaitech/Open-Sora

Apa yang lebih menarik ialah Open-Sora masih semua sumber terbuka, termasukseni bina model terkini, berat model terkini, dan banyak lagi Proses latihan masa/resolusi/nisbah aspek/kadar bingkai, proses lengkap pengumpulan dan prapemprosesan data, semua butiran latihan, contoh demo

dan

tutorial permulaan terperinci. . kemas kini ini terutamanya Ia termasuk ciri-ciri utama berikut: Menyokong penjanaan video yang panjang

Resolusi penjanaan video sehingga 720p

Sokongan model dan teks yang berbeza; , teks ke video, imej ke video, video ke video dan keperluan penjanaan video panjang tidak terhingga

Mencadangkan reka bentuk seni bina model yang lebih stabil, menyokong latihan nisbah pelbagai masa/resolusi/kadar bingkai;

    proses pemprosesan data automatik terkini adalah sumber terbuka.
  • Model penyebaran ruang-masa ST-DiT-2
  • Pasukan pengarang menyatakan bahawa mereka telah membuat penambahbaikan utama pada seni bina STDiT dalam Open-Sora 1.0, bertujuan untuk meningkatkan kestabilan latihan dan prestasi keseluruhan daripada model tersebut. Untuk tugas ramalan jujukan semasa, pasukan menerima pakai amalan terbaik model bahasa besar (LLM) dan menggantikan pengekodan kedudukan sinusoidal dalam perhatian temporal dengan pengekodan kedudukan putaran yang lebih cekap (pembenaman RoPE). Di samping itu, untuk meningkatkan kestabilan latihan, mereka merujuk kepada seni bina model SD3 dan seterusnya memperkenalkan teknologi normalisasi QK untuk meningkatkan kestabilan latihan separuh ketepatan. Untuk menyokong keperluan latihan berbilang resolusi, nisbah aspek yang berbeza dan kadar bingkai, seni bina ST-DiT-2 yang dicadangkan oleh pasukan pengarang secara automatik boleh menskalakan pengekodan kedudukan dan mengendalikan input dengan saiz yang berbeza.
  • Latihan pelbagai peringkat
Menurut laporan teknikal Open-Sora, Open-Sora mengamalkan kaedah latihan pelbagai peringkat, dan setiap peringkat akan meneruskan latihan berdasarkan berat peringkat sebelumnya. Berbanding dengan latihan satu peringkat, latihan berbilang peringkat ini mencapai matlamat penjanaan video berkualiti tinggi dengan lebih cekap dengan memperkenalkan data langkah demi langkah.

Pada peringkat awal, kebanyakan video menggunakan resolusi 144p, dan dicampur dengan gambar dan video 240p, 480p untuk latihan berlangsung kira-kira 1 minggu, dengan jumlah saiz langkah 81k. Pada peringkat kedua, resolusi kebanyakan data video ditingkatkan kepada 240p dan 480p, masa latihan ialah 1 hari, dan saiz langkah mencapai 22k. Peringkat ketiga dipertingkatkan lagi kepada 480p dan 720p, tempoh latihan adalah 1 hari, dan latihan 4k langkah telah selesai. Keseluruhan proses latihan berbilang peringkat telah selesai dalam masa kira-kira 9 hari Berbanding dengan Open-Sora1.0, kualiti penjanaan video telah dipertingkatkan dalam pelbagai dimensi.

Rangka kerja imej-ke-video/video-ke-video bersatu

Pasukan pengarang menyatakan bahawa berdasarkan ciri-ciri Transformer, seni bina DiT boleh diperluaskan dengan mudah untuk menyokong imej-ke-imej dan tugasan video-ke-video. Mereka mencadangkan strategi penyamaran untuk menyokong pemprosesan bersyarat imej dan video. Dengan menetapkan topeng yang berbeza, pelbagai tugas penjanaan boleh disokong, termasuk: video grafik, video gelung, sambungan video, penjanaan autoregresif video, sambungan video, penyuntingan video, sisipan bingkai, dsb.

Sokongan strategi penyamaran untuk pemprosesan bersyarat imej dan video

Pasukan pengarang menyatakan bahawa diilhamkan oleh kaedah UL2[2], mereka memperkenalkan strategi topeng rawak dalam peringkat latihan model. Khususnya, bingkai yang bertopeng dipilih dan didedahkan secara rawak semasa proses latihan, termasuk tetapi tidak terhad kepada membuka topeng bingkai pertama, bingkai k pertama, bingkai k seterusnya, sebarang bingkai k, dsb. Pengarang juga mendedahkan kepada kami bahawa berdasarkan eksperimen dengan Open-Sora 1.0, apabila menggunakan strategi penyamaran dengan kebarangkalian 50%, model boleh belajar dengan lebih baik untuk mengendalikan penyesuaian imej dengan hanya beberapa langkah. Dalam versi terkini Open-Sora, mereka menggunakan kaedah pra-latihan dari awal menggunakan strategi penyamaran.

Selain itu, pasukan pengarang juga menyediakan panduan terperinci untuk konfigurasi strategi masking untuk peringkat inferens Bentuk tuple lima nombor memberikan fleksibiliti dan kawalan yang hebat semasa menentukan strategi masking. . peleraian, nisbah bidang dan panjang boleh meningkatkan fleksibiliti pensampelan dan menambah baik pembingkaian dan komposisi. Dalam hal ini, pasukan pengarang mencadangkan strategi timba.

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720pBagaimana untuk melaksanakannya secara khusus? Melalui pembacaan mendalam laporan teknikal yang diterbitkan oleh penulis, kami mengetahui bahawa baldi yang dipanggil ialah tiga kali ganda (resolusi, bilangan bingkai, nisbah bidang). Pasukan ini telah mentakrifkan julat nisbah bidang untuk video pada peleraian berbeza untuk merangkumi jenis nisbah aspek video yang paling biasa. Sebelum permulaan setiap zaman kitaran latihan, mereka merombak set data dan menetapkan sampel kepada baldi yang sepadan mengikut ciri mereka. Secara khusus, mereka meletakkan setiap sampel ke dalam baldi yang resolusi dan panjang bingkainya kurang daripada atau sama dengan ciri video tersebut.

Open-Sora Bucketing Strategy

Pasukan pengarang seterusnya mendedahkan bahawa untuk mengurangkan keperluan untuk sumber pengkomputeran, mereka memperkenalkan dua atribut (resolusi, bilangan bingkai) untuk setiap simpan_prob dan kumpulan Kira kos dan laksanakan latihan pelbagai peringkat. Dengan cara ini mereka boleh mengawal bilangan sampel dalam baldi yang berbeza dan mengimbangi beban GPU dengan mencari saiz kelompok yang baik untuk setiap baldi. Penulis menghuraikan perkara ini dalam laporan teknikal Rakan-rakan yang berminat boleh membaca laporan teknikal yang diterbitkan oleh penulis di GitHub untuk mendapatkan maklumat lanjut: https://github.com/hpcaitech/Open-Sora

Data collection and pre -proses pemprosesan

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720pPasukan pengarang juga menyediakan panduan terperinci tentang pengumpulan dan pemprosesan data. Menurut penjelasan penulis dalam laporan teknikal, semasa proses pembangunan Open-Sora 1.0, mereka menyedari bahawa kuantiti dan kualiti data adalah sangat kritikal untuk memupuk model berprestasi tinggi, jadi mereka menumpukan diri mereka untuk mengembangkan dan mengoptimumkan data. ditetapkan. Mereka mewujudkan proses pemprosesan data automatik yang mengikut prinsip penguraian nilai tunggal (SVD) dan pembahagian pemandangan tertutup, pemprosesan sari kata, pemarkahan dan penapisan kepelbagaian, serta sistem pengurusan dan spesifikasi set data. Begitu juga, mereka juga berkongsi skrip berkaitan pemprosesan data kepada komuniti sumber terbuka tanpa mementingkan diri sendiri. Pembangun yang berminat kini boleh menggunakan sumber ini, digabungkan dengan laporan teknikal dan kod, untuk memproses dan mengoptimumkan set data mereka sendiri dengan cekap. Proses pemprosesan data Open-Sora adakah itu ia Ia boleh menangkap dan mengubah pemandangan dalam fikiran anda menjadi video yang bergerak melalui penerangan teks. Imej dan imaginasi yang terlintas di fikiran anda kini boleh dirakam secara kekal dan dikongsi dengan orang lain. Di sini, penulis mencuba beberapa gesaan berbeza sebagai titik permulaan.

Sebagai contoh, penulis cuba menghasilkan video melawat hutan musim sejuk. Tidak lama selepas salji turun, pokok-pokok pain ditutup dengan salji putih yang gelap dan kepingan salji putih bertaburan dalam lapisan yang jelas.

Atau, pada malam yang sunyi, anda berada di dalam hutan yang gelap seperti yang digambarkan dalam cerita dongeng yang tidak terkira banyaknya, dengan tasik dalam berkilauan di bawah bintang-bintang terang di seluruh langit.

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p

Pemandangan malam pulau yang sibuk dari udara lebih cantik dengan cahaya kuning yang hangat dan air biru seperti reben membuatkan orang ramai tertarik dengan masa percutian yang santai.

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p

Kesibukan lalu lintas di bandar, bangunan tinggi dan kedai jalanan dengan lampu masih menyala pada lewat malam, mempunyai rasa yang berbeza.

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p

Selain pemandangan, Open-Sora juga boleh memulihkan pelbagai makhluk semula jadi. Sama ada ia bunga merah terang,

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p

atau bunglon perlahan-lahan memalingkan kepalanya, Open-Sora boleh menjana video yang lebih realistik.

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p

Pengarang juga mencuba pelbagai ujian segera dan menyediakan banyak video yang dijana untuk rujukan anda, termasuk kandungan yang berbeza, resolusi berbeza, nisbah aspek yang berbeza dan tempoh yang berbeza. . Leraian: 16*240p p

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720pLeraian: 480 *854p

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p

Kami juga boleh memberi Open-Sora imej statik untuk menghasilkan video pendek

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p.

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p

Sebagai contoh lain, jika kita ingin mengedit video asal, dengan hanya arahan mudah, hutan yang asalnya terang telah membawa salji yang lebat. Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p Kita juga boleh menggunakan Open-Sora untuk menjana gambar definisi tinggi bahawa berat Model Open-Sora sudah ada benar-benar percuma Ia terbuka kepada komuniti sumber terbuka mereka, jadi anda juga boleh memuat turunnya dan mencubanya. Memandangkan mereka juga menyokong fungsi penyambungan video, ini bermakna anda berpeluang mencipta cerpen dengan cerita secara percuma untuk membawa kreativiti anda menjadi realiti.

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720pAlamat muat turun berat: https://github.com/hpcaitech/Open-Sora

Keterbatasan semasa dan rancangan masa depan

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720pWalaupun keputusan yang baik telah dicapai dalam menghasilkan semula video Sora-seperti Vincent telah menghasilkan semula telah dibuat, tetapi pasukan pengarang juga dengan rendah hati menyatakan bahawa video yang dijana pada masa ini masih perlu diperbaiki dalam banyak aspek: termasuk isu bunyi semasa proses penjanaan, kekurangan ketekalan temporal, kualiti penjanaan watak yang lemah dan skor estetik yang rendah. Mengenai cabaran ini, pasukan pengarang menyatakan bahawa mereka akan memberi keutamaan untuk menyelesaikannya dalam pembangunan versi seterusnya untuk mencapai standard penjanaan video yang lebih tinggi Rakan-rakan yang berminat mungkin ingin terus memberi perhatian. Kami menantikan kejutan seterusnya yang dibawa oleh komuniti Open-Sora kepada kami.

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p

Alamat sumber terbuka: https://github.com/hpcaitech/Open-Sora

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p

Atas ialah kandungan terperinci Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Label berkaitan:
sumber:51cto.com
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan
Tentang kita Penafian Sitemap
Laman web PHP Cina:Latihan PHP dalam talian kebajikan awam,Bantu pelajar PHP berkembang dengan cepat!