Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p-AI-php.cn

Rumah

Peranti teknologi

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 25, 2024 pm 02:55 PM

git Tik Tok data Model penyuntingan video

Open-Sora telah dikemas kini secara senyap-senyap dalam komuniti sumber terbuka Ia kini menyokong penjanaan video sehingga 16 saat, dengan resolusi sehingga 720p, dan boleh mengendalikan sebarang nisbah aspek teks kepada imej, teks kepada video, imej kepada video. , Video ke video dan keperluan penjanaan video panjang tidak terhingga. Jom cuba.

Janakan pemandangan salji Krismas skrin mendatar, siarkan ke tapak B

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p

dan kemudian buat skrin menegak, tweet

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p

jana video berdurasi 16 saat dan juga 1 saat boleh Bagaimana untuk bermain jika anda ketagih dengan penulisan skrip? Bimbingan

GitHub: https://github.com/hpcaitech/Open-Sora

Apa yang lebih menarik ialah Open-Sora masih semua sumber terbuka, termasukseni bina model terkini, berat model terkini, dan banyak lagi Proses latihan masa/resolusi/nisbah aspek/kadar bingkai, proses lengkap pengumpulan dan prapemprosesan data, semua butiran latihan, contoh demo

dan

tutorial permulaan terperinci. . kemas kini ini terutamanya Ia termasuk ciri-ciri utama berikut: Menyokong penjanaan video yang panjang

Resolusi penjanaan video sehingga 720p

Sokongan model dan teks yang berbeza; , teks ke video, imej ke video, video ke video dan keperluan penjanaan video panjang tidak terhingga

Mencadangkan reka bentuk seni bina model yang lebih stabil, menyokong latihan nisbah pelbagai masa/resolusi/kadar bingkai;

Model penyebaran ruang-masa ST-DiT-2
Pasukan pengarang menyatakan bahawa mereka telah membuat penambahbaikan utama pada seni bina STDiT dalam Open-Sora 1.0, bertujuan untuk meningkatkan kestabilan latihan dan prestasi keseluruhan daripada model tersebut. Untuk tugas ramalan jujukan semasa, pasukan menerima pakai amalan terbaik model bahasa besar (LLM) dan menggantikan pengekodan kedudukan sinusoidal dalam perhatian temporal dengan pengekodan kedudukan putaran yang lebih cekap (pembenaman RoPE). Di samping itu, untuk meningkatkan kestabilan latihan, mereka merujuk kepada seni bina model SD3 dan seterusnya memperkenalkan teknologi normalisasi QK untuk meningkatkan kestabilan latihan separuh ketepatan. Untuk menyokong keperluan latihan berbilang resolusi, nisbah aspek yang berbeza dan kadar bingkai, seni bina ST-DiT-2 yang dicadangkan oleh pasukan pengarang secara automatik boleh menskalakan pengekodan kedudukan dan mengendalikan input dengan saiz yang berbeza.

Menurut laporan teknikal Open-Sora, Open-Sora mengamalkan kaedah latihan pelbagai peringkat, dan setiap peringkat akan meneruskan latihan berdasarkan berat peringkat sebelumnya. Berbanding dengan latihan satu peringkat, latihan berbilang peringkat ini mencapai matlamat penjanaan video berkualiti tinggi dengan lebih cekap dengan memperkenalkan data langkah demi langkah.

Pada peringkat awal, kebanyakan video menggunakan resolusi 144p, dan dicampur dengan gambar dan video 240p, 480p untuk latihan berlangsung kira-kira 1 minggu, dengan jumlah saiz langkah 81k. Pada peringkat kedua, resolusi kebanyakan data video ditingkatkan kepada 240p dan 480p, masa latihan ialah 1 hari, dan saiz langkah mencapai 22k. Peringkat ketiga dipertingkatkan lagi kepada 480p dan 720p, tempoh latihan adalah 1 hari, dan latihan 4k langkah telah selesai. Keseluruhan proses latihan berbilang peringkat telah selesai dalam masa kira-kira 9 hari Berbanding dengan Open-Sora1.0, kualiti penjanaan video telah dipertingkatkan dalam pelbagai dimensi.

Rangka kerja imej-ke-video/video-ke-video bersatu

Pasukan pengarang menyatakan bahawa berdasarkan ciri-ciri Transformer, seni bina DiT boleh diperluaskan dengan mudah untuk menyokong imej-ke-imej dan tugasan video-ke-video. Mereka mencadangkan strategi penyamaran untuk menyokong pemprosesan bersyarat imej dan video. Dengan menetapkan topeng yang berbeza, pelbagai tugas penjanaan boleh disokong, termasuk: video grafik, video gelung, sambungan video, penjanaan autoregresif video, sambungan video, penyuntingan video, sisipan bingkai, dsb.

Sokongan strategi penyamaran untuk pemprosesan bersyarat imej dan video

Pasukan pengarang menyatakan bahawa diilhamkan oleh kaedah UL2[2], mereka memperkenalkan strategi topeng rawak dalam peringkat latihan model. Khususnya, bingkai yang bertopeng dipilih dan didedahkan secara rawak semasa proses latihan, termasuk tetapi tidak terhad kepada membuka topeng bingkai pertama, bingkai k pertama, bingkai k seterusnya, sebarang bingkai k, dsb. Pengarang juga mendedahkan kepada kami bahawa berdasarkan eksperimen dengan Open-Sora 1.0, apabila menggunakan strategi penyamaran dengan kebarangkalian 50%, model boleh belajar dengan lebih baik untuk mengendalikan penyesuaian imej dengan hanya beberapa langkah. Dalam versi terkini Open-Sora, mereka menggunakan kaedah pra-latihan dari awal menggunakan strategi penyamaran.

Selain itu, pasukan pengarang juga menyediakan panduan terperinci untuk konfigurasi strategi masking untuk peringkat inferens Bentuk tuple lima nombor memberikan fleksibiliti dan kawalan yang hebat semasa menentukan strategi masking. . peleraian, nisbah bidang dan panjang boleh meningkatkan fleksibiliti pensampelan dan menambah baik pembingkaian dan komposisi. Dalam hal ini, pasukan pengarang mencadangkan strategi timba.

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p Bagaimana untuk melaksanakannya secara khusus? Melalui pembacaan mendalam laporan teknikal yang diterbitkan oleh penulis, kami mengetahui bahawa baldi yang dipanggil ialah tiga kali ganda (resolusi, bilangan bingkai, nisbah bidang). Pasukan ini telah mentakrifkan julat nisbah bidang untuk video pada peleraian berbeza untuk merangkumi jenis nisbah aspek video yang paling biasa. Sebelum permulaan setiap zaman kitaran latihan, mereka merombak set data dan menetapkan sampel kepada baldi yang sepadan mengikut ciri mereka. Secara khusus, mereka meletakkan setiap sampel ke dalam baldi yang resolusi dan panjang bingkainya kurang daripada atau sama dengan ciri video tersebut.

Open-Sora Bucketing Strategy

Pasukan pengarang seterusnya mendedahkan bahawa untuk mengurangkan keperluan untuk sumber pengkomputeran, mereka memperkenalkan dua atribut (resolusi, bilangan bingkai) untuk setiap simpan_prob dan kumpulan Kira kos dan laksanakan latihan pelbagai peringkat. Dengan cara ini mereka boleh mengawal bilangan sampel dalam baldi yang berbeza dan mengimbangi beban GPU dengan mencari saiz kelompok yang baik untuk setiap baldi. Penulis menghuraikan perkara ini dalam laporan teknikal Rakan-rakan yang berminat boleh membaca laporan teknikal yang diterbitkan oleh penulis di GitHub untuk mendapatkan maklumat lanjut: https://github.com/hpcaitech/Open-Sora

Data collection and pre -proses pemprosesan

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p Pasukan pengarang juga menyediakan panduan terperinci tentang pengumpulan dan pemprosesan data. Menurut penjelasan penulis dalam laporan teknikal, semasa proses pembangunan Open-Sora 1.0, mereka menyedari bahawa kuantiti dan kualiti data adalah sangat kritikal untuk memupuk model berprestasi tinggi, jadi mereka menumpukan diri mereka untuk mengembangkan dan mengoptimumkan data. ditetapkan. Mereka mewujudkan proses pemprosesan data automatik yang mengikut prinsip penguraian nilai tunggal (SVD) dan pembahagian pemandangan tertutup, pemprosesan sari kata, pemarkahan dan penapisan kepelbagaian, serta sistem pengurusan dan spesifikasi set data. Begitu juga, mereka juga berkongsi skrip berkaitan pemprosesan data kepada komuniti sumber terbuka tanpa mementingkan diri sendiri. Pembangun yang berminat kini boleh menggunakan sumber ini, digabungkan dengan laporan teknikal dan kod, untuk memproses dan mengoptimumkan set data mereka sendiri dengan cekap. Proses pemprosesan data Open-Sora adakah itu ia Ia boleh menangkap dan mengubah pemandangan dalam fikiran anda menjadi video yang bergerak melalui penerangan teks. Imej dan imaginasi yang terlintas di fikiran anda kini boleh dirakam secara kekal dan dikongsi dengan orang lain. Di sini, penulis mencuba beberapa gesaan berbeza sebagai titik permulaan.

Sebagai contoh, penulis cuba menghasilkan video melawat hutan musim sejuk. Tidak lama selepas salji turun, pokok-pokok pain ditutup dengan salji putih yang gelap dan kepingan salji putih bertaburan dalam lapisan yang jelas.

Atau, pada malam yang sunyi, anda berada di dalam hutan yang gelap seperti yang digambarkan dalam cerita dongeng yang tidak terkira banyaknya, dengan tasik dalam berkilauan di bawah bintang-bintang terang di seluruh langit.

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p

Pemandangan malam pulau yang sibuk dari udara lebih cantik dengan cahaya kuning yang hangat dan air biru seperti reben membuatkan orang ramai tertarik dengan masa percutian yang santai.

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p

Kesibukan lalu lintas di bandar, bangunan tinggi dan kedai jalanan dengan lampu masih menyala pada lewat malam, mempunyai rasa yang berbeza.

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p

Selain pemandangan, Open-Sora juga boleh memulihkan pelbagai makhluk semula jadi. Sama ada ia bunga merah terang,

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p

atau bunglon perlahan-lahan memalingkan kepalanya, Open-Sora boleh menjana video yang lebih realistik.

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p

Pengarang juga mencuba pelbagai ujian segera dan menyediakan banyak video yang dijana untuk rujukan anda, termasuk kandungan yang berbeza, resolusi berbeza, nisbah aspek yang berbeza dan tempoh yang berbeza. . Leraian: 16*240p p

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p Leraian: 480 *854p

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p

Kami juga boleh memberi Open-Sora imej statik untuk menghasilkan video pendek

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p .

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p

Sebagai contoh lain, jika kita ingin mengedit video asal, dengan hanya arahan mudah, hutan yang asalnya terang telah membawa salji yang lebat. Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p Kita juga boleh menggunakan Open-Sora untuk menjana gambar definisi tinggi bahawa berat Model Open-Sora sudah ada benar-benar percuma Ia terbuka kepada komuniti sumber terbuka mereka, jadi anda juga boleh memuat turunnya dan mencubanya. Memandangkan mereka juga menyokong fungsi penyambungan video, ini bermakna anda berpeluang mencipta cerpen dengan cerita secara percuma untuk membawa kreativiti anda menjadi realiti.

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p Alamat muat turun berat: https://github.com/hpcaitech/Open-Sora

Keterbatasan semasa dan rancangan masa depan

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p Walaupun keputusan yang baik telah dicapai dalam menghasilkan semula video Sora-seperti Vincent telah menghasilkan semula telah dibuat, tetapi pasukan pengarang juga dengan rendah hati menyatakan bahawa video yang dijana pada masa ini masih perlu diperbaiki dalam banyak aspek: termasuk isu bunyi semasa proses penjanaan, kekurangan ketekalan temporal, kualiti penjanaan watak yang lemah dan skor estetik yang rendah. Mengenai cabaran ini, pasukan pengarang menyatakan bahawa mereka akan memberi keutamaan untuk menyelesaikannya dalam pembangunan versi seterusnya untuk mencapai standard penjanaan video yang lebih tinggi Rakan-rakan yang berminat mungkin ingin terus memberi perhatian. Kami menantikan kejutan seterusnya yang dibawa oleh komuniti Open-Sora kepada kami.

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p

Alamat sumber terbuka: https://github.com/hpcaitech/Open-Sora

Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p

Atas ialah kandungan terperinci Peningkatan sumber terbuka komprehensif Open-Sora: menyokong penjanaan video 16s dan resolusi 720p. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

2 minggu yang lalu By DDD

R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Cara Membuka Segala -galanya Di Myrise

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7504

Tutorial CakePHP

1378

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi

Related knowledge

Cara Menjalankan Projek H5 Apr 06, 2025 pm 12:21 PM

Menjalankan projek H5 memerlukan langkah -langkah berikut: memasang alat yang diperlukan seperti pelayan web, node.js, alat pembangunan, dan lain -lain. Membina persekitaran pembangunan, membuat folder projek, memulakan projek, dan menulis kod. Mulakan pelayan pembangunan dan jalankan arahan menggunakan baris arahan. Pratonton projek dalam penyemak imbas anda dan masukkan URL Server Pembangunan. Menerbitkan projek, mengoptimumkan kod, menggunakan projek, dan menyediakan konfigurasi pelayan web.

Bagaimana cara menentukan pangkalan data yang berkaitan dengan model dalam beego orm? Apr 02, 2025 pm 03:54 PM

Di bawah rangka kerja beegoorm, bagaimana untuk menentukan pangkalan data yang berkaitan dengan model? Banyak projek beego memerlukan pelbagai pangkalan data untuk dikendalikan secara serentak. Semasa menggunakan beego ...

GITEE PAGES PENYEDIAAN LAMAN WEB STATIC Gagal: Bagaimana menyelesaikan masalah dan menyelesaikan kesilapan fail tunggal 404? Apr 04, 2025 pm 11:54 PM

Giteepages Statik Laman Web Penggunaan Gagal: 404 Penyelesaian Masalah dan Resolusi Ralat Semasa Menggunakan Gitee ...

Perpustakaan mana yang dibangunkan oleh syarikat besar atau disediakan oleh projek sumber terbuka yang terkenal? Apr 02, 2025 pm 04:12 PM

Perpustakaan mana yang dibangunkan oleh syarikat besar atau projek sumber terbuka yang terkenal? Semasa pengaturcaraan di GO, pemaju sering menghadapi beberapa keperluan biasa, ...

Bagaimana menyelesaikan masalah penukaran jenis user_id semasa menggunakan aliran redis untuk melaksanakan beratur mesej dalam bahasa Go? Apr 02, 2025 pm 04:54 PM

Masalah menggunakan redisstream untuk melaksanakan beratur mesej dalam bahasa Go menggunakan bahasa Go dan redis ...

Adakah pengeluaran halaman H5 memerlukan penyelenggaraan berterusan? Apr 05, 2025 pm 11:27 PM

Halaman H5 perlu dikekalkan secara berterusan, kerana faktor -faktor seperti kelemahan kod, keserasian pelayar, pengoptimuman prestasi, kemas kini keselamatan dan peningkatan pengalaman pengguna. Kaedah penyelenggaraan yang berkesan termasuk mewujudkan sistem ujian lengkap, menggunakan alat kawalan versi, kerap memantau prestasi halaman, mengumpul maklum balas pengguna dan merumuskan pelan penyelenggaraan.

Dalam pengaturcaraan GO, bagaimana untuk menguruskan sambungan dan melepaskan sumber antara MySQL dan Redis dengan betul? Apr 02, 2025 pm 05:03 PM

Pengurusan Sumber dalam Pemrograman GO: MySQL dan Redis Connect dan Lepaskan dalam Pembelajaran Cara Mengurus Sumber Sumber dengan betul, terutamanya dengan pangkalan data dan cache ...

Cara menukar XML ke Excel Apr 03, 2025 am 08:54 AM

Terdapat dua cara untuk menukar XML ke Excel: Gunakan ciri-ciri Excel terbina dalam atau alat pihak ketiga. Alat pihak ketiga termasuk XML untuk Excel Converter, XML2Excel, dan Candy XML.

See all articles