Baru-baru ini, trek model penjanaan video sedang berkembang pesat, dengan video Vincent, video Tu, dan sebagainya. Walau bagaimanapun, walaupun terdapat banyak model di pasaran, kebanyakan orang masih tidak dapat mengalaminya kerana mereka tidak mempunyai kelayakan untuk ujian dalaman, jadi mereka hanya boleh melihat "model" dan mengeluh. Tidak lama dahulu, kami melaporkan model Open-Sora Luchen Technology Sebagai model seperti Sora sumber terbuka pertama di dunia, ia bukan sahaja berprestasi baik pada pelbagai jenis video, tetapi juga berkos rendah dan tersedia untuk semua orang. Adakah ia berfungsi? bagaimana nak guna? Mari kita lihat ulasan laman web ini.
Baru-baru ini, Open-Sora versi sumber terbuka 1.2 boleh menjana video definisi tinggi 720p sehingga 16 saat Kesan video rasmi adalah seperti berikut:
Kesan yang dijana itu sungguh menakjubkan bahawa begitu ramai pembaca di latar belakang ingin memulakan pengalaman.
Berbanding dengan banyak perisian sumber tertutup, yang memerlukan giliran panjang untuk menunggu kelayakan ujian dalaman, Open-Sora sumber terbuka sepenuhnya ini jelas lebih mudah diakses. Walau bagaimanapun, Github rasmi Open-Sora penuh dengan teknologi dan kod Jika anda ingin menggunakan pengalaman itu sendiri, apatah lagi keperluan perkakasan model yang tinggi, ia juga merupakan satu cabaran besar untuk kemahiran pengekodan pengguna semasa mengkonfigurasi. persekitaran.
Jadi adakah cara untuk memudahkan pengguna AI yang baru menggunakan Open-Sora?
Pertama kesimpulan: Ya, dan ia boleh digunakan dengan satu klik Selepas permulaan, ia juga boleh mengawal panjang video, bingkai, kanta dan parameter lain dengan kod sifar.
Adakah anda teruja? Kemudian mari kita lihat cara untuk melaksanakan penggunaan Open-Sora. Pada penghujung artikel, terdapat tutorial terperinci peringkat pengasuh dan alamat penggunaan, yang boleh dikendalikan tanpa sebarang latar belakang teknikal.
Penyelesaian visualisasi berdasarkan Gradio
Mengenai butiran teknikal terkini Open-Sora, Kami telah membuat laporan yang mendalam. Dalam laporan itu, kami menumpukan pada seni bina teras model OpenSora dan rangkaian mampatan video (VAE) inovatifnya. Pada akhir artikel itu, kami menyebut bahawa pasukan Luchen Open-Sora menyediakan aplikasi Gradio yang boleh digunakan dengan satu klik. Jadi, apakah sebenarnya rupa aplikasi Gradio ini?
Gradio sendiri ialah pakej Python yang direka untuk penggunaan pantas model pembelajaran mesin. Ia membolehkan pembangun menjana antara muka web secara automatik dengan mentakrifkan input dan output model, dengan itu memudahkan paparan dalam talian dan proses interaksi model.
Kami membaca halaman utama GitHub Open-Sora dengan teliti dan mendapati aplikasi itu menggabungkan model Open-Sora secara organik dengan Gradio, memberikan penyelesaian interaksi yang elegan dan ringkas.
Ia menggunakan antara muka grafik untuk memudahkan operasi. Dalam antara muka, pengguna boleh mengubah suai parameter asas secara bebas seperti tempoh, nisbah aspek dan resolusi video yang dijana. Mereka juga boleh melaraskan amplitud gerakan, skor estetik dan kaedah pergerakan kanta yang lebih maju bagi video yang dihasilkan. Ia juga menyokong panggilan GPT-4 untuk mengoptimumkan segera, jadi ia boleh menyokong kedua-dua input teks Cina dan Inggeris.
Selepas menggunakan aplikasi, pengguna tidak perlu menulis sebarang kod apabila menggunakan model Open-Sora Mereka hanya perlu memasukkan gesaan dan klik untuk menggantikan parameter untuk mencuba kombinasi parameter yang berbeza untuk menghasilkan video. Video yang dihasilkan juga akan dipaparkan terus dalam antara muka Gradio dan boleh dimuat turun terus di halaman web tanpa memerlukan laluan yang rumit.
...
Kami perasan bahawa pasukan Open-Sora mempunyai skrip untuk menyesuaikan model kepada Gradio disediakan dalam Github, dan kod baris arahan untuk penggunaan juga disediakan. Walau bagaimanapun, kita masih perlu melalui konfigurasi persekitaran yang kompleks untuk berjaya menjalankan kod yang digunakan. Jika kita ingin merasai sepenuhnya fungsi Open-Sora, terutamanya untuk menjana video resolusi tinggi jangka panjang (seperti 720P 16 saat), kita memerlukan kad grafik dengan prestasi yang baik dan memori video yang besar (yang rasmi ialah H800) . Penyelesaian Gradio nampaknya tidak menyebut cara menyelesaikan dua masalah ini.
Dua masalah ini mungkin kelihatan sangat sukar pada pandangan pertama, tetapi ia boleh diselesaikan dengan sempurna oleh Luchen Cloud, benar-benar mencapai penggunaan mudah tanpa memerlukan teknologi. Bagaimana untuk bermula? Terdapat tutorial yang sangat mudah di sini di laman web ini.
Tutorial penggunaan satu klik yang sangat mudah
Seberapa mudah untuk menggunakan Open-Sora pada Luchen Cloud?
Pertama sekali, Luchenyun menyediakan pelbagai jenis kad grafik, antaranya kad grafik mewah seperti A800 dan H800 juga boleh disewa dengan mudah. Selepas ujian kami, kad memori video 80GB ini boleh memenuhi keperluan inferens projek Open-Sora dengan satu kad.
Kedua, Luchen Cloud telah melengkapkan imej khusus untuk projek Open-Sora. Imej ini seperti bilik yang dihias halus yang boleh anda pindahkan dengan bagasi anda Seluruh persekitaran operasi boleh dimulakan dengan satu klik, menghapuskan keperluan untuk pautan konfigurasi persekitaran yang kompleks.
Akhir sekali, Luchenyun juga mempunyai harga yang sangat berpatutan dan perkhidmatan yang sangat diperibadikan. Harga kad A800 adalah kurang daripada 10 yuan sejam, dan masa untuk memulakan imej tidak dibilkan Hos awan boleh ditutup pada bila-bila masa untuk menghentikan pengebilan. Dalam erti kata lain, kurang daripada 10 yuan/jam, anda boleh menikmati sepenuhnya pengalaman mengejutkan yang dibawa oleh Open-Sora! Selain itu, kami juga telah menyertakan kaedah untuk mendapatkan kupon 100 yuan pada akhir artikel Cepat dan daftar akaun untuk mendapatkan kupon dan ikuti tutorial kami!
Laman web Luchenyun: https://cloud.luchentech.com/
Pertama, masukkan laman web untuk mendaftar akaun di Luchenyun. Sebaik sahaja anda memasuki halaman utama, anda boleh melihat terus mesin yang tersedia untuk disewa dalam pasaran kuasa pengkomputeran. Dapatkan kupon atau caj semula 10 yuan, dan anda boleh mengikuti panduan pengguna Luchenyun untuk mula membina hos awan.
Langkah pertama ialah memilih cermin. Sebaik sahaja anda membuka imej awam, yang pertama anda klik ialah OpenSora (1.2), yang sangat mudah.
Langkah kedua ialah memilih kaedah pengebilan. Terdapat dua kaedah pengebilan, pengebilan pasang surut dan pengebilan bayar semasa anda pergi. Kami mencubanya dan mendapati bahawa pemeteran pasang surut menjimatkan wang dan A800 adalah lebih murah semasa tempoh terbiar!
Untuk inferens Open-Sora, A800 sudah memadai, kami memilih konfigurasi 1 kad, dan membenarkan sambungan SSH, ketekunan penyimpanan dan data awam yang dipasang (termasuk berat model). Fungsi ini adalah percuma, memberikan lebih banyak kemudahan, dan sangat nurani.
Selepas memilih, klik Buat Masa permulaan hos awan adalah sangat singkat, dan mesin akan beroperasi dalam masa berpuluh-puluh saat. Tempoh masa ini tidak dibilkan, jadi jika anda menemui imej yang agak besar yang mengambil masa yang lama, anda tidak perlu risau tentang kosnya.
Dalam langkah ketiga, kami mengklik JupyerLab dari halaman hos awan untuk memasuki halaman web. Sebaik sahaja kami masuk, sebuah terminal dibuka untuk kami.
Kami memasukkan ls untuk melihat fail hos awan Kami dapat melihat bahawa folder Open-Sora berada di laluan awal.
Memandangkan kami menggunakan imej eksklusif Open-Sora, kami tidak perlu memasang sebarang persekitaran tambahan. Langkah yang paling memakan masa telah diselesaikan dengan sempurna.
Pada masa ini, kita boleh terus memasukkan arahan untuk menjalankan Gradio untuk memulakan Gradio dengan cepat dan benar-benar mencapai penggunaan satu klik.
Bashpython gradio/app.py
Kelajuan sangat pantas, hanya mengambil masa lebih daripada sepuluh saat untuk Gradio mula berlari.
Walau bagaimanapun, kami mendapati bahawa gradio ini berjalan pada http://0.0.0.0:7860 pelayan secara lalai Jika anda ingin menggunakannya dalam penyemak imbas tempatan anda, anda mesti menambah kunci awam ssh anda pada Luchen Cloud dalam mesin terlebih dahulu. . Langkah ini juga sangat mudah. Hanya masukkan fail di bawah dan tampal kunci rahsia mesin tempatan ke dalamnya.
Seterusnya, kami juga perlu menulis arahan pemetaan port penyelesaian setempat Kami boleh mengikut arahan dalam tangkapan skrin ini, anda perlu menggantikannya dengan alamat dan port hos awan anda sendiri.
Kemudian, buka halaman web yang sepadan dan antara muka operasi visual akan muncul tidak lama lagi.
Kami mula-mula secara rawak memasukkan gesaan bahasa Inggeris dan mengklik untuk mula menjana (480p lalai telah digunakan, yang akan menjadi lebih pantas).
a river flowing through a rich landscape of trees and mountains (一条河流流经茂密的树木和山脉)
很快生成就完成了,耗时约 40 秒。生成结果整体还不错,有河有山有树木,和指令符合。但是我们期待的是雄鹰从高处俯瞰的效果。
没关系,调整了指令再来一次:
a bird's eye view of a river flowing through a rich landscape of trees and mountains (鸟瞰河流流经树木和山脉的丰富景观)
这次生成的内容果然带上了鸟瞰效果。不错,这个模型还是很听话的。
如前文所说,gradio 界面上还有很多其他选项,比如调整分辨率、画幅长宽比、视频时长,甚至还能控制视频的动态效果幅度等,可玩性非常强,我们测试时使用的是 480P 分辨率,而最高可支持 720P,大家可以逐个尝试,看看不同选项搭配的效果。
想要进阶?微调也能轻松上手
此外,继续深挖 Open-Sora 的网页,我们发现他们还提供了继续微调模型的代码指令。使用自己喜欢的类型的视频微调模型的话,就能让这个模型生成更符合我的审美要求的视频了!
让我们用潞晨云的公开数据中提供的视频数据来验证一下。
由于环境全都是配置好的,我们只需复制粘贴训练指令。
torchrun --standalone --nproc_per_node 1 scripts/train.py configs/opensora-v1-2/train/stage1.py --data-path /root/commonData/Inter4K/meta/meta_inter4k_ready.csv
这边输出了一连串模型训练的信息。
训练已经正常启动了,居然只要单卡就能训!
( 踩坑提示:在此之前我们遭遇了一次 OOM, 结果发现程序挂了以后显存依旧被占用,然后发现是忘记关闭上一步 Gradio 的推理了 ORZ,所以大家用单卡训的时候一定要记得关掉 Gradio,因为 Gradio 上面加载了模型一直在等待用户输入来进行推理)。
以下是我们训练的时候 GPU 资源占用情况:
简单算一笔账,训练一步大约耗时约 20 秒,根据 Open-Sora 提供的数据,训练 70k 步(如下图所示),那他们耗时大约在 16 天左右,和他们文档中声称的 2 周左右相近(假设他们的所有机器各完成一个 step 的时间和我们这台机器相似)。
在这 70k 步中,第一阶段占 30k 步,第二阶段占 23k 步,那第三阶段其实只训练了 17k 步。而这个第三阶段,就是用高质量视频进行微调,用来大幅度提升模型质量,也就是我们现在想要做的事情。
不过,从报告中看,他们的训练使用了 12 台 8 卡机器,所以如果我们用潞晨云平台训练和第三阶段相同的数据量,大约需要:
95 小时 * 8 卡 * 12 台 * 10 元 / 小时 = 91200 元
Nombor ini masih sedikit ambang untuk penilaian, tetapi ia juga sangat kos efektif untuk mencipta model video Vincent yang eksklusif. Khususnya untuk perusahaan, pada dasarnya tiada kerja persediaan diperlukan Dengan mengikuti tutorial langkah demi langkah, anda boleh menyelesaikan penalaan halus kurang daripada 100,000 yuan atau kurang. Sangat tidak sabar untuk melihat lebih banyak versi Open-Sora yang dipertingkatkan dalam bidang profesional!
Akhir sekali, mari tambah acara faedah kupon 100 yuan yang kami nyatakan sebelum ini ~ Walaupun kos semakan kami kurang daripada 10 yuan, kami masih perlu menjimatkan wang!
Daripada maklumat rasmi Luchen Cloud, kita dapat melihat bahawa pengguna berkongsi pengalaman mereka di media sosial dan forum profesional (seperti Zhihu, Xiaohongshu, Weibo, CSDN, dll.) (dengan #Luchenyun atau @Luchen Technology ), anda boleh mendapatkan baucar 100 yuan (sah untuk satu minggu) dengan berkongsi dengan berkesan sekali, yang bersamaan dengan lima atau enam ratus video yang dijana semasa penilaian kami~
Akhir sekali, kami telah mengumpulkan pautan sumber yang berkaitan. di bawah supaya semua orang boleh bermula dengan cepat. Rakan-rakan yang ingin mencubanya dengan segera, klik untuk membaca teks asal untuk menghantarnya dengan satu klik dan mulakan perjalanan video AI anda! . Open-Sora/tree/main?tab=readme-ov-file#inference
Tutorial Bilibili: https://www.bilibili.com/video/BV1ow4m1e7PX/?vd_source=c6b752764cd35aff0e8d35aff0e8d35aff068d35aff0e8d
Atas ialah kandungan terperinci Datang cepat! Luchen Open-Sora boleh mengumpul bulu, dan anda boleh memulakan penjanaan video dengan mudah untuk 10 yuan.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!