Jangan tunggu OpenAI, tunggu Open-Sora menjadi sumber terbuka sepenuhnya
Tidak lama dahulu, OpenAI Sora dengan cepat menjadi popular dengan kesan penjanaan videonya yang menakjubkan. Ia menonjol di kalangan ramai model video Wensheng dan menjadi tumpuan perhatian global. Berikutan pelancaran proses pembiakan inferens latihan Sora dengan pengurangan kos sebanyak 46% 2 minggu yang lalu, pasukan Colossal-AI sumber terbuka sepenuhnya menggunakan model penjanaan video seni bina seperti Sora pertama di dunia "Open-Sora 1.0", meliputi keseluruhan proses latihan , termasuk pemprosesan data, semua butiran latihan dan berat model, serta berganding bahu dengan peminat AI global untuk mempromosikan era baharu penciptaan video.
Untuk melihat sekilas, mari kita tonton video bandar yang sibuk yang dihasilkan oleh model "Open-Sora 1.0" yang dikeluarkan oleh pasukan Colossal-AI. Snapshot kota yang sibuk yang dihasilkan oleh Open-Sora 1.0 ini hanyalah hujung gunung es dari teknologi pembiakan Sora. semua butiran latihan pembiakan, Pasukan Colossal-AI telah membuat proses prapemprosesan data, paparan demo dan tutorial permulaan terperinci secara percuma dan sumber terbuka pada GitHub Pada masa yang sama, pengarang menghubungi pasukan itu dengan segera dan mengetahui bahawa mereka akan melakukannya teruskan mengemaskini penyelesaian berkaitan Open-Sora dan perkembangan terkini , rakan-rakan yang berminat boleh terus memberi perhatian kepada komuniti sumber terbuka Open-Sora
.Alamat sumber terbuka Open-Sora: https://github.com/hpcaitech/Open-Sora
Tafsiran komprehensif penyelesaian replikasi Sora
Seterusnya, kami akan menyelidiki beberapa aspek Sora penyelesaian replikasi Aspek utama termasuk reka bentuk seni bina model, kaedah latihan, prapemprosesan data, paparan kesan model dan strategi latihan pengoptimuman.
Reka bentuk seni bina model
Model ini menggunakan seni bina Diffusion Transformer (DiT) [1] yang popular pada masa ini. Pasukan pengarang menggunakan model graf Vincent sumber terbuka berkualiti tinggi PixArt-α [2] yang turut menggunakan seni bina DiT sebagai asas, memperkenalkan lapisan perhatian sementara atas dasar ini, dan memanjangkannya kepada data video. Secara khususnya, keseluruhan seni bina termasuk VAE yang telah dilatih, pengekod teks dan model STDiT (Spatial Temporal Diffusion Transformer) yang menggunakan mekanisme perhatian spatial-temporal. Antaranya, struktur setiap lapisan STDiT ditunjukkan dalam rajah di bawah. Ia menggunakan kaedah bersiri untuk menindih modul perhatian temporal satu dimensi pada modul perhatian spatial dua dimensi untuk memodelkan hubungan temporal. Selepas modul perhatian temporal, modul perhatian silang digunakan untuk menyelaraskan semantik teks. Berbanding dengan mekanisme perhatian penuh, struktur sedemikian sangat mengurangkan overhed latihan dan inferens. Berbanding dengan model Latte [3], yang turut menggunakan mekanisme perhatian spatial-temporal, STDiT boleh menggunakan pemberat imej pra-latihan DiT dengan lebih baik untuk meneruskan latihan mengenai data video.
STDiT rajah struktur
Proses latihan dan inferens keseluruhan model adalah seperti berikut. Difahamkan bahawa dalam fasa latihan, pengekod Variational Autoencoder (VAE) yang telah dilatih terlebih dahulu digunakan untuk memampatkan data video, dan kemudian model resapan STDiT dilatih bersama-sama dengan pembenaman teks dalam ruang pendam termampat. Dalam peringkat inferens, hingar Gaussian diambil secara rawak daripada ruang terpendam VAE dan dimasukkan ke dalam STDiT bersama-sama dengan pembenaman segera untuk mendapatkan ciri-ciri yang dihilangkan Akhirnya, ia adalah input kepada penyahkod VAE dan dinyahkod untuk mendapatkan video. Proses Latihan Model Rancangan Replikasi yang dipelajari dari pasukan bahawa skim replikasi Open-Sora merujuk kepada kerja penyebaran video yang stabil (SVD) [3]. peringkat, iaitu:
Latihan pra-latihan imej berskala besar.
Pra-latihan video berskala besar.
Penalaan halus data video berkualiti tinggi.
Setiap peringkat akan meneruskan latihan berdasarkan berat peringkat sebelumnya. Berbanding dengan latihan satu peringkat dari awal, latihan berbilang peringkat mencapai matlamat penjanaan video berkualiti tinggi dengan lebih cekap dengan mengembangkan data secara beransur-ansur.
Tiga peringkat pelan latihan
Peringkat pertama: pra-latihan imej berskala besar
Peringkat pertama menggunakan pralatihan imej berskala besar dan menggunakan model graf Vincentian matang untuk mengurangkan kos pralatihan video secara berkesan.
Pasukan pengarang mendedahkan kepada kami bahawa melalui data imej berskala besar yang kaya di Internet dan teknologi graf Vincent yang canggih, kami boleh melatih model graf Vincent berkualiti tinggi, yang akan berfungsi sebagai pemberat permulaan untuk peringkat seterusnya video pra-latihan . Pada masa yang sama, memandangkan pada masa ini tiada VAE spatiotemporal berkualiti tinggi, mereka menggunakan imej VAE yang dipralatih oleh model Stable Diffusion [5]. Strategi ini bukan sahaja memastikan prestasi unggul model awal, tetapi juga mengurangkan kos keseluruhan pra-latihan video dengan ketara.
Peringkat kedua: pra-latihan video berskala besar
Peringkat kedua melaksanakan pralatihan video berskala besar untuk meningkatkan keupayaan generalisasi model dan memahami korelasi siri masa video dengan berkesan.
Kami faham bahawa peringkat ini memerlukan penggunaan sejumlah besar data video untuk latihan bagi memastikan kepelbagaian tema video, dengan itu meningkatkan keupayaan generalisasi model. Model peringkat kedua menambah modul perhatian temporal pada model graf Vincentian peringkat pertama untuk mempelajari hubungan temporal dalam video. Modul yang selebihnya kekal konsisten dengan peringkat pertama dan memuatkan pemberat peringkat pertama sebagai permulaan Pada masa yang sama, output modul perhatian temporal dimulakan kepada sifar untuk mencapai penumpuan yang lebih cekap dan lebih cepat. Pasukan Colossal-AI menggunakan pemberat sumber terbuka daripada PixArt-alpha [2] sebagai permulaan untuk model STDiT peringkat kedua, dan model T5 [6] sebagai pengekod teks. Pada masa yang sama, mereka menggunakan resolusi kecil 256x256 untuk pra-latihan, yang meningkatkan lagi kelajuan penumpuan dan mengurangkan kos latihan.
Peringkat ketiga: memperhalusi data video berkualiti tinggi
Peringkat ketiga memperhalusi data video berkualiti tinggi untuk meningkatkan kualiti penjanaan video dengan ketara.
Pasukan pengarang menyebut bahawa saiz data video yang digunakan pada peringkat ketiga adalah satu urutan magnitud kurang daripada itu pada peringkat kedua, tetapi tempoh, resolusi dan kualiti video lebih tinggi. Dengan penalaan halus dengan cara ini, mereka mencapai penskalaan penjanaan video yang cekap daripada pendek ke panjang, daripada peleraian rendah ke tinggi dan dari kesetiaan rendah ke tinggi.
Pasukan pengarang menyatakan bahawa dalam proses pembiakan Open-Sora, mereka menggunakan 64 blok H800 untuk latihan. Jumlah volum latihan peringkat kedua ialah 2808 jam GPU, iaitu kira-kira $7000, dan volum latihan peringkat ketiga ialah 1920 jam GPU, iaitu kira-kira $4500. Selepas anggaran awal, keseluruhan program latihan berjaya mengawal proses pembiakan Open-Sora kepada kira-kira AS$10,000. . -latihan termasuk memuat turun set data video awam, membahagikan video panjang kepada klip video pendek berdasarkan kesinambungan tangkapan, dan menggunakan model bahasa besar sumber terbuka LLaVA [7] untuk menjana perkataan segera yang tepat. Pasukan pengarang menyebut bahawa kod penjanaan tajuk video kelompok yang mereka berikan boleh menganotasi video dengan dua kad dan 3 saat, dan kualitinya hampir dengan GPT-4V. Pasangan video/teks yang terhasil boleh digunakan terus untuk latihan. Dengan kod sumber terbuka yang mereka sediakan di GitHub, kami boleh dengan mudah dan cepat menjana pasangan video/teks yang diperlukan untuk latihan pada set data kami sendiri, dengan ketara mengurangkan ambang teknikal dan persediaan awal untuk memulakan projek replikasi Sora.
Gandingan video/teks dijana secara automatik berdasarkan skrip prapemprosesan data
Paparan kesan penjanaan model
Mari kita lihat kesan penjanaan video Open-Sora sebenar. Sebagai contoh, biarkan Open-Sora menjana rakaman udara air laut yang menghantam batu di pantai tebing.
Biarkan Open-Sora menangkap pemandangan gunung dan air terjun yang megah turun dari tebing dan akhirnya mengalir ke dalam tasik.
Selain pergi ke langit, anda juga boleh memasuki laut dengan mudah dan biarkan Open-Sora menjana gambar dunia bawah air terumbu karang.
Open-Sora juga boleh menunjukkan kepada kita Bima Sakti dengan bintang berkelipan melalui fotografi selang masa.
Jika anda mempunyai idea yang lebih menarik untuk penjanaan video, anda boleh melawati komuniti sumber terbuka Open-Sora untuk mendapatkan berat model untuk pengalaman percuma. Pautan: https://github.com/hpcaitech/Open-Sora
Perlu diperhatikan bahawa pasukan pengarang menyebut di Github bahawa versi semasa hanya menggunakan 400K data latihan, kualiti penjanaan model dan keupayaan untuk mengikuti teks Semua perlu diperbaiki. Sebagai contoh, dalam video penyu di atas, penyu yang terhasil mempunyai kaki tambahan. Open-Sora 1.0 juga tidak pandai menghasilkan potret dan imej yang kompleks. Pasukan pengarang menyenaraikan satu siri rancangan yang perlu dilakukan pada Github, bertujuan untuk terus menyelesaikan kecacatan sedia ada dan meningkatkan kualiti pengeluaran.
Sokongan latihan yang cekap
Selain mengurangkan dengan ketara ambang teknikal untuk pembiakan Sora dan meningkatkan kualiti penjanaan video dalam pelbagai dimensi seperti tempoh, resolusi dan kandungan, pasukan pengarang juga menyediakan pecutan Colossal-AI sistem untuk pembiakan Sora Sokongan latihan yang cekap sekarang. Melalui strategi latihan yang cekap seperti pengoptimuman operator dan paralelisme hibrid, kesan pecutan sebanyak 1.55 kali dicapai dalam latihan pemprosesan video 64-bingkai, 512x512. Pada masa yang sama, terima kasih kepada sistem pengurusan memori heterogen Colossal-AI, tugas latihan video definisi tinggi 1080p 1 minit boleh dilakukan tanpa halangan pada pelayan tunggal (8*H800).
Selain itu, dalam laporan pasukan pengarang, kami juga mendapati bahawa seni bina model STDiT juga menunjukkan kecekapan yang sangat baik semasa latihan. Berbanding dengan DiT, yang menggunakan mekanisme perhatian penuh, STDiT mencapai pecutan sehingga 5 kali ganda apabila bilangan bingkai bertambah, yang amat kritikal dalam tugas dunia sebenar seperti memproses jujukan video yang panjang.
Alu-alukan untuk terus memberi perhatian kepada projek sumber terbuka Open-Sora: https://github.com/hpcaitech/Open-Sora
Pasukan penulis menyatakan bahawa mereka akan terus mengekalkan dan mengoptimumkan projek Open-Sora dan dijangka akan Menggunakan lebih banyak data latihan video untuk menjana kualiti yang lebih tinggi, kandungan video yang lebih panjang, dan menyokong ciri berbilang resolusi untuk mempromosikan pelaksanaan teknologi AI secara berkesan dalam filem, permainan, pengiklanan dan bidang lain.
Pautan rujukan:
[1] https://arxiv.org/abs/2212.09748 Model Resapan Boleh Skala dengan Transformer.
[2] https://arxiv.org/abs/2310.00426 PixArt-α: Latihan Pantas Transformer Resapan untuk Sintesis Teks-ke-Imej Fotorealistik.
[3] https://arxiv.org/abs/2311.15127 Resapan Video Stabil: Menskalakan Model Resapan Video Terpendam kepada Set Data Besar.
[4] https://arxiv.org/abs/2401.03048 Latte: Pengubah Resapan Terpendam untuk Penjanaan Video.
[5] https://huggingface.co/stabilityai/sd-vae-ft-mse-original.
[6] https://github.com/google-research/text-to-text-transfer-transformer.
[7] https://github.com/haotian-liu/LLaVA.
[8] https://hpc-ai.com/blog/open-sora-v1.0.
Atas ialah kandungan terperinci Jangan tunggu OpenAI, tunggu Open-Sora menjadi sumber terbuka sepenuhnya. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Laman web ini melaporkan pada 27 Jun bahawa Jianying ialah perisian penyuntingan video yang dibangunkan oleh FaceMeng Technology, anak syarikat ByteDance Ia bergantung pada platform Douyin dan pada asasnya menghasilkan kandungan video pendek untuk pengguna platform tersebut Windows , MacOS dan sistem pengendalian lain. Jianying secara rasmi mengumumkan peningkatan sistem keahliannya dan melancarkan SVIP baharu, yang merangkumi pelbagai teknologi hitam AI, seperti terjemahan pintar, penonjolan pintar, pembungkusan pintar, sintesis manusia digital, dsb. Dari segi harga, yuran bulanan untuk keratan SVIP ialah 79 yuan, yuran tahunan ialah 599 yuan (nota di laman web ini: bersamaan dengan 49.9 yuan sebulan), langganan bulanan berterusan ialah 59 yuan sebulan, dan langganan tahunan berterusan ialah 499 yuan setahun (bersamaan dengan 41.6 yuan sebulan) . Di samping itu, pegawai yang dipotong juga menyatakan bahawa untuk meningkatkan pengalaman pengguna, mereka yang telah melanggan VIP asal

Tingkatkan produktiviti, kecekapan dan ketepatan pembangun dengan menggabungkan penjanaan dipertingkatkan semula dan memori semantik ke dalam pembantu pengekodan AI. Diterjemah daripada EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG, pengarang JanakiramMSV. Walaupun pembantu pengaturcaraan AI asas secara semulajadi membantu, mereka sering gagal memberikan cadangan kod yang paling relevan dan betul kerana mereka bergantung pada pemahaman umum bahasa perisian dan corak penulisan perisian yang paling biasa. Kod yang dijana oleh pembantu pengekodan ini sesuai untuk menyelesaikan masalah yang mereka bertanggungjawab untuk menyelesaikannya, tetapi selalunya tidak mematuhi piawaian pengekodan, konvensyen dan gaya pasukan individu. Ini selalunya menghasilkan cadangan yang perlu diubah suai atau diperhalusi agar kod itu diterima ke dalam aplikasi

Model Bahasa Besar (LLM) dilatih pada pangkalan data teks yang besar, di mana mereka memperoleh sejumlah besar pengetahuan dunia sebenar. Pengetahuan ini dibenamkan ke dalam parameter mereka dan kemudiannya boleh digunakan apabila diperlukan. Pengetahuan tentang model ini "diperbaharui" pada akhir latihan. Pada akhir pra-latihan, model sebenarnya berhenti belajar. Selaraskan atau perhalusi model untuk mempelajari cara memanfaatkan pengetahuan ini dan bertindak balas dengan lebih semula jadi kepada soalan pengguna. Tetapi kadangkala pengetahuan model tidak mencukupi, dan walaupun model boleh mengakses kandungan luaran melalui RAG, ia dianggap berfaedah untuk menyesuaikan model kepada domain baharu melalui penalaan halus. Penalaan halus ini dilakukan menggunakan input daripada anotasi manusia atau ciptaan LLM lain, di mana model menemui pengetahuan dunia sebenar tambahan dan menyepadukannya

Jika jawapan yang diberikan oleh model AI tidak dapat difahami sama sekali, adakah anda berani menggunakannya? Memandangkan sistem pembelajaran mesin digunakan dalam bidang yang lebih penting, menjadi semakin penting untuk menunjukkan sebab kita boleh mempercayai output mereka, dan bila tidak mempercayainya. Satu cara yang mungkin untuk mendapatkan kepercayaan dalam output sistem yang kompleks adalah dengan menghendaki sistem menghasilkan tafsiran outputnya yang boleh dibaca oleh manusia atau sistem lain yang dipercayai, iaitu, difahami sepenuhnya sehingga apa-apa ralat yang mungkin boleh dilakukan. dijumpai. Contohnya, untuk membina kepercayaan dalam sistem kehakiman, kami memerlukan mahkamah memberikan pendapat bertulis yang jelas dan boleh dibaca yang menjelaskan dan menyokong keputusan mereka. Untuk model bahasa yang besar, kita juga boleh menggunakan pendekatan yang sama. Walau bagaimanapun, apabila mengambil pendekatan ini, pastikan model bahasa menjana

Editor |ScienceAI Question Answering (QA) set data memainkan peranan penting dalam mempromosikan penyelidikan pemprosesan bahasa semula jadi (NLP). Set data QA berkualiti tinggi bukan sahaja boleh digunakan untuk memperhalusi model, tetapi juga menilai dengan berkesan keupayaan model bahasa besar (LLM), terutamanya keupayaan untuk memahami dan menaakul tentang pengetahuan saintifik. Walaupun pada masa ini terdapat banyak set data QA saintifik yang meliputi bidang perubatan, kimia, biologi dan bidang lain, set data ini masih mempunyai beberapa kekurangan. Pertama, borang data adalah agak mudah, kebanyakannya adalah soalan aneka pilihan. Ia mudah dinilai, tetapi mengehadkan julat pemilihan jawapan model dan tidak dapat menguji sepenuhnya keupayaan model untuk menjawab soalan saintifik. Sebaliknya, Soal Jawab terbuka

Editor |. KX Dalam bidang penyelidikan dan pembangunan ubat, meramalkan pertalian pengikatan protein dan ligan dengan tepat dan berkesan adalah penting untuk pemeriksaan dan pengoptimuman ubat. Walau bagaimanapun, kajian semasa tidak mengambil kira peranan penting maklumat permukaan molekul dalam interaksi protein-ligan. Berdasarkan ini, penyelidik dari Universiti Xiamen mencadangkan rangka kerja pengekstrakan ciri berbilang mod (MFE) novel, yang buat pertama kalinya menggabungkan maklumat mengenai permukaan protein, struktur dan jujukan 3D, dan menggunakan mekanisme perhatian silang untuk membandingkan ciri modaliti yang berbeza penjajaran. Keputusan eksperimen menunjukkan bahawa kaedah ini mencapai prestasi terkini dalam meramalkan pertalian mengikat protein-ligan. Tambahan pula, kajian ablasi menunjukkan keberkesanan dan keperluan maklumat permukaan protein dan penjajaran ciri multimodal dalam rangka kerja ini. Penyelidikan berkaitan bermula dengan "S

Menurut berita dari laman web ini pada 5 Julai, GlobalFoundries mengeluarkan kenyataan akhbar pada 1 Julai tahun ini, mengumumkan pemerolehan teknologi power gallium nitride (GaN) Tagore Technology dan portfolio harta intelek, dengan harapan dapat mengembangkan bahagian pasarannya dalam kereta dan Internet of Things dan kawasan aplikasi pusat data kecerdasan buatan untuk meneroka kecekapan yang lebih tinggi dan prestasi yang lebih baik. Memandangkan teknologi seperti AI generatif terus berkembang dalam dunia digital, galium nitrida (GaN) telah menjadi penyelesaian utama untuk pengurusan kuasa yang mampan dan cekap, terutamanya dalam pusat data. Laman web ini memetik pengumuman rasmi bahawa semasa pengambilalihan ini, pasukan kejuruteraan Tagore Technology akan menyertai GLOBALFOUNDRIES untuk membangunkan lagi teknologi gallium nitride. G

Menurut berita dari laman web ini pada 1 Ogos, SK Hynix mengeluarkan catatan blog hari ini (1 Ogos), mengumumkan bahawa ia akan menghadiri Global Semiconductor Memory Summit FMS2024 yang akan diadakan di Santa Clara, California, Amerika Syarikat dari 6 hingga 8 Ogos, mempamerkan banyak produk penjanaan teknologi baru. Pengenalan kepada Sidang Kemuncak Memori dan Penyimpanan Masa Depan (FutureMemoryandStorage), dahulunya Sidang Kemuncak Memori Flash (FlashMemorySummit) terutamanya untuk pembekal NAND, dalam konteks peningkatan perhatian kepada teknologi kecerdasan buatan, tahun ini dinamakan semula sebagai Sidang Kemuncak Memori dan Penyimpanan Masa Depan (FutureMemoryandStorage) kepada jemput vendor DRAM dan storan serta ramai lagi pemain. Produk baharu SK hynix dilancarkan tahun lepas
