Versi sumber terbuka Sora mendapat sambutan: 4K Star tersedia, 4090 dijalankan pada satu kad, dan A6000 boleh diperhalusi-AI-php.cn

Rumah

Versi sumber terbuka Sora mendapat sambutan: 4K Star tersedia, 4090 dijalankan pada satu kad, dan A6000 boleh diperhalusi

Aug 07, 2024 pm 06:05 PM

industri Spektrum kebijaksanaan ai

Zhipu AI telah sumber terbuka model besar yang dibangunkan secara dalaman.

Bidang penjanaan video domestik semakin popular. Baru-baru ini, Zhipu AI mengumumkan bahawa ia akan membuka sumber CogVideoX, model penjanaan video dengan asal yang sama seperti "Qingying". Peroleh 4k bintang dalam masa beberapa jam sahaja.

智谱版Sora开源爆火：狂揽4K Star，4090单卡运行，A6000可微调

Repositori kod: https://github.com/THUDM/CogVideo
Muat turun model: https://huggingface.co/THUDM/CogVideoTech-2b
: https

Pada 26 Julai, Zhipu AI secara rasmi mengeluarkan produk penjanaan video

"Qingying"

, yang telah dipuji secara meluas oleh semua orang. Selagi anda mempunyai idea yang baik (beberapa perkataan hingga beberapa ratus perkataan) dan sedikit kesabaran (30 saat), "Qingying" boleh menjana video berketepatan tinggi dengan resolusi 1440x960.

Adalah diumumkan secara rasmi bahawa mulai sekarang, Qingying akan melancarkan Apl Qingyan, dan semua pengguna boleh mengalaminya secara menyeluruh. Rakan-rakan yang ingin mencuba boleh pergi ke "Zhipu Qingyan" untuk merasai kebolehan "Qingying" menjana video.

Kemunculan "Qingying" dipuji sebagai Sora pertama yang tersedia untuk semua orang di China. Enam hari selepas dikeluarkan, bilangan video yang dijana oleh "Qingying" melebihi satu juta.

Model sumber terbuka Zhipu AI begitu popular? Anda mesti tahu bahawa walaupun teknologi penjanaan video semakin matang, masih tiada model penjanaan video sumber terbuka yang boleh memenuhi keperluan aplikasi peringkat komersial. Sora yang biasa, Gen-3, dsb. semuanya adalah sumber tertutup. Sumber terbuka CogVideoX adalah seperti sumber terbuka OpenAI model di belakang Sora, yang sangat penting kepada majoriti penyelidik.

Model sumber terbuka CogVideoX termasuk berbilang model dengan saiz yang berbeza Pada masa ini, sumber terbuka Zhipu AI CogVideoX-2B memerlukan hanya 18GB memori video untuk inferens pada ketepatan FP-16 dan hanya 40GB memori video untuk penalaan halus bahawa satu kad grafik A 4090 boleh melakukan inferens, manakala satu kad grafik A6000 boleh melengkapkan penalaan halus.

Had perkataan segera CogVideoX-2B ialah 226 token, panjang video ialah 6 saat, kadar bingkai ialah 8 bingkai/saat, dan resolusi video ialah 720*480. Zhipu AI telah menyediakan ruang yang luas untuk penambahbaikan kualiti video, dan kami mengharapkan sumbangan sumber terbuka pembangun untuk menggesa pengoptimuman perkataan, panjang video, kadar bingkai, resolusi, penalaan halus adegan dan pembangunan pelbagai fungsi di sekeliling video .

Model dengan prestasi yang lebih kukuh dan parameter yang lebih besar sedang dalam perjalanan, jadi nantikan dan nantikannya.

智谱版Sora开源爆火：狂揽4K Star，4090单卡运行，A6000可微调

Model

VAE

智谱版Sora开源爆火：狂揽4K Star，4090单卡运行，A6000可微调

🎜🎜🎜Data video mengandungi maklumat spatial dan temporal, jadi beban data imejnya jauh dan melebihi jumlah data imejnya. Untuk menangani cabaran ini, Zhipu mencadangkan kaedah pemampatan video berdasarkan pengekod auto variasi 3D (3D VAE). VAE 3D secara serentak memampatkan dimensi spatial dan temporal video melalui konvolusi tiga dimensi, mencapai kadar mampatan yang lebih tinggi dan kualiti pembinaan semula yang lebih baik. 🎜🎜🎜🎜

Struktur model termasuk pengekod, penyahkod dan penyelaras ruang terpendam, dan pemampatan dicapai melalui empat peringkat pensampelan turun dan peningkatan. Konvolusi sebab-akibat temporal memastikan kausaliti maklumat dan mengurangkan overhed komunikasi. Zhipu menggunakan teknologi paralelisme kontekstual untuk menyesuaikan diri dengan pemprosesan video berskala besar.

Dalam percubaan, Zhipu AI mendapati pengekodan resolusi besar mudah digeneralisasikan, tetapi meningkatkan bilangan bingkai adalah lebih mencabar. Oleh itu, Zhipu melatih model dalam dua peringkat: latihan pertama pada kadar bingkai yang lebih rendah dan kelompok mini, dan kemudian penalaan halus pada kadar bingkai yang lebih tinggi melalui keselarian kontekstual. Fungsi kehilangan latihan menggabungkan kehilangan L2, kehilangan persepsi LPIPS dan kehilangan GAN untuk diskriminator 3D. . Pada masa yang sama, Zhipu AI menggunakan T5 untuk mengekod input teks ke dalam teks pembenaman teks, dan kemudian menyambung z_text dan z_vision di sepanjang dimensi jujukan. Benam yang disambung dimasukkan ke dalam timbunan blok Transformer pakar untuk diproses. Akhir sekali, benam dijahit belakang untuk memulihkan bentuk ruang terpendam asal dan dinyahkod menggunakan VAE untuk membina semula video.

Data

Latihan model penjanaan video memerlukan penyaringan data video berkualiti tinggi untuk mempelajari dinamik dunia sebenar. Video mungkin tidak tepat disebabkan oleh isu penyuntingan manusia atau penggambaran. Kebijaksanaan AI membangunkan teg negatif untuk mengenal pasti dan mengecualikan video berkualiti rendah seperti video yang disunting berlebihan, gerakan berombak, berkualiti rendah, gaya kuliah, didominasi teks dan bunyi skrin. Melalui penapis yang dilatih oleh llama video, Zhipu AI membuat anotasi dan menapis 20,000 titik data video. Pada masa yang sama, aliran optik dan markah estetik dikira, dan ambang dilaraskan secara dinamik untuk memastikan kualiti video yang dihasilkan.

智谱版Sora开源爆火：狂揽4K Star，4090单卡运行，A6000可微调

Data video biasanya tidak mempunyai penerangan teks dan perlu ditukar kepada penerangan teks untuk latihan model teks-ke-video. Set data sari kata video sedia ada mempunyai sari kata pendek dan tidak dapat menerangkan kandungan video sepenuhnya. Zhipu AI mencadangkan saluran paip untuk menjana sari kata video daripada sari kata imej dan memperhalusi model sari kata video hujung ke hujung untuk mendapatkan sari kata yang lebih padat. Pendekatan ini menjana kapsyen pendek menggunakan model Panda70M, kapsyen imej padat menggunakan model CogView3, dan kemudian meringkaskan menggunakan model GPT-4 untuk menjana video pendek terakhir. Zhipu AI juga memperhalusi model CogVLM2-Caption berdasarkan CogVLM2-Video dan Llama 3, dilatih menggunakan data sari kata padat untuk mempercepatkan proses penjanaan sari kata video.

Performance

In order to evaluate the quality of text-to-video generation, Zhipu AI uses multiple indicators in VBench, such as human actions, scenes, dynamics, etc. Zhipu AI also uses two additional video evaluation tools: Dynamic Quality in Devil and GPT4o-MT Score in Chrono-Magic, which focus on the dynamic characteristics of videos. As shown in the table below.

Zhipu AI has verified the effectiveness of scaling law in video generation. In the future, it will continue to scale up the data scale and model scale while exploring new model architectures with more breakthrough innovation and more efficient compression. Video information, a fuller blend of text and video content.

Finally, let’s take a look at the effect of “Clear Shadow”.

Tips: "A delicate wooden toy boat with beautifully carved masts and sails glides smoothly across a plush blue carpet that mimics ocean waves. The hull is painted a rich brown and has small windows. The carpet is soft and textured, providing the perfect backdrop to resemble the vast ocean. There are also various toys and children's items surrounding the boat, suggesting a playful environment. This scene captures the innocence and imagination of childhood with its toy boats. The journey symbolizes endless adventure in a whimsical interior environment. "

Tips: "The camera follows an old white SUV with a black roof rack as it speeds up a steep hill and along a dirt road surrounded by pine trees. , the tires kicked up dust, and the sun shone on the SUV speeding along the dirt road, casting a warm light on the scene. The dirt road slowly curved into the distance, and there were no other cars or vehicles in sight. The trees on both sides of the road were redwoods. There are patches of greenery. Viewed from the back, the car follows the curves with ease, giving the impression that it is driving over rugged terrain, surrounded by steep hills and mountains, with clear blue skies above. Thin clouds. "

Tips: "A snowy forest landscape with a dirt road running through it. The road is lined with snow-covered trees and the ground is also covered with snow. The sun is shining brightly, creating a bright and peaceful atmosphere. . The road is empty and no people or animals are visible in the video. The style of the video is a natural landscape shot, focusing on the beauty of the snowy forest and the tranquility of the road. "

Tips: "Chicken and green pepper kebabs. Close-up of grill on grill with light burn and light smoke."

Atas ialah kandungan terperinci Versi sumber terbuka Sora mendapat sambutan: 4K Star tersedia, 4090 dijalankan pada satu kad, dan A6000 boleh diperhalusi. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel Panas

Berapa lama masa yang diperlukan untuk mengalahkan fiksyen berpecah?

3 minggu yang lalu By DDD

Repo: Cara menghidupkan semula rakan sepasukan

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Hello Kitty Island Adventure: Cara mendapatkan biji gergasi

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

1 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Kesukaran mengemas kini caching laman web akaun rasmi: Bagaimana untuk mengelakkan cache lama yang mempengaruhi pengalaman pengguna selepas kemas kini versi?

3 minggu yang lalu By 王林

Tunjukkan Lagi

Alat panas Tag

Kod&IT

Suara

Perniagaan

Pemasaran

Pengesan AI

Chatbot

Reka bentuk&Seni

Artikel Panas

Berapa lama masa yang diperlukan untuk mengalahkan fiksyen berpecah?

3 minggu yang lalu By DDD

Repo: Cara menghidupkan semula rakan sepasukan

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Hello Kitty Island Adventure: Cara mendapatkan biji gergasi

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

1 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Kesukaran mengemas kini caching laman web akaun rasmi: Bagaimana untuk mengelakkan cache lama yang mempengaruhi pengalaman pengguna selepas kemas kini versi?

3 minggu yang lalu By 王林

Tunjukkan Lagi

Tag artikel panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7135

Tutorial Java

1534

Tutorial Laravel

1257

Tutorial PHP

1205

Tutorial CakePHP

1155

Tunjukkan Lagi

Related knowledge

Robot DeepMind bermain pingpong, dan pukulan depan dan pukulan kilasnya tergelincir ke udara, mengalahkan manusia pemula sepenuhnya Aug 09, 2024 pm 04:01 PM

Robot DeepMind bermain pingpong, dan pukulan depan dan pukulan kilasnya tergelincir ke udara, mengalahkan manusia pemula sepenuhnya

Claude pun dah jadi malas! Netizen: Belajar untuk memberi percutian kepada diri sendiri Sep 02, 2024 pm 01:56 PM

Claude pun dah jadi malas! Netizen: Belajar untuk memberi percutian kepada diri sendiri

Cakar mekanikal pertama! Yuanluobao muncul di Persidangan Robot Dunia 2024 dan mengeluarkan robot catur pertama yang boleh memasuki rumah Aug 21, 2024 pm 07:33 PM

Cakar mekanikal pertama! Yuanluobao muncul di Persidangan Robot Dunia 2024 dan mengeluarkan robot catur pertama yang boleh memasuki rumah

Pada Persidangan Robot Sedunia, robot domestik yang membawa 'harapan penjagaan warga tua masa depan' ini telah dikepung Aug 22, 2024 pm 10:35 PM

Pada Persidangan Robot Sedunia, robot domestik yang membawa 'harapan penjagaan warga tua masa depan' ini telah dikepung

Pasukan Li Feifei mencadangkan ReKep untuk memberi robot kecerdasan spatial dan mengintegrasikan GPT-4o Sep 03, 2024 pm 05:18 PM

Pasukan Li Feifei mencadangkan ReKep untuk memberi robot kecerdasan spatial dan mengintegrasikan GPT-4o

Hongmeng Smart Travel S9 dan persidangan pelancaran produk baharu senario penuh, beberapa produk baharu blockbuster dikeluarkan bersama-sama Aug 08, 2024 am 07:02 AM

Hongmeng Smart Travel S9 dan persidangan pelancaran produk baharu senario penuh, beberapa produk baharu blockbuster dikeluarkan bersama-sama

Anugerah ACL 2024 Diumumkan: Salah satu Kertas Terbaik mengenai Pentafsiran Oracle oleh HuaTech, Anugerah Ujian Masa GloVe Aug 15, 2024 pm 04:37 PM

Anugerah ACL 2024 Diumumkan: Salah satu Kertas Terbaik mengenai Pentafsiran Oracle oleh HuaTech, Anugerah Ujian Masa GloVe

Model UI besar pertama di China dikeluarkan! Model besar Motiff mencipta pembantu terbaik untuk pereka bentuk dan mengoptimumkan aliran kerja reka bentuk UI Aug 19, 2024 pm 04:48 PM

Model UI besar pertama di China dikeluarkan! Model besar Motiff mencipta pembantu terbaik untuk pereka bentuk dan mengoptimumkan aliran kerja reka bentuk UI

See all articles