Rumah > Peranti teknologi > AI > teks badan

Versi sumber terbuka Sora mendapat sambutan: 4K Star tersedia, 4090 dijalankan pada satu kad, dan A6000 boleh diperhalusi

PHPz
Lepaskan: 2024-08-07 18:05:32
asal
246 orang telah melayarinya

Zhipu AI telah sumber terbuka model besar yang dibangunkan secara dalaman.


Bidang penjanaan video domestik semakin popular. Baru-baru ini, Zhipu AI mengumumkan bahawa ia akan membuka sumber CogVideoX, model penjanaan video dengan asal yang sama seperti "Qingying". Peroleh 4k bintang dalam masa beberapa jam sahaja.

智谱版Sora开源爆火:狂揽4K Star,4090单卡运行,A6000可微调

  • Repositori kod: https://github.com/THUDM/CogVideo
  • Muat turun model: https://huggingface.co/THUDM/CogVideoTech-2b
  • : https
  • //github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf

Pada 26 Julai, Zhipu AI secara rasmi mengeluarkan produk penjanaan video
"Qingying"
, yang telah dipuji secara meluas oleh semua orang. Selagi anda mempunyai idea yang baik (beberapa perkataan hingga beberapa ratus perkataan) dan sedikit kesabaran (30 saat), "Qingying" boleh menjana video berketepatan tinggi dengan resolusi 1440x960.
Adalah diumumkan secara rasmi bahawa mulai sekarang, Qingying akan melancarkan Apl Qingyan, dan semua pengguna boleh mengalaminya secara menyeluruh. Rakan-rakan yang ingin mencuba boleh pergi ke "Zhipu Qingyan" untuk merasai kebolehan "Qingying" menjana video.
Kemunculan "Qingying" dipuji sebagai Sora pertama yang tersedia untuk semua orang di China. Enam hari selepas dikeluarkan, bilangan video yang dijana oleh "Qingying" melebihi satu juta.
  • Pautan akses PC: https://chatglm.cn/
  • Pautan akses mudah alih: https://chatglm.cn/download?fr=web_home

Model sumber terbuka Zhipu AI begitu popular? Anda mesti tahu bahawa walaupun teknologi penjanaan video semakin matang, masih tiada model penjanaan video sumber terbuka yang boleh memenuhi keperluan aplikasi peringkat komersial. Sora yang biasa, Gen-3, dsb. semuanya adalah sumber tertutup. Sumber terbuka CogVideoX adalah seperti sumber terbuka OpenAI model di belakang Sora, yang sangat penting kepada majoriti penyelidik.
Model sumber terbuka CogVideoX termasuk berbilang model dengan saiz yang berbeza Pada masa ini, sumber terbuka Zhipu AI CogVideoX-2B memerlukan hanya 18GB memori video untuk inferens pada ketepatan FP-16 dan hanya 40GB memori video untuk penalaan halus bahawa satu kad grafik A 4090 boleh melakukan inferens, manakala satu kad grafik A6000 boleh melengkapkan penalaan halus.

Had perkataan segera CogVideoX-2B ialah 226 token, panjang video ialah 6 saat, kadar bingkai ialah 8 bingkai/saat, dan resolusi video ialah 720*480. Zhipu AI telah menyediakan ruang yang luas untuk penambahbaikan kualiti video, dan kami mengharapkan sumbangan sumber terbuka pembangun untuk menggesa pengoptimuman perkataan, panjang video, kadar bingkai, resolusi, penalaan halus adegan dan pembangunan pelbagai fungsi di sekeliling video .
Model dengan prestasi yang lebih kukuh dan parameter yang lebih besar sedang dalam perjalanan, jadi nantikan dan nantikannya.

智谱版Sora开源爆火:狂揽4K Star,4090单卡运行,A6000可微调

Model

VAE

智谱版Sora开源爆火:狂揽4K Star,4090单卡运行,A6000可微调

🎜🎜🎜Data video mengandungi maklumat spatial dan temporal, jadi beban data imejnya jauh dan melebihi jumlah data imejnya. Untuk menangani cabaran ini, Zhipu mencadangkan kaedah pemampatan video berdasarkan pengekod auto variasi 3D (3D VAE). VAE 3D secara serentak memampatkan dimensi spatial dan temporal video melalui konvolusi tiga dimensi, mencapai kadar mampatan yang lebih tinggi dan kualiti pembinaan semula yang lebih baik. 🎜🎜🎜🎜
Struktur model termasuk pengekod, penyahkod dan penyelaras ruang terpendam, dan pemampatan dicapai melalui empat peringkat pensampelan turun dan peningkatan. Konvolusi sebab-akibat temporal memastikan kausaliti maklumat dan mengurangkan overhed komunikasi. Zhipu menggunakan teknologi paralelisme kontekstual untuk menyesuaikan diri dengan pemprosesan video berskala besar.

Dalam percubaan, Zhipu AI mendapati pengekodan resolusi besar mudah digeneralisasikan, tetapi meningkatkan bilangan bingkai adalah lebih mencabar. Oleh itu, Zhipu melatih model dalam dua peringkat: latihan pertama pada kadar bingkai yang lebih rendah dan kelompok mini, dan kemudian penalaan halus pada kadar bingkai yang lebih tinggi melalui keselarian kontekstual. Fungsi kehilangan latihan menggabungkan kehilangan L2, kehilangan persepsi LPIPS dan kehilangan GAN untuk diskriminator 3D. . Pada masa yang sama, Zhipu AI menggunakan T5 untuk mengekod input teks ke dalam teks pembenaman teks, dan kemudian menyambung z_text dan z_vision di sepanjang dimensi jujukan. Benam yang disambung dimasukkan ke dalam timbunan blok Transformer pakar untuk diproses. Akhir sekali, benam dijahit belakang untuk memulihkan bentuk ruang terpendam asal dan dinyahkod menggunakan VAE untuk membina semula video.
Data

Latihan model penjanaan video memerlukan penyaringan data video berkualiti tinggi untuk mempelajari dinamik dunia sebenar. Video mungkin tidak tepat disebabkan oleh isu penyuntingan manusia atau penggambaran. Kebijaksanaan AI membangunkan teg negatif untuk mengenal pasti dan mengecualikan video berkualiti rendah seperti video yang disunting berlebihan, gerakan berombak, berkualiti rendah, gaya kuliah, didominasi teks dan bunyi skrin. Melalui penapis yang dilatih oleh llama video, Zhipu AI membuat anotasi dan menapis 20,000 titik data video. Pada masa yang sama, aliran optik dan markah estetik dikira, dan ambang dilaraskan secara dinamik untuk memastikan kualiti video yang dihasilkan.

智谱版Sora开源爆火:狂揽4K Star,4090单卡运行,A6000可微调

Data video biasanya tidak mempunyai penerangan teks dan perlu ditukar kepada penerangan teks untuk latihan model teks-ke-video. Set data sari kata video sedia ada mempunyai sari kata pendek dan tidak dapat menerangkan kandungan video sepenuhnya. Zhipu AI mencadangkan saluran paip untuk menjana sari kata video daripada sari kata imej dan memperhalusi model sari kata video hujung ke hujung untuk mendapatkan sari kata yang lebih padat. Pendekatan ini menjana kapsyen pendek menggunakan model Panda70M, kapsyen imej padat menggunakan model CogView3, dan kemudian meringkaskan menggunakan model GPT-4 untuk menjana video pendek terakhir. Zhipu AI juga memperhalusi model CogVLM2-Caption berdasarkan CogVLM2-Video dan Llama 3, dilatih menggunakan data sari kata padat untuk mempercepatkan proses penjanaan sari kata video.
Performance

In order to evaluate the quality of text-to-video generation, Zhipu AI uses multiple indicators in VBench, such as human actions, scenes, dynamics, etc. Zhipu AI also uses two additional video evaluation tools: Dynamic Quality in Devil and GPT4o-MT Score in Chrono-Magic, which focus on the dynamic characteristics of videos. As shown in the table below.
智谱版Sora开源爆火:狂揽4K Star,4090单卡运行,A6000可微调
Zhipu AI has verified the effectiveness of scaling law in video generation. In the future, it will continue to scale up the data scale and model scale while exploring new model architectures with more breakthrough innovation and more efficient compression. Video information, a fuller blend of text and video content.

Finally, let’s take a look at the effect of “Clear Shadow”.

Tips: "A delicate wooden toy boat with beautifully carved masts and sails glides smoothly across a plush blue carpet that mimics ocean waves. The hull is painted a rich brown and has small windows. The carpet is soft and textured, providing the perfect backdrop to resemble the vast ocean. There are also various toys and children's items surrounding the boat, suggesting a playful environment. This scene captures the innocence and imagination of childhood with its toy boats. The journey symbolizes endless adventure in a whimsical interior environment. "智谱版Sora开源爆火:狂揽4K Star,4090单卡运行,A6000可微调Tips: "The camera follows an old white SUV with a black roof rack as it speeds up a steep hill and along a dirt road surrounded by pine trees. , the tires kicked up dust, and the sun shone on the SUV speeding along the dirt road, casting a warm light on the scene. The dirt road slowly curved into the distance, and there were no other cars or vehicles in sight. The trees on both sides of the road were redwoods. There are patches of greenery. Viewed from the back, the car follows the curves with ease, giving the impression that it is driving over rugged terrain, surrounded by steep hills and mountains, with clear blue skies above. Thin clouds. "智谱版Sora开源爆火:狂揽4K Star,4090单卡运行,A6000可微调Tips: "A snowy forest landscape with a dirt road running through it. The road is lined with snow-covered trees and the ground is also covered with snow. The sun is shining brightly, creating a bright and peaceful atmosphere. . The road is empty and no people or animals are visible in the video. The style of the video is a natural landscape shot, focusing on the beauty of the snowy forest and the tranquility of the road. "智谱版Sora开源爆火:狂揽4K Star,4090单卡运行,A6000可微调Tips: "Chicken and green pepper kebabs. Close-up of grill on grill with light burn and light smoke."智谱版Sora开源爆火:狂揽4K Star,4090单卡运行,A6000可微调

Atas ialah kandungan terperinci Versi sumber terbuka Sora mendapat sambutan: 4K Star tersedia, 4090 dijalankan pada satu kad, dan A6000 boleh diperhalusi. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Label berkaitan:
sumber:jiqizhixin.com
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan
Tentang kita Penafian Sitemap
Laman web PHP Cina:Latihan PHP dalam talian kebajikan awam,Bantu pelajar PHP berkembang dengan cepat!