China memajukan dengan cepat dalam AI generatif, membina kejayaan seperti Model DeepSeek dan Kimi K1.5 dalam model bahasa. Sekarang, ia mengetuai domain Visi dengan Omnihuman dan Goku yang cemerlang dalam pemodelan 3D dan sintesis video. Dengan Step-Video-T2V, China secara langsung mencabar model teks-ke-video seperti SORA, VEO 2, dan filem Gen. yang dibangunkan oleh Stepfun AI, Step-Video-T2V adalah model 30B-parameter yang menghasilkan video 204-bingkai berkualiti tinggi. Ia memanfaatkan video-va, encoder dwibahasa, dan DIT 3D-Attention untuk menetapkan standard penjanaan video baru. Adakah ia menangani cabaran teras teks-ke-video? Mari kita menyelam.
Jadual Kandunganbagaimana langkah-video-t2v menyelesaikan masalah ini?
langkah-video-t2v menangani cabaran-cabaran ini dengan beberapa inovasi :
1. Pengekodan teks dengan pemahaman dwibahasa
Hunyan-Clip
2. Autoencoder variasi (video-va) untuk pemampatan Menjana video panjang, resolusi tinggi adalah komputasi mahal. Langkah-Video-T2V menangani masalah ini dengan Autoencoder Variasi Mampatan Deep (Video-VAE) yang mengurangkan data video dengan cekap:
mampatan spatial (16 × 16)
ith Dit terdiri daripada pelbagai komponen yang memperbaiki proses penjanaan video:
yang tepat, koheren, dan visual menarik . Ini melibatkan:
Fine menala model
dengan data berkualiti tinggi untuk meningkatkan keupayaannya untuk mengikuti petunjuk kompleks.Step-Video-T2V dinilai pada Step-Video-T2V-Eval , A 128-Prompt Benchmark Meliputi Sukan, Makanan, Pemandangan, Surealism, Orang, dan Animasi . Berbanding dengan model terkemuka, ia menyampaikan prestasi canggih dalam dinamik dan realisme gerakan.
Kriteria Penilaian Baru :
langkah-video-T2V secara konsisten mengungguli pesaing dalam kelancaran gerakan dan kemusnahan fizikal , menjadikannya salah satu model sumber terbuka yang paling maju.
bagaimana untuk mengakses langkah-video-t2v?Langkah 1: Lawati laman web rasmi di sini.
Langkah 2: Daftar menggunakan nombor mudah alih anda.
Nota: Pada masa ini, pendaftaran dibuka hanya untuk bilangan negara yang terhad. Malangnya, ia tidak tersedia di India, jadi saya tidak dapat mendaftar. Walau bagaimanapun, anda boleh mencuba jika anda berada di rantau yang disokong.
Tambahkan pada arahan anda dan mula menghasilkan video yang menakjubkan!
Contoh vido yang dicipta oleh langkah-video-t2v
prompt: " Di jalan -jalan di Paris, Van Gogh duduk di luar kafe, melukis adegan malam dengan papan lukisan di tangannya. Kamera ditembak dalam tembakan sederhana, menunjukkan ekspresi fokus dan berus yang bergerak pantas. Lampu jalanan dan pejalan kaki di latar belakang sedikit kabur, menggunakan kedalaman medan cetek untuk menyerlahkan imejnya. Apabila masa berlalu, langit berubah dari senja ke malam, dan bintang -bintang secara beransur -ansur muncul. Kamera perlahan -lahan menarik diri untuk melihat perbandingan antara kerja siap dan adegan malam sebenar. "
prompt: " Di alam semesta yang luas, Millennium Falcon di Star Wars bergerak melintasi bintang -bintang. Kamera menunjukkan kapal angkasa terbang di antara bintang -bintang dalam pandangan yang jauh. Kamera dengan cepat mengikuti trajektori kapal angkasa, menunjukkan pesawat ulang-alik berkelajuan tinggi. Memasuki kokpit, kamera memberi tumpuan kepada ekspresi wajah Han Solo dan Chewbacca, yang dengan gugup mengendalikan instrumen. Lampu di kelipatan papan pemuka, dan latar belakang langit berbintang dengan cepat melewati di luar jalan. "
Step-Video-T2V belum tersedia di luar China lagi. Sebaik sahaja ia awam, saya akan menguji dan berkongsi ulasan saya. Namun, ia menandakan kemajuan besar dalam AI generatif China, membuktikan makmalnya membentuk masa depan AI multimodal bersama OpenAI dan DeepMind. Langkah seterusnya untuk penjanaan video menuntut arahan yang lebih baik-berikut, simulasi fizik, dan dataset yang lebih kaya. Step-Video-T2V membuka jalan bagi model video sumber terbuka, memperkasakan penyelidik dan pencipta global. Momentum AI China mencadangkan inovasi teks-ke-video yang lebih realistik dan cekap di hadapan
Atas ialah kandungan terperinci Bintang video AI baru China: Langkah-Video-T2V. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!