Bintang video AI baru China: Langkah-Video-T2V-AI-php.cn

China memajukan dengan cepat dalam AI generatif, membina kejayaan seperti Model DeepSeek dan Kimi K1.5 dalam model bahasa. Sekarang, ia mengetuai domain Visi dengan Omnihuman dan Goku yang cemerlang dalam pemodelan 3D dan sintesis video. Dengan Step-Video-T2V, China secara langsung mencabar model teks-ke-video seperti SORA, VEO 2, dan filem Gen. yang dibangunkan oleh Stepfun AI, Step-Video-T2V adalah model 30B-parameter yang menghasilkan video 204-bingkai berkualiti tinggi. Ia memanfaatkan video-va, encoder dwibahasa, dan DIT 3D-Attention untuk menetapkan standard penjanaan video baru. Adakah ia menangani cabaran teras teks-ke-video? Mari kita menyelam.

Jadual Kandungan

Transformer (DIT) dengan perhatian penuh 3D

Normalisasi Lapisan Adaptif (ADALN-SINGLE)
- Cabaran dalam model teks-ke-video
- Walaupun model teks-ke-video telah datang jauh, mereka masih menghadapi halangan asas:
- Urutan Tindakan Kompleks
Fizik dan kausalitas
Arahan berikut
- Kos pengiraan
sangat berintensifkan sumber

Kapsyen dan penjajaran

- Model video bergantung pada dataset besar -besaran, tetapi penangkapan video yang lemah mengakibatkan pematuhan yang lemah, yang membawa kepada

kandungan halus.

bagaimana langkah-video-t2v menyelesaikan masalah ini?

langkah-video-t2v menangani cabaran-cabaran ini dengan beberapa inovasi :

Mampatan Deep Video-Vae : Mencapai 16 × 16 spatial dan 8x temporal mampatan , dengan ketara mengurangkan keperluan pengiraan sambil mengekalkan kualiti video yang tinggi.

pengekod teks bilingual : mengintegrasikan hunyan-clip dan step-llm , yang membolehkan model memproses dengan berkesan dalam kedua-dua Cina dan Inggeris .

3D PENGHANTARAN FULL-DIT : Daripada perhatian tradisional spatial-temporal, pendekatan ini meningkatkan kesinambungan gerakan dan konsistensi adegan .
Video-DPO (Pengoptimuman Keutamaan Langsung)
: Menggabungkan Gelung maklum balas manusia untuk mengurangkan artifak, meningkatkan realisme, dan menyelaraskan kandungan yang dihasilkan dengan jangkaan pengguna.
Model Architecture

Senibina model langkah-video-T2V disusun di sekitar saluran paip tiga bahagian untuk memproses secara berkesan teks dan menghasilkan video berkualiti tinggi. Model ini mengintegrasikan pengekod teks dwibahasa, autoencoder variasi (video-va), dan pengubah penyebaran (DIT) dengan perhatian 3D, menetapkannya selain daripada model teks-ke-video tradisional.

1. Pengekodan teks dengan pemahaman dwibahasa
di peringkat input, langkah-video-t2v menggunakan
dua pengekod teks dwibahasa yang kuat:

Hunyan-Clip
: Model bahasa penglihatan yang dioptimumkan untuk penjajaran semantik
antara teks dan imej. Step-llm : Model bahasa yang besar khusus dalam
Memahami Arahan Kompleks
dalam kedua-dua Cina dan Bahasa Inggeris . Pengekod ini memproses prompt pengguna
dan mengubahnya menjadi perwakilan laten yang bermakna
, memastikan model itu tepat mengikuti arahan.
2. Autoencoder variasi (video-va) untuk pemampatan Menjana video panjang, resolusi tinggi adalah komputasi mahal. Langkah-Video-T2V menangani masalah ini dengan Autoencoder Variasi Mampatan Deep (Video-VAE) yang mengurangkan data video dengan cekap:

mampatan spatial (16 × 16) dan mampatan temporal (8x) Kurangkan saiz video semasa memelihara butiran gerakan.

Ini membolehkan urutan yang lebih lama (204 bingkai)
dengan kos pengiraan yang lebih rendah daripada model sebelumnya.
3. Pengubah Penyebaran (DIT) dengan perhatian penuh 3D
Teras langkah-video-T2V adalah pengubah penyebarannya (DIT) dengan perhatian penuh 3D , yang meningkatkan kelancaran gerakan dan koheren adegan.
blok
ith Dit terdiri daripada pelbagai komponen yang memperbaiki proses penjanaan video:

komponen utama setiap blok pengubah

Cross-Attention : memastikan penjajaran teks-ke-video yang lebih baik dengan mengadakan bingkai yang dihasilkan pada embedding teks.

atalan diri (dengan tali-3D) : menggunakan pengekodan posisi berputar (tali-3D) untuk meningkatkan pemahaman spatial-temporal , memastikan objek bergerak secara semulajadi di seluruh bingkai. ~~qk-norm (Normalisasi Key-Key)~~ : Meningkatkan kestabilan mekanisme perhatian, mengurangkan ketidakkonsistenan dalam kedudukan objek.

Mekanisme GATE : ini
Gates Adaptive
mengawal aliran maklumat, mencegah overfitting ke corak tertentu dan meningkatkan generalisasi. Operasi Skala/Peralihan : Menormalkan dan meremehkan perwakilan perantaraan, memastikan peralihan yang lancar antara bingkai video.

4. Normalisasi Lapisan Adaptif (ADALN-SINGLE)

Model ini juga termasuk
Normalisasi Lapisan Adaptif (ADALN-SINGLE)
, yang menyesuaikan pengaktifan secara dinamik berdasarkan
timestep (t)
. ini memastikan konsistensi temporal merentasi urutan video.

bagaimana langkah-video-video-t2v berfungsi? model
Model Step-Video-T2V
adalah canggih
sistem AI teks-ke-video
yang menghasilkan video yang kaya dengan gerakan yang berkualiti tinggi berdasarkan deskripsi teks. Mekanisme kerja melibatkan pelbagai teknik AI yang canggih untuk memastikan gerakan yang lancar, pematuhan kepada arahan, dan output yang realistik. Mari kita pecahkan langkah demi langkah:

1. Input pengguna (pengekodan teks)

Model bermula dengan memproses input pengguna , yang merupakan teks yang menggambarkan video yang dikehendaki.

Ini dilakukan dengan menggunakan pengekod teks dwibahasa (mis., hunyuan-clip dan step-llm ).

keupayaan Bilingual memastikan yang mendorong dalam kedua -dua Bahasa Inggeris dan Cina boleh difahami dengan tepat.

2. Perwakilan laten (mampatan dengan video-va)

Generasi video secara komputasi berat, jadi model menggunakan variasi autoencoder (VAE) khusus untuk pemampatan video, yang dipanggil video-vae .

Fungsi video-va:

memampatkan bingkai video ke dalam ruang laten rendah dimensi , mengurangkan kos pengiraan .
Mengekalkan aspek kualiti video utama
, seperti kesinambungan gerakan, tekstur, dan butiran objek . menggunakan
16 × 16 spatial dan 8x mampatan temporal
, menjadikan model yang cekap semasa mengekalkan kesetiaan yang tinggi.

3. Proses Denoising (Pengubah Penyebaran dengan Perhatian Penuh 3D)

Setelah memperoleh perwakilan laten, langkah seterusnya adalah
Proses Denoising
, yang menapis bingkai video. Ini dilakukan dengan menggunakan pengubah penyebaran
(DIT)
, model lanjutan yang direka untuk menghasilkan video yang sangat realistik.
inovasi utama:
pengubah penyebaran

terpakai perhatian penuh 3D , mekanisme yang kuat yang memberi tumpuan kepada dinamik spatial, temporal, dan gerakan . Penggunaan pemadanan aliran
membantu
meningkatkan konsistensi pergerakan merentasi bingkai, memastikan peralihan video yang lebih lancar.

4. Pengoptimuman (penalaan halus dan latihan video-DPO)

Video yang dihasilkan menjalani fasa pengoptimuman, menjadikannya lebih tepat
yang tepat, koheren, dan visual menarik . Ini melibatkan:

Fine menala model
dengan data berkualiti tinggi untuk meningkatkan keupayaannya untuk mengikuti petunjuk kompleks.

video-dpo (pengoptimuman keutamaan langsung) latihan, yang menggabungkan
maklum balas manusia
ke: Kurangkan artifak yang tidak diingini. Meningkatkan realisme dalam gerakan dan tekstur.

Align generasi video dengan jangkaan pengguna.

5. Output Akhir (video 204-bingkai berkualiti tinggi)

Video terakhir adalah 204 bingkai panjang , yang bermaksud ia menyediakan tempoh yang signifikan untuk bercerita .

Generasi resolusi tinggi memastikan visual yang tajam dan rendering objek yang jelas.

Realisme gerakan yang kuat bermaksud video mengekalkan pergerakan licin dan semulajadi , menjadikannya sesuai untuk adegan kompleks seperti gerak isyarat manusia, interaksi objek, dan latar belakang dinamik.

penanda aras terhadap pesaing

Step-Video-T2V dinilai pada Step-Video-T2V-Eval , A 128-Prompt Benchmark Meliputi Sukan, Makanan, Pemandangan, Surealism, Orang, dan Animasi . Berbanding dengan model terkemuka, ia menyampaikan prestasi canggih dalam dinamik dan realisme gerakan.

Outperforms Hunyuanvideo dalam keseluruhan kualiti video dan kelancaran.

Rivals Movie Gen Video tetapi ketinggalan dalam estetika halus disebabkan oleh data berlabel berkualiti tinggi yang terhad.

Beats Runway Gen-3 Alpha dalam konsistensi gerakan tetapi sedikit ketinggalan dalam rayuan sinematik.

Mencabar model komersil Cina teratas (T2VTOPA dan T2VTOPB) tetapi jatuh pendek dalam kualiti estetik kerana resolusi yang lebih rendah (540p vs 1080p).

Metrik Prestasi

Step-Video-T2V Memperkenalkan
Kriteria Penilaian Baru :

arahan berikut - mengukur seberapa baik video yang dihasilkan sejajar dengan prompt.

Lancar gerakan - menilai aliran semula jadi tindakan dalam video.

kebolehlaksanaan fizikal - menilai sama ada pergerakan mengikuti undang -undang fizik.

Rayuan estetik - menghakimi kualiti artistik dan visual video.

dalam penilaian manusia,
langkah-video-T2V secara konsisten mengungguli pesaing dalam kelancaran gerakan dan kemusnahan fizikal , menjadikannya salah satu model sumber terbuka yang paling maju.
bagaimana untuk mengakses langkah-video-t2v?

Langkah 1: Lawati laman web rasmi di sini.

Langkah 2: Daftar menggunakan nombor mudah alih anda.

Nota: Pada masa ini, pendaftaran dibuka hanya untuk bilangan negara yang terhad. Malangnya, ia tidak tersedia di India, jadi saya tidak dapat mendaftar. Walau bagaimanapun, anda boleh mencuba jika anda berada di rantau yang disokong.

Langkah 3:
Tambahkan pada arahan anda dan mula menghasilkan video yang menakjubkan!

Contoh vido yang dicipta oleh langkah-video-t2v
Berikut adalah beberapa video yang dihasilkan oleh alat ini. Saya telah mengambilnya dari laman rasmi mereka.

Van Gogh di Paris

prompt: " Di jalan -jalan di Paris, Van Gogh duduk di luar kafe, melukis adegan malam dengan papan lukisan di tangannya. Kamera ditembak dalam tembakan sederhana, menunjukkan ekspresi fokus dan berus yang bergerak pantas. Lampu jalanan dan pejalan kaki di latar belakang sedikit kabur, menggunakan kedalaman medan cetek untuk menyerlahkan imejnya. Apabila masa berlalu, langit berubah dari senja ke malam, dan bintang -bintang secara beransur -ansur muncul. Kamera perlahan -lahan menarik diri untuk melihat perbandingan antara kerja siap dan adegan malam sebenar. "

Millennium Falcon Journey

prompt: " Di alam semesta yang luas, Millennium Falcon di Star Wars bergerak melintasi bintang -bintang. Kamera menunjukkan kapal angkasa terbang di antara bintang -bintang dalam pandangan yang jauh. Kamera dengan cepat mengikuti trajektori kapal angkasa, menunjukkan pesawat ulang-alik berkelajuan tinggi. Memasuki kokpit, kamera memberi tumpuan kepada ekspresi wajah Han Solo dan Chewbacca, yang dengan gugup mengendalikan instrumen. Lampu di kelipatan papan pemuka, dan latar belakang langit berbintang dengan cepat melewati di luar jalan. "

Kesimpulan

Step-Video-T2V belum tersedia di luar China lagi. Sebaik sahaja ia awam, saya akan menguji dan berkongsi ulasan saya. Namun, ia menandakan kemajuan besar dalam AI generatif China, membuktikan makmalnya membentuk masa depan AI multimodal bersama OpenAI dan DeepMind. Langkah seterusnya untuk penjanaan video menuntut arahan yang lebih baik-berikut, simulasi fizik, dan dataset yang lebih kaya. Step-Video-T2V membuka jalan bagi model video sumber terbuka, memperkasakan penyelidik dan pencipta global. Momentum AI China mencadangkan inovasi teks-ke-video yang lebih realistik dan cekap di hadapan

Atas ialah kandungan terperinci Bintang video AI baru China: Langkah-Video-T2V. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!