Rumah > Peranti teknologi > AI > Bintang video AI baru China: Langkah-Video-T2V

Bintang video AI baru China: Langkah-Video-T2V

Jennifer Aniston
Lepaskan: 2025-03-04 11:00:12
asal
579 orang telah melayarinya

China memajukan dengan cepat dalam AI generatif, membina kejayaan seperti Model DeepSeek dan Kimi K1.5 dalam model bahasa. Sekarang, ia mengetuai domain Visi dengan Omnihuman dan Goku yang cemerlang dalam pemodelan 3D dan sintesis video. Dengan Step-Video-T2V, China secara langsung mencabar model teks-ke-video seperti SORA, VEO 2, dan filem Gen. yang dibangunkan oleh Stepfun AI, Step-Video-T2V adalah model 30B-parameter yang menghasilkan video 204-bingkai berkualiti tinggi. Ia memanfaatkan video-va, encoder dwibahasa, dan DIT 3D-Attention untuk menetapkan standard penjanaan video baru. Adakah ia menangani cabaran teras teks-ke-video? Mari kita menyelam.

Jadual Kandungan

Transformer (DIT) dengan perhatian penuh 3D
  • Normalisasi Lapisan Adaptif (ADALN-SINGLE)
  • Perhatian penuh 3d)
    • pengoptimuman (latihan penalaan dan video-dpo)
    • output akhir (video berkualiti tinggi 204-bingkai)
    • Step-Video-T2V
    • van Gogh di Paris
    • Millennium Falcon Journey
    • Kesimpulan
    • Cabaran dalam model teks-ke-video
    • Walaupun model teks-ke-video telah datang jauh, mereka masih menghadapi halangan asas:
    • Urutan Tindakan Kompleks
    • - Model semasa berjuang untuk menghasilkan video yang realistik yang mengikuti urutan tindakan yang rumit, seperti gimnas yang melakukan flips atau bola keranjang yang memantul secara realistik.
  • Fizik dan kausalitas
  • -kebanyakan model berasaskan penyebaran gagal mensimulasikan dunia nyata dengan berkesan. Interaksi objek, graviti, dan undang -undang fizikal sering diabaikan.
  • Arahan berikut
      - Model sering terlepas butiran utama dalam pengguna, terutamanya apabila berurusan dengan konsep yang jarang berlaku (mis., Penguin dan gajah dalam video yang sama).
    • Kos pengiraan
    • -Menjana resolusi tinggi, video jangka panjang adalah
    sangat berintensifkan sumber
  • , mengehadkan kebolehcapaian untuk penyelidik dan pencipta.
Kapsyen dan penjajaran

- Model video bergantung pada dataset besar -besaran, tetapi penangkapan video yang lemah mengakibatkan pematuhan yang lemah, yang membawa kepada

kandungan halus.

bagaimana langkah-video-t2v menyelesaikan masalah ini?
  • langkah-video-t2v menangani cabaran-cabaran ini dengan beberapa inovasi :

    • Mampatan Deep Video-Vae : Mencapai 16 × 16 spatial dan 8x temporal mampatan , dengan ketara mengurangkan keperluan pengiraan sambil mengekalkan kualiti video yang tinggi.
    • pengekod teks bilingual : mengintegrasikan hunyan-clip dan step-llm , yang membolehkan model memproses dengan berkesan dalam kedua-dua Cina dan Inggeris .
    • 3D PENGHANTARAN FULL-DIT : Daripada perhatian tradisional spatial-temporal, pendekatan ini meningkatkan kesinambungan gerakan dan konsistensi adegan .
    • Video-DPO (Pengoptimuman Keutamaan Langsung)
    • : Menggabungkan Gelung maklum balas manusia untuk mengurangkan artifak, meningkatkan realisme, dan menyelaraskan kandungan yang dihasilkan dengan jangkaan pengguna.
    • Model Architecture

    Senibina model langkah-video-T2V disusun di sekitar saluran paip tiga bahagian untuk memproses secara berkesan teks dan menghasilkan video berkualiti tinggi. Model ini mengintegrasikan pengekod teks dwibahasa, autoencoder variasi (video-va), dan pengubah penyebaran (DIT) dengan perhatian 3D, menetapkannya selain daripada model teks-ke-video tradisional.

    1. Pengekodan teks dengan pemahaman dwibahasa Bintang video AI baru China: Langkah-Video-T2V

    di peringkat input, langkah-video-t2v menggunakan

    dua pengekod teks dwibahasa yang kuat:

    Hunyan-Clip
      : Model bahasa penglihatan yang dioptimumkan untuk penjajaran semantik
    • antara teks dan imej. Step-llm : Model bahasa yang besar khusus dalam
    • Memahami Arahan Kompleks
    • dalam kedua-dua Cina dan Bahasa Inggeris . Pengekod ini memproses prompt pengguna
    • dan mengubahnya menjadi perwakilan laten yang bermakna
    , memastikan model itu tepat mengikuti arahan.

    2. Autoencoder variasi (video-va) untuk pemampatan Menjana video panjang, resolusi tinggi adalah komputasi mahal. Langkah-Video-T2V menangani masalah ini dengan Autoencoder Variasi Mampatan Deep (Video-VAE) yang mengurangkan data video dengan cekap:

    mampatan spatial (16 × 16) dan mampatan temporal (8x) Kurangkan saiz video semasa memelihara butiran gerakan.

      Ini membolehkan urutan yang lebih lama (204 bingkai)
    • dengan kos pengiraan yang lebih rendah daripada model sebelumnya.
    • 3. Pengubah Penyebaran (DIT) dengan perhatian penuh 3D
    • Teras langkah-video-T2V adalah pengubah penyebarannya (DIT) dengan perhatian penuh 3D , yang meningkatkan kelancaran gerakan dan koheren adegan.

      Bintang video AI baru China: Langkah-Video-T2V

      blok

      ith Dit terdiri daripada pelbagai komponen yang memperbaiki proses penjanaan video:

      komponen utama setiap blok pengubah

      • Cross-Attention : memastikan penjajaran teks-ke-video yang lebih baik dengan mengadakan bingkai yang dihasilkan pada embedding teks.
      • atalan diri (dengan tali-3D) : menggunakan pengekodan posisi berputar (tali-3D) untuk meningkatkan pemahaman spatial-temporal , memastikan objek bergerak secara semulajadi di seluruh bingkai. qk-norm (Normalisasi Key-Key) : Meningkatkan kestabilan mekanisme perhatian, mengurangkan ketidakkonsistenan dalam kedudukan objek.
      • Mekanisme GATE : ini
      • Gates Adaptive
      • mengawal aliran maklumat, mencegah overfitting ke corak tertentu dan meningkatkan generalisasi. Operasi Skala/Peralihan : Menormalkan dan meremehkan perwakilan perantaraan, memastikan peralihan yang lancar antara bingkai video.
      • 4. Normalisasi Lapisan Adaptif (ADALN-SINGLE)
      Model ini juga termasuk

      Normalisasi Lapisan Adaptif (ADALN-SINGLE)

      , yang menyesuaikan pengaktifan secara dinamik berdasarkan
        timestep (t)
      • . ini memastikan konsistensi temporal merentasi urutan video.
      • bagaimana langkah-video-video-t2v berfungsi? model
      • Model Step-Video-T2V
      adalah canggih

      sistem AI teks-ke-video

      yang menghasilkan video yang kaya dengan gerakan yang berkualiti tinggi berdasarkan deskripsi teks. Mekanisme kerja melibatkan pelbagai teknik AI yang canggih untuk memastikan gerakan yang lancar, pematuhan kepada arahan, dan output yang realistik. Mari kita pecahkan langkah demi langkah:

      1. Input pengguna (pengekodan teks)

      • Model bermula dengan memproses input pengguna , yang merupakan teks yang menggambarkan video yang dikehendaki.
      • Ini dilakukan dengan menggunakan pengekod teks dwibahasa (mis., hunyuan-clip dan step-llm ).
      • keupayaan Bilingual memastikan yang mendorong dalam kedua -dua Bahasa Inggeris dan Cina boleh difahami dengan tepat.

      2. Perwakilan laten (mampatan dengan video-va)

      • Generasi video secara komputasi berat, jadi model menggunakan variasi autoencoder (VAE) khusus untuk pemampatan video, yang dipanggil video-vae .
      • Fungsi video-va:
        • memampatkan bingkai video ke dalam ruang laten rendah dimensi , mengurangkan kos pengiraan .
        • Mengekalkan aspek kualiti video utama
        • , seperti kesinambungan gerakan, tekstur, dan butiran objek . menggunakan
        • 16 × 16 spatial dan 8x mampatan temporal
        • , menjadikan model yang cekap semasa mengekalkan kesetiaan yang tinggi.
      • 3. Proses Denoising (Pengubah Penyebaran dengan Perhatian Penuh 3D)

      Setelah memperoleh perwakilan laten, langkah seterusnya adalah
        Proses Denoising
      • , yang menapis bingkai video. Ini dilakukan dengan menggunakan pengubah penyebaran
      • (DIT)
      • , model lanjutan yang direka untuk menghasilkan video yang sangat realistik.
      • inovasi utama:
      • pengubah penyebaran
        • terpakai perhatian penuh 3D , mekanisme yang kuat yang memberi tumpuan kepada dinamik spatial, temporal, dan gerakan . Penggunaan pemadanan aliran
        • membantu
        • meningkatkan konsistensi pergerakan merentasi bingkai, memastikan peralihan video yang lebih lancar.
        4. Pengoptimuman (penalaan halus dan latihan video-DPO)

      Video yang dihasilkan menjalani fasa pengoptimuman, menjadikannya lebih tepat

      yang tepat, koheren, dan visual menarik Bintang video AI baru China: Langkah-Video-T2V. Ini melibatkan:

      Fine menala model

      dengan data berkualiti tinggi untuk meningkatkan keupayaannya untuk mengikuti petunjuk kompleks.
      • video-dpo (pengoptimuman keutamaan langsung) latihan, yang menggabungkan
      • maklum balas manusia
      • ke: Kurangkan artifak yang tidak diingini. Meningkatkan realisme dalam gerakan dan tekstur.
        • Align generasi video dengan jangkaan pengguna.
        • 5. Output Akhir (video 204-bingkai berkualiti tinggi)
      • Video terakhir adalah 204 bingkai panjang , yang bermaksud ia menyediakan tempoh yang signifikan untuk bercerita .
      • Generasi resolusi tinggi memastikan visual yang tajam dan rendering objek yang jelas.
      • Realisme gerakan yang kuat bermaksud video mengekalkan pergerakan licin dan semulajadi , menjadikannya sesuai untuk adegan kompleks seperti gerak isyarat manusia, interaksi objek, dan latar belakang dinamik.

      penanda aras terhadap pesaing

      Step-Video-T2V dinilai pada Step-Video-T2V-Eval , A 128-Prompt Benchmark Meliputi Sukan, Makanan, Pemandangan, Surealism, Orang, dan Animasi . Berbanding dengan model terkemuka, ia menyampaikan prestasi canggih dalam dinamik dan realisme gerakan.

      1. Outperforms Hunyuanvideo dalam keseluruhan kualiti video dan kelancaran.
      2. Rivals Movie Gen Video tetapi ketinggalan dalam estetika halus disebabkan oleh data berlabel berkualiti tinggi yang terhad.
      3. Beats Runway Gen-3 Alpha dalam konsistensi gerakan tetapi sedikit ketinggalan dalam rayuan sinematik.
      4. Mencabar model komersil Cina teratas (T2VTOPA dan T2VTOPB) tetapi jatuh pendek dalam kualiti estetik kerana resolusi yang lebih rendah (540p vs 1080p).
      Metrik Prestasi

      Step-Video-T2V Memperkenalkan

      Kriteria Penilaian Baru :

      • arahan berikut - mengukur seberapa baik video yang dihasilkan sejajar dengan prompt.
      • Lancar gerakan - menilai aliran semula jadi tindakan dalam video.
      • kebolehlaksanaan fizikal - menilai sama ada pergerakan mengikuti undang -undang fizik.
      • Rayuan estetik - menghakimi kualiti artistik dan visual video.
      dalam penilaian manusia,

      langkah-video-T2V secara konsisten mengungguli pesaing dalam kelancaran gerakan dan kemusnahan fizikal , menjadikannya salah satu model sumber terbuka yang paling maju.

      bagaimana untuk mengakses langkah-video-t2v?

      Langkah 1: Lawati laman web rasmi di sini.

      Langkah 2: Daftar menggunakan nombor mudah alih anda.

      Nota: Pada masa ini, pendaftaran dibuka hanya untuk bilangan negara yang terhad. Malangnya, ia tidak tersedia di India, jadi saya tidak dapat mendaftar. Walau bagaimanapun, anda boleh mencuba jika anda berada di rantau yang disokong.

      Bintang video AI baru China: Langkah-Video-T2V

      Langkah 3:

      Tambahkan pada arahan anda dan mula menghasilkan video yang menakjubkan!

      Contoh vido yang dicipta oleh langkah-video-t2v Bintang video AI baru China: Langkah-Video-T2V

      Berikut adalah beberapa video yang dihasilkan oleh alat ini. Saya telah mengambilnya dari laman rasmi mereka.

      Van Gogh di Paris

      prompt: " Di jalan -jalan di Paris, Van Gogh duduk di luar kafe, melukis adegan malam dengan papan lukisan di tangannya. Kamera ditembak dalam tembakan sederhana, menunjukkan ekspresi fokus dan berus yang bergerak pantas. Lampu jalanan dan pejalan kaki di latar belakang sedikit kabur, menggunakan kedalaman medan cetek untuk menyerlahkan imejnya. Apabila masa berlalu, langit berubah dari senja ke malam, dan bintang -bintang secara beransur -ansur muncul. Kamera perlahan -lahan menarik diri untuk melihat perbandingan antara kerja siap dan adegan malam sebenar. "

      Millennium Falcon Journey

      prompt: " Di alam semesta yang luas, Millennium Falcon di Star Wars bergerak melintasi bintang -bintang. Kamera menunjukkan kapal angkasa terbang di antara bintang -bintang dalam pandangan yang jauh. Kamera dengan cepat mengikuti trajektori kapal angkasa, menunjukkan pesawat ulang-alik berkelajuan tinggi. Memasuki kokpit, kamera memberi tumpuan kepada ekspresi wajah Han Solo dan Chewbacca, yang dengan gugup mengendalikan instrumen. Lampu di kelipatan papan pemuka, dan latar belakang langit berbintang dengan cepat melewati di luar jalan. "

      Kesimpulan

      Step-Video-T2V belum tersedia di luar China lagi. Sebaik sahaja ia awam, saya akan menguji dan berkongsi ulasan saya. Namun, ia menandakan kemajuan besar dalam AI generatif China, membuktikan makmalnya membentuk masa depan AI multimodal bersama OpenAI dan DeepMind. Langkah seterusnya untuk penjanaan video menuntut arahan yang lebih baik-berikut, simulasi fizik, dan dataset yang lebih kaya. Step-Video-T2V membuka jalan bagi model video sumber terbuka, memperkasakan penyelidik dan pencipta global. Momentum AI China mencadangkan inovasi teks-ke-video yang lebih realistik dan cekap di hadapan

Atas ialah kandungan terperinci Bintang video AI baru China: Langkah-Video-T2V. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Artikel terbaru oleh pengarang
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan