Jadual Kandungan
VBench kini sumber terbuka dan boleh dipasang dengan satu klik
Rumah Peranti teknologi AI Pertandingan ujian rangka kerja penjanaan video AI: Pika, Gen-2, ModelScope, SEINE, siapa yang boleh menang?

Pertandingan ujian rangka kerja penjanaan video AI: Pika, Gen-2, ModelScope, SEINE, siapa yang boleh menang?

Jan 22, 2024 pm 01:06 PM
video ai

Penjanaan video AI adalah salah satu bidang paling hangat baru-baru ini. Pelbagai makmal universiti, Makmal AI gergasi Internet, dan syarikat pemula telah menyertai trek penjanaan video AI. Keluaran model penjanaan video seperti Pika, Gen-2, Show-1, VideoCrafter, ModelScope, SEINE, LaVie dan VideoLDM adalah lebih menarik perhatian. v⁽ⁱ⁾

Anda mesti ingin tahu tentang soalan berikut:

  • Model penjanaan video manakah yang terbaik?
  • Apakah keistimewaan setiap model?
  • Apakah isu yang patut diberi perhatian dan perlu diselesaikan dalam bidang penjanaan video AI?

Untuk tujuan ini, kami telah melancarkan VBench, "rangka kerja penilaian untuk model penjanaan video" komprehensif yang direka untuk menyediakan pengguna dengan maklumat tentang kelebihan, kelemahan dan ciri pelbagai model video. Melalui VBench, pengguna boleh memahami kekuatan dan kelebihan model video yang berbeza. .

Laman web: https ://vchitect.github.io/VBench-project/

Pertandingan ujian rangka kerja penjanaan video AI: Pika, Gen-2, ModelScope, SEINE, siapa yang boleh menang?Tajuk kertas: VBench: Suite Penanda Aras Komprehensif untuk Model Generatif Video


    VBench bukan sahaja boleh secara komprehensif dan teliti, menilai kesan penjanaan video Penilaian yang konsisten terhadap pengalaman deria orang, menjimatkan masa dan tenaga.
  • VBench mengandungi 16 dimensi penilaian berlapis dan dipisahkan
  • VBench mempunyai sumber terbuka sistem penilaian Senarai Prompt untuk penilaian penjanaan video Vincent🜎🜎 dinyalakan dengan persepsi manusia dan Evaluasi

VBench memberikan pandangan pelbagai perspektif untuk membantu penjelajahan masa depan generasi video AI

Pertandingan ujian rangka kerja penjanaan video AI: Pika, Gen-2, ModelScope, SEINE, siapa yang boleh menang? "VBench" - suite penanda aras komprehensif "model generasi video"

Pertandingan ujian rangka kerja penjanaan video AI: Pika, Gen-2, ModelScope, SEINE, siapa yang boleh menang?

- keputusan penilaian

Pertandingan ujian rangka kerja penjanaan video AI: Pika, Gen-2, ModelScope, SEINE, siapa yang boleh menang?

Model penjanaan video AI sumber terbuka

Prestasi setiap model penjanaan video AI sumber terbuka pada VBench adalah seperti berikut.

Prestasi pelbagai model penjanaan video AI sumber terbuka di VBench. Dalam carta radar, kami menormalkan keputusan untuk setiap dimensi menjadi antara 0.3 dan 0.8 untuk menggambarkan perbandingan dengan lebih jelas.

Pertandingan ujian rangka kerja penjanaan video AI: Pika, Gen-2, ModelScope, SEINE, siapa yang boleh menang?Prestasi pelbagai model penjanaan video AI sumber terbuka pada VBench.

Di antara 6 model di atas, dapat dilihat bahawa VideoCrafter-1.0 dan Show-1 mempunyai kelebihan relatif dalam kebanyakan dimensi.

Pertandingan ujian rangka kerja penjanaan video AI: Pika, Gen-2, ModelScope, SEINE, siapa yang boleh menang?

Model penjanaan video pemula

VBench kini menyediakan hasil penilaian dua model permulaan, Gen-2 dan Pika.

Prestasi Gen-2 dan Pika di VBench. Dalam carta radar, untuk menggambarkan perbandingan dengan lebih jelas, kami menambah VideoCrafter-1.0 dan Show-1 sebagai rujukan, dan menormalkan keputusan penilaian setiap dimensi menjadi antara 0.3 dan 0.8.

Pertandingan ujian rangka kerja penjanaan video AI: Pika, Gen-2, ModelScope, SEINE, siapa yang boleh menang?

Prestasi Gen-2 dan Pika di VBench. Kami menyertakan hasil berangka VideoCrafter-1.0 dan Show-1 sebagai rujukan.

Dapat dilihat bahawa Gen-2 dan Pika mempunyai kelebihan yang jelas dalam kualiti video (Kualiti Video), seperti ketekalan temporal (Temporal Consistency) dan kualiti bingkai tunggal (Kualiti Estetik dan Kualiti Pengimejan) berkaitan dimensi. Dari segi konsistensi semantik dengan gesaan input pengguna (seperti Tindakan Manusia dan Gaya Penampilan), model sumber terbuka separa dimensi akan menjadi lebih baik.

Model penjanaan video VS model penjanaan gambar

Pertandingan ujian rangka kerja penjanaan video AI: Pika, Gen-2, ModelScope, SEINE, siapa yang boleh menang?

Model penjanaan video VS model penjanaan gambar. Antaranya, SD1.4, SD2.1 dan SDXL ialah model penjanaan imej.

Prestasi model penjanaan video pada 8 kategori adegan utama

Berikut ialah keputusan penilaian model berbeza pada 8 kategori berbeza.

Pertandingan ujian rangka kerja penjanaan video AI: Pika, Gen-2, ModelScope, SEINE, siapa yang boleh menang?

VBench kini sumber terbuka dan boleh dipasang dengan satu klik

Pada masa ini, VBench adalah sumber terbuka sepenuhnya dan menyokong pemasangan satu klik. Semua orang dialu-alukan untuk bermain, menguji model yang anda minati dan bekerjasama untuk mempromosikan pembangunan komuniti penjanaan video.

Pertandingan ujian rangka kerja penjanaan video AI: Pika, Gen-2, ModelScope, SEINE, siapa yang boleh menang?

Pertandingan ujian rangka kerja penjanaan video AI: Pika, Gen-2, ModelScope, SEINE, siapa yang boleh menang?

Pertandingan ujian rangka kerja penjanaan video AI: Pika, Gen-2, ModelScope, SEINE, siapa yang boleh menang?


Alamat sumber terbuka: https://github.com/Vchitect/VBench


Pertandingan ujian rangka kerja penjanaan video AI: Pika, Gen-2, ModelScope, SEINE, siapa yang boleh menang?

Kami juga mempunyai siri Prompt sumber terbuka Senarai: https ://github.com/Vchitect/VBench/tree/master/prompts, mengandungi Penanda Aras untuk penilaian dalam dimensi keupayaan yang berbeza, serta Penanda Aras penilaian pada kandungan senario yang berbeza.

Pertandingan ujian rangka kerja penjanaan video AI: Pika, Gen-2, ModelScope, SEINE, siapa yang boleh menang?

Perkataan awan di sebelah kiri menunjukkan pengedaran perkataan frekuensi tinggi dalam Prompt Suite kami, dan gambar di sebelah kanan menunjukkan bilangan gesaan dalam dimensi dan kategori yang berbeza.

Adakah VBench tepat?

Untuk setiap dimensi, kami mengira korelasi antara keputusan penilaian VBench dan keputusan penilaian manual untuk mengesahkan ketekalan kaedah kami dengan persepsi manusia. Dalam rajah di bawah, paksi mendatar mewakili keputusan penilaian manual dalam dimensi yang berbeza, dan paksi menegak menunjukkan hasil penilaian automatik kaedah VBench Ia dapat dilihat bahawa kaedah kami sangat sejajar dengan persepsi manusia dalam semua dimensi.

Pertandingan ujian rangka kerja penjanaan video AI: Pika, Gen-2, ModelScope, SEINE, siapa yang boleh menang?

VBench membawa pemikiran kepada penjanaan video AI

VBench bukan sahaja boleh menilai model sedia ada, tetapi yang lebih penting, ia juga boleh menemui pelbagai masalah yang mungkin wujud dalam model yang berbeza untuk menyediakan AI masa depan Pembangunan video generasi memberikan pandangan yang berharga.

"Ketekalan temporal" dan "Dinamik video": Jangan pilih satu atau yang lain, tetapi perbaiki kedua-duanya

Kami mendapati bahawa ketekalan temporal (seperti Ketekalan Subjek, Ketekalan Latar Belakang) dan Kelancaran Pergerakan video Terdapat hubungan tukar ganti tertentu antara amplitud gerakan (Dasar Dinamik). Sebagai contoh, Show-1 dan VideoCrafter-1.0 menunjukkan prestasi yang sangat baik dari segi konsistensi latar belakang dan kelancaran tindakan, tetapi mendapat markah yang lebih rendah dari segi dinamik ini mungkin kerana menjana gambar "tidak bergerak" lebih berkemungkinan muncul "dalam masa"; Sangat koheren." VideoCrafter-0.9, sebaliknya, lebih lemah pada dimensi yang berkaitan dengan ketekalan masa, tetapi mendapat markah tinggi pada Ijazah Dinamik. 🎜🎜

Ini menunjukkan bahawa memang sukar untuk mencapai "keselarasan temporal" dan "tahap dinamik yang lebih tinggi" pada masa yang sama, kita seharusnya tidak hanya menumpukan pada penambahbaikan satu aspek, tetapi harus meningkatkan "keselarasan temporal" dan "video" kualiti" pada masa yang sama. Ijazah dinamik" kedua-dua aspek ini, ini bermakna.

Nilai mengikut kandungan adegan untuk meneroka potensi setiap model

Sesetengah model mempunyai perbezaan besar dalam prestasi dalam kategori yang berbeza Contohnya, dari segi kualiti estetik (Kualiti Estetik), CogVideo Kategori " ” menunjukkan prestasi yang baik, tetapi mendapat markah yang lebih rendah dalam kategori "Gaya Hidup". Jika data latihan dilaraskan, bolehkah kualiti estetik CogVideo dalam kategori "Gaya Hidup" dipertingkatkan, sekali gus meningkatkan kualiti estetik video keseluruhan model?

Ini juga memberitahu kita bahawa apabila menilai model penjanaan video, kita perlu mempertimbangkan prestasi model di bawah kategori atau topik yang berbeza, meneroka had atas model dalam dimensi keupayaan tertentu, dan kemudian meningkatkan " ketinggalan" kategori adegan.

Kategori dengan gerakan kompleks: prestasi spatiotemporal yang lemah

Kategori dengan kerumitan spatial yang tinggi mempunyai markah yang rendah dalam dimensi kualiti estetik. Sebagai contoh, kategori "Gaya Hidup" mempunyai keperluan yang agak tinggi untuk susun atur elemen kompleks dalam ruang, dan kategori "Manusia" menimbulkan cabaran disebabkan penjanaan struktur berengsel.

Untuk kategori dengan pemasaan yang kompleks, seperti kategori "Manusia", yang biasanya melibatkan tindakan yang kompleks, dan kategori "Kenderaan", yang sering bergerak lebih pantas, mereka mempunyai markah yang agak rendah dalam semua dimensi yang diuji. Ini menunjukkan bahawa model semasa masih mempunyai kekurangan tertentu dalam memproses pemodelan temporal Had pemodelan temporal boleh menyebabkan kekaburan dan herotan spatial, mengakibatkan kualiti video yang tidak memuaskan dalam masa dan ruang.

Sukar untuk menjana kategori: Terdapat sedikit faedah daripada meningkatkan jumlah data

Kami menjalankan statistik pada set data video yang biasa digunakan WebVid-10M dan mendapati bahawa kira-kira 26% daripada data berkaitan dengan "Manusia". Perkadaran tertinggi antara lapan kategori yang kami kira. Walau bagaimanapun, dalam keputusan penilaian, kategori "Manusia" adalah antara yang paling teruk berprestasi antara lapan kategori.

Ini menunjukkan bahawa untuk kategori kompleks seperti "Manusia", hanya menambah jumlah data mungkin tidak membawa peningkatan yang ketara kepada prestasi. Satu kaedah yang berpotensi adalah untuk membimbing pembelajaran model dengan memperkenalkan pengetahuan atau kawalan terdahulu berkaitan "Manusia", seperti Skeletons, dsb. . skor. Oleh itu, kami menganalisis lagi prestasi kualiti estetik bagi kategori kandungan yang berbeza dalam set data WebVid-10M dan mendapati bahawa kategori "Makanan" juga mempunyai skor estetik tertinggi dalam WebVid-10M.

Ini bermakna berdasarkan berjuta-juta data, menapis/meningkatkan kualiti data adalah lebih membantu daripada meningkatkan jumlah data.

Keupayaan untuk dipertingkatkan: Menjana berbilang objek dengan tepat dan hubungan antara objek

Model penjanaan video semasa adalah dalam "Multiple Objects" dan "Spatial Relationship" Dari segi prestasi, ia masih tidak dapat mengejar ketinggalan dengan model penjanaan imej (terutama SDXL), yang menyerlahkan kepentingan meningkatkan keupayaan gabungan. Keupayaan gabungan yang dipanggil merujuk kepada sama ada model boleh memaparkan dengan tepat berbilang objek dalam penjanaan video, serta hubungan ruang dan interaktif antara mereka.

Kaedah yang berpotensi untuk menyelesaikan masalah ini mungkin termasuk:

Pelabelan data: Bina set data video untuk memberikan penerangan yang jelas tentang berbilang objek dalam video, serta penerangan tentang hubungan kedudukan ruang dan interaksi antara objek.

Tambah mod/modul perantaraan semasa proses penjanaan video untuk membantu dalam mengawal gabungan dan kedudukan spatial objek.

    Menggunakan pengekod teks yang lebih baik juga akan memberi kesan yang lebih besar pada keupayaan penjanaan gabungan model.
  • Keluk untuk menyelamatkan negara: serahkan masalah "gabungan objek" yang T2V tidak dapat lakukan dengan baik kepada T2I, dan jana video melalui T2I+I2V. Pendekatan ini juga mungkin berkesan untuk banyak masalah lain dalam penjanaan video.

Atas ialah kandungan terperinci Pertandingan ujian rangka kerja penjanaan video AI: Pika, Gen-2, ModelScope, SEINE, siapa yang boleh menang?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Cara Membuka Segala -galanya Di Myrise
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Cara menyelesaikan MySQL tidak dapat dimulakan Cara menyelesaikan MySQL tidak dapat dimulakan Apr 08, 2025 pm 02:21 PM

Terdapat banyak sebab mengapa permulaan MySQL gagal, dan ia boleh didiagnosis dengan memeriksa log ralat. Penyebab umum termasuk konflik pelabuhan (periksa penghunian pelabuhan dan ubah suai konfigurasi), isu kebenaran (periksa keizinan pengguna yang menjalankan perkhidmatan), ralat fail konfigurasi (periksa tetapan parameter), rasuah direktori data (memulihkan data atau membina semula ruang meja), isu ruang jadual InnoDB (semak fail ibdata1) Apabila menyelesaikan masalah, anda harus menganalisisnya berdasarkan log ralat, cari punca utama masalah, dan mengembangkan tabiat sandaran data secara teratur untuk mencegah dan menyelesaikan masalah.

Bolehkah mysql kembali json Bolehkah mysql kembali json Apr 08, 2025 pm 03:09 PM

MySQL boleh mengembalikan data JSON. Fungsi JSON_EXTRACT mengekstrak nilai medan. Untuk pertanyaan yang kompleks, pertimbangkan untuk menggunakan klausa WHERE untuk menapis data JSON, tetapi perhatikan kesan prestasinya. Sokongan MySQL untuk JSON sentiasa meningkat, dan disyorkan untuk memberi perhatian kepada versi dan ciri terkini.

Memahami sifat asid: tiang pangkalan data yang boleh dipercayai Memahami sifat asid: tiang pangkalan data yang boleh dipercayai Apr 08, 2025 pm 06:33 PM

Penjelasan terperinci mengenai atribut asid asid pangkalan data adalah satu set peraturan untuk memastikan kebolehpercayaan dan konsistensi urus niaga pangkalan data. Mereka menentukan bagaimana sistem pangkalan data mengendalikan urus niaga, dan memastikan integriti dan ketepatan data walaupun dalam hal kemalangan sistem, gangguan kuasa, atau pelbagai pengguna akses serentak. Gambaran keseluruhan atribut asid Atomicity: Transaksi dianggap sebagai unit yang tidak dapat dipisahkan. Mana -mana bahagian gagal, keseluruhan transaksi dilancarkan kembali, dan pangkalan data tidak mengekalkan sebarang perubahan. Sebagai contoh, jika pemindahan bank ditolak dari satu akaun tetapi tidak meningkat kepada yang lain, keseluruhan operasi dibatalkan. Begintransaction; UpdateAcCountSsetBalance = Balance-100Wh

Klausa had SQL Master: Kawal bilangan baris dalam pertanyaan Klausa had SQL Master: Kawal bilangan baris dalam pertanyaan Apr 08, 2025 pm 07:00 PM

Klausa SQLLIMIT: Kawal bilangan baris dalam hasil pertanyaan. Klausa had dalam SQL digunakan untuk mengehadkan bilangan baris yang dikembalikan oleh pertanyaan. Ini sangat berguna apabila memproses set data yang besar, paparan paginat dan data ujian, dan dapat meningkatkan kecekapan pertanyaan dengan berkesan. Sintaks Asas Sintaks: SelectColumn1, Column2, ... FROMTABLE_NAMELIMITNUMBER_OF_ROWS; Number_of_rows: Tentukan bilangan baris yang dikembalikan. Sintaks dengan Offset: SelectColumn1, Column2, ... Fromtable_namelimitoffset, Number_of_rows; Offset: Langkau

Bagaimana untuk mengoptimumkan prestasi MySQL untuk aplikasi beban tinggi? Bagaimana untuk mengoptimumkan prestasi MySQL untuk aplikasi beban tinggi? Apr 08, 2025 pm 06:03 PM

Panduan Pengoptimuman Prestasi Pangkalan Data MySQL Dalam aplikasi yang berintensifkan sumber, pangkalan data MySQL memainkan peranan penting dan bertanggungjawab untuk menguruskan urus niaga besar-besaran. Walau bagaimanapun, apabila skala aplikasi berkembang, kemunculan prestasi pangkalan data sering menjadi kekangan. Artikel ini akan meneroka satu siri strategi pengoptimuman prestasi MySQL yang berkesan untuk memastikan aplikasi anda tetap cekap dan responsif di bawah beban tinggi. Kami akan menggabungkan kes-kes sebenar untuk menerangkan teknologi utama yang mendalam seperti pengindeksan, pengoptimuman pertanyaan, reka bentuk pangkalan data dan caching. 1. Reka bentuk seni bina pangkalan data dan seni bina pangkalan data yang dioptimumkan adalah asas pengoptimuman prestasi MySQL. Berikut adalah beberapa prinsip teras: Memilih jenis data yang betul dan memilih jenis data terkecil yang memenuhi keperluan bukan sahaja dapat menjimatkan ruang penyimpanan, tetapi juga meningkatkan kelajuan pemprosesan data.

Kaedah Navicat untuk melihat kata laluan pangkalan data MongoDB Kaedah Navicat untuk melihat kata laluan pangkalan data MongoDB Apr 08, 2025 pm 09:39 PM

Tidak mustahil untuk melihat kata laluan MongoDB secara langsung melalui Navicat kerana ia disimpan sebagai nilai hash. Cara mendapatkan kata laluan yang hilang: 1. Tetapkan semula kata laluan; 2. Periksa fail konfigurasi (mungkin mengandungi nilai hash); 3. Semak Kod (boleh kata laluan Hardcode).

Kunci utama MySQL boleh menjadi batal Kunci utama MySQL boleh menjadi batal Apr 08, 2025 pm 03:03 PM

Kunci utama MySQL tidak boleh kosong kerana kunci utama adalah atribut utama yang secara unik mengenal pasti setiap baris dalam pangkalan data. Jika kunci utama boleh kosong, rekod tidak dapat dikenal pasti secara unik, yang akan membawa kepada kekeliruan data. Apabila menggunakan lajur integer sendiri atau UUIDs sebagai kunci utama, anda harus mempertimbangkan faktor-faktor seperti kecekapan dan penghunian ruang dan memilih penyelesaian yang sesuai.

Pantau titisan mysql dan Mariadb dengan pengeksport prometheus mysql Pantau titisan mysql dan Mariadb dengan pengeksport prometheus mysql Apr 08, 2025 pm 02:42 PM

Pemantauan yang berkesan terhadap pangkalan data MySQL dan MariaDB adalah penting untuk mengekalkan prestasi yang optimum, mengenal pasti kemungkinan kesesakan, dan memastikan kebolehpercayaan sistem keseluruhan. Pengeksport Prometheus MySQL adalah alat yang berkuasa yang memberikan pandangan terperinci ke dalam metrik pangkalan data yang penting untuk pengurusan proaktif dan penyelesaian masalah.

See all articles