Video Google AI lagi hebat! VideoPrism, pengekod visual universal semua-dalam-satu, menyegarkan 30 ciri prestasi SOTA-AI-php.cn

Jadual Kandungan

Pendapatan dan pengelasan teks video tangkapan sifar

Sari kata video sampel sifar dan semakan kualiti

Kajian Ablasi

Rujukan:

Rumah

Peranti teknologi

Video Google AI lagi hebat! VideoPrism, pengekod visual universal semua-dalam-satu, menyegarkan 30 ciri prestasi SOTA

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Feb 26, 2024 am 09:58 AM

Google ai Set data

Selepas model video AI Sora menjadi popular, syarikat utama seperti Meta dan Google telah mengetepikan untuk melakukan penyelidikan dan mengejar OpenAI.

Baru-baru ini, penyelidik daripada pasukan Google mencadangkan pengekod video universal - VideoPrism.

Ia boleh mengendalikan pelbagai tugas pemahaman video melalui satu model beku.

Video Google AI lagi hebat! VideoPrism, pengekod visual universal semua-dalam-satu, menyegarkan 30 ciri prestasi SOTA Pictures

Alamat kertas: https://arxiv.org/pdf/2402.13217.pdf

Sebagai contoh, VideoPrism boleh mengelaskan dan mengesan orang yang meniup lilin dalam video di bawah.

Video Google AI lagi hebat! VideoPrism, pengekod visual universal semua-dalam-satu, menyegarkan 30 ciri prestasi SOTA Gambar

Pengambilan teks video, berdasarkan kandungan teks, kandungan yang sepadan dalam video boleh diambil semula.

Video Google AI lagi hebat! VideoPrism, pengekod visual universal semua-dalam-satu, menyegarkan 30 ciri prestasi SOTA Gambar

Untuk contoh lain, huraikan video di bawah - seorang gadis kecil sedang bermain dengan blok bangunan.

Anda juga boleh menjalankan soalan dan jawapan QA.

- Apakah warna blok yang dia letak di atas blok hijau?

- Ungu.

Video Google AI lagi hebat! VideoPrism, pengekod visual universal semua-dalam-satu, menyegarkan 30 ciri prestasi SOTA Pictures

Para penyelidik telah melatih VideoPrism pada korpus heterogen yang mengandungi 36 juta pasangan sari kata video berkualiti tinggi dan 582 juta klip video dengan teks selari yang bising (seperti teks transkripsi ASR).

Perlu dinyatakan bahawa VideoPrism menyegarkan 30 SOTA dalam 33 ujian penanda aras pemahaman video. .

Walaupun penyelidikan terdahulu telah mencapai kemajuan besar dalam pemahaman video umum, membina "model video asas" yang sebenar masih merupakan matlamat yang sukar difahami. Video Google AI lagi hebat! VideoPrism, pengekod visual universal semua-dalam-satu, menyegarkan 30 ciri prestasi SOTA Sebagai tindak balas, Google melancarkan VideoPrism, pengekod visual tujuan umum yang direka untuk menyelesaikan pelbagai tugas pemahaman video, termasuk pengelasan, penyetempatan, pengambilan semula, sari kata dan menjawab soalan (QA).

VideoPrism dinilai secara meluas pada set data CV, serta tugas CV dalam bidang saintifik seperti neurosains dan ekologi.

Mencapai prestasi terkini dengan kecergasan minimum dengan menggunakan model beku tunggal.

Selain itu, penyelidik Google mengatakan bahawa tetapan pengekod beku ini pada masa yang sama mengikuti penyelidikan terdahulu dan mengambil kira kepraktisan praktikalnya, serta kos pengiraan yang tinggi dan penalaan halus model video.

Gambar

Struktur reka bentuk, kaedah latihan dua peringkat

Konsep reka bentuk di sebalik VideoPrism adalah seperti berikut.

Data pra-latihan ialah asas model asas (FM) Data pra-latihan yang ideal untuk ViFM ialah sampel yang mewakili semua video di dunia. Video Google AI lagi hebat! VideoPrism, pengekod visual universal semua-dalam-satu, menyegarkan 30 ciri prestasi SOTA Dalam sampel ini, kebanyakan video tidak mempunyai teks selari yang menerangkan kandungan.

Walau bagaimanapun, jika dilatih mengenai teks sedemikian, ia boleh memberikan petunjuk semantik yang tidak ternilai tentang ruang video.

Oleh itu, strategi pra-latihan Google harus memberi tumpuan terutamanya pada mod video sambil menggunakan sepenuhnya mana-mana pasangan teks video yang tersedia.

Dari segi data, penyelidik Google menganggarkan pra-latihan yang diperlukan dengan mengumpulkan 36 juta pasangan sari kata video berkualiti tinggi dan 582 juta klip video dengan teks selari yang bising (seperti transkripsi ASR, sari kata yang dijana dan teks yang diambil) korpus.

Gambar

Video Google AI lagi hebat! VideoPrism, pengekod visual universal semua-dalam-satu, menyegarkan 30 ciri prestasi SOTA Gambar

Dari segi pemodelan, pengarang mula-mula mempelajari secara perbandingan pembenaman video semantik daripada semua pasangan teks video dengan kualiti yang berbeza.

Pembenaman semantik kemudiannya di peringkat global dan dilabel diperhalusi menggunakan data video tulen yang meluas, menambah baik pemodelan video bertopeng yang diterangkan di bawah.

Walaupun berjaya dalam bahasa semula jadi, pemodelan data bertopeng kekal mencabar untuk CV kerana kekurangan semantik dalam isyarat visual mentah.

Penyelidikan sedia ada menggabungkan kadar penyamaran yang tinggi dan ringan dengan meminjam semantik tidak langsung (seperti menggunakan CLIP untuk membimbing model atau tokenizer, atau semantik tersirat untuk menangani cabaran ini) atau menyamaratakan secara tersirat (seperti melabelkan tompok visual) gabungan dekoder.

Berdasarkan idea di atas, pasukan Google menggunakan pendekatan dua peringkat berdasarkan data pra-latihan.

Video Google AI lagi hebat! VideoPrism, pengekod visual universal semua-dalam-satu, menyegarkan 30 ciri prestasi SOTA Gambar

Pada peringkat pertama, pembelajaran kontrastif dilakukan untuk menjajarkan pengekod video dengan pengekod teks menggunakan semua pasangan teks video.

Berdasarkan penyelidikan terdahulu, pasukan Google meminimumkan skor persamaan semua pasangan teks video dalam kelompok, melakukan pengecilan kehilangan rentas entropi simetri.

Dan gunakan model imej CoCa untuk memulakan modul pengekodan spatial dan memasukkan WebLI ke dalam pra-latihan.

Sebelum mengira kerugian, ciri pengekod video diagregatkan melalui pengumpulan perhatian berbilang kepala (MAP).

Peringkat ini membolehkan pengekod video mempelajari semantik visual yang kaya daripada penyeliaan linguistik, dan model yang dihasilkan menyediakan pembenaman video semantik untuk latihan peringkat kedua.

Video Google AI lagi hebat! VideoPrism, pengekod visual universal semua-dalam-satu, menyegarkan 30 ciri prestasi SOTA Gambar

Di peringkat kedua, pengekod terus dilatih dan dua penambahbaikan dibuat:

- Model perlu meramalkan pembenaman global peringkat video dan token peringkat pertama berdasarkan video input yang tidak bertopeng patch Embedding

- Token output pengekod dikocok secara rawak sebelum dihantar ke penyahkod untuk mengelakkan pintasan pembelajaran.

Terutamanya, pra-latihan penyelidik memanfaatkan dua isyarat penyeliaan: penerangan tekstual video dan penyeliaan kendiri kontekstual, yang membolehkan VideoPrism berprestasi baik pada tugasan penampilan dan aksi.

Malah, kajian terdahulu menunjukkan bahawa kapsyen video terutamanya mendedahkan petunjuk penampilan, manakala penyeliaan kontekstual membantu mempelajari tindakan. .

Terbahagi terutamanya kepada empat kategori berikut: Video Google AI lagi hebat! VideoPrism, pengekod visual universal semua-dalam-satu, menyegarkan 30 ciri prestasi SOTA (1) Secara amnya hanya pemahaman video, termasuk pengelasan dan kedudukan spatiotemporal

(2) Dapatkan semula teks video tangkapan sifar

(3) Sari kata video tangkapan sifar dan pemeriksaan kualiti

(4 ) Tugasan CV dalam sains

Klasifikasi dan penyetempatan spatiotemporal

Jadual 2 menunjukkan keputusan tulang belakang beku pada VideoGLUE.

VideoPrism dengan ketara mengatasi garis dasar pada semua set data. Tambahan pula, meningkatkan saiz model asas VideoPrism daripada ViT-B kepada ViT-g dengan ketara meningkatkan prestasi.

Perlu diingat bahawa tiada kaedah garis dasar mencapai hasil kedua terbaik merentas semua penanda aras, menunjukkan bahawa kaedah sebelumnya mungkin telah dibangunkan untuk menyasarkan aspek pemahaman video tertentu.

Dan VideoPrism terus menambah baik dalam pelbagai tugasan ini.

Hasil ini menunjukkan bahawa VideoPrism menyepadukan pelbagai isyarat video ke dalam satu pengekod: semantik pada pelbagai butiran, penampilan dan isyarat gerakan, maklumat spatiotemporal dan keteguhan kepada sumber video yang berbeza (seperti video dalam talian dan persembahan berskrip) .

Video Google AI lagi hebat! VideoPrism, pengekod visual universal semua-dalam-satu, menyegarkan 30 ciri prestasi SOTA Imej

Pendapatan dan pengelasan teks video tangkapan sifar

Jadual 3 dan Jadual 4 masing-masing meringkaskan hasil perolehan teks video dan klasifikasi video.

Prestasi VideoPrism menyegarkan berbilang penanda aras, dan pada set data yang mencabar, VideoPrism telah mencapai peningkatan yang sangat ketara berbanding dengan teknologi sebelumnya.

Video Google AI lagi hebat! VideoPrism, pengekod visual universal semua-dalam-satu, menyegarkan 30 ciri prestasi SOTA Gambar

Kebanyakan hasil untuk model asas VideoPrism-B sebenarnya mengatasi model berskala lebih besar sedia ada.

Tambahan pula, VideoPrism adalah setanding atau lebih baik daripada model dalam Jadual 4 yang dipralatih menggunakan data dalam domain dan modaliti tambahan (cth. audio). Penambahbaikan dalam pengambilan sifar dan tugas klasifikasi ini mencerminkan keupayaan generalisasi VideoPrism yang berkuasa.

Video Google AI lagi hebat! VideoPrism, pengekod visual universal semua-dalam-satu, menyegarkan 30 ciri prestasi SOTA Gambar

Sari kata video sampel sifar dan semakan kualiti

Jadual 5 dan Jadual 6 menunjukkan, masing-masing, keputusan sari kata video sampel sifar dan QA.

Walaupun seni bina model yang ringkas dan bilangan parameter penyesuai yang kecil, model terkini masih kompetitif dan, kecuali VATEX, berada di kedudukan antara kaedah teratas untuk membekukan model visual dan bahasa.

Hasilnya menunjukkan bahawa pengekod VideoPrism membuat generalisasi dengan baik kepada tugas penjanaan video ke pertuturan.

Video Google AI lagi hebat! VideoPrism, pengekod visual universal semua-dalam-satu, menyegarkan 30 ciri prestasi SOTA Gambar

Tugas CV dalam domain saintifik

Universal ViFM menggunakan pengekod beku dikongsi merentas semua penilaian, dengan prestasi yang setanding dengan model khusus domain yang dikhususkan untuk satu tugasan.

Khususnya, VideoPrism selalunya menunjukkan prestasi terbaik dan mengatasi model pakar domain dengan model skala asas.

Penskalaan kepada model berskala besar boleh meningkatkan lagi prestasi pada semua set data. Keputusan ini menunjukkan bahawa ViFM mempunyai potensi untuk mempercepatkan analisis video dengan ketara dalam bidang yang berbeza.

Video Google AI lagi hebat! VideoPrism, pengekod visual universal semua-dalam-satu, menyegarkan 30 ciri prestasi SOTA

Kajian Ablasi

Rajah 4 menunjukkan keputusan ablasi. Terutamanya, penambahbaikan berterusan VideoPrism pada SSv2 menunjukkan keberkesanan pengurusan data dan usaha reka bentuk model dalam mempromosikan pemahaman gerakan dalam video.

Walaupun garis dasar perbandingan sudah mencapai keputusan yang kompetitif pada K400, penyulingan global yang dicadangkan dan shuffling token meningkatkan lagi ketepatan.

Video Google AI lagi hebat! VideoPrism, pengekod visual universal semua-dalam-satu, menyegarkan 30 ciri prestasi SOTA Gambar

Rujukan:

https://arxiv.org/pdf/2402.13217.pdf

https://blog.research.google/2024 .html

Atas ialah kandungan terperinci Video Google AI lagi hebat! VideoPrism, pengekod visual universal semua-dalam-satu, menyegarkan 30 ciri prestasi SOTA. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

2 minggu yang lalu By DDD

R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Cara Membuka Segala -galanya Di Myrise

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7467

Tutorial CakePHP

1376

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi

Related knowledge

Geospatial Laravel: Pengoptimuman peta interaktif dan sejumlah besar data Apr 08, 2025 pm 12:24 PM

Cecair memproses 7 juta rekod dan membuat peta interaktif dengan teknologi geospatial. Artikel ini meneroka cara memproses lebih dari 7 juta rekod menggunakan Laravel dan MySQL dan mengubahnya menjadi visualisasi peta interaktif. Keperluan Projek Cabaran Awal: Ekstrak Wawasan berharga menggunakan 7 juta rekod dalam pangkalan data MySQL. Ramai orang mula -mula mempertimbangkan bahasa pengaturcaraan, tetapi mengabaikan pangkalan data itu sendiri: Bolehkah ia memenuhi keperluan? Adakah penghijrahan data atau pelarasan struktur diperlukan? Bolehkah MySQL menahan beban data yang besar? Analisis awal: Penapis utama dan sifat perlu dikenalpasti. Selepas analisis, didapati bahawa hanya beberapa atribut yang berkaitan dengan penyelesaiannya. Kami mengesahkan kemungkinan penapis dan menetapkan beberapa sekatan untuk mengoptimumkan carian. Carian Peta Berdasarkan Bandar

Cara menetapkan masa tamat vue axios Apr 07, 2025 pm 10:03 PM

Untuk menetapkan masa untuk Vue Axios, kita boleh membuat contoh Axios dan menentukan pilihan masa tamat: dalam tetapan global: vue.prototype. $ Axios = axios.create ({timeout: 5000}); Dalam satu permintaan: ini. $ axios.get ('/api/pengguna', {timeout: 10000}).

Cara menyelesaikan MySQL tidak dapat dimulakan Apr 08, 2025 pm 02:21 PM

Terdapat banyak sebab mengapa permulaan MySQL gagal, dan ia boleh didiagnosis dengan memeriksa log ralat. Penyebab umum termasuk konflik pelabuhan (periksa penghunian pelabuhan dan ubah suai konfigurasi), isu kebenaran (periksa keizinan pengguna yang menjalankan perkhidmatan), ralat fail konfigurasi (periksa tetapan parameter), rasuah direktori data (memulihkan data atau membina semula ruang meja), isu ruang jadual InnoDB (semak fail ibdata1) Apabila menyelesaikan masalah, anda harus menganalisisnya berdasarkan log ralat, cari punca utama masalah, dan mengembangkan tabiat sandaran data secara teratur untuk mencegah dan menyelesaikan masalah.

Cara Menggunakan MySQL Selepas Pemasangan Apr 08, 2025 am 11:48 AM

Artikel ini memperkenalkan operasi pangkalan data MySQL. Pertama, anda perlu memasang klien MySQL, seperti MySqlworkbench atau Command Line Client. 1. Gunakan perintah MySQL-Uroot-P untuk menyambung ke pelayan dan log masuk dengan kata laluan akaun root; 2. Gunakan CreateTatabase untuk membuat pangkalan data, dan gunakan Pilih pangkalan data; 3. Gunakan createtable untuk membuat jadual, menentukan medan dan jenis data; 4. Gunakan InsertInto untuk memasukkan data, data pertanyaan, kemas kini data dengan kemas kini, dan padam data dengan padam. Hanya dengan menguasai langkah -langkah ini, belajar menangani masalah biasa dan mengoptimumkan prestasi pangkalan data anda boleh menggunakan MySQL dengan cekap.

Jurutera Backend Senior Remote (Platform) memerlukan kalangan Apr 08, 2025 pm 12:27 PM

Jurutera Backend Senior Remote Company Kekosongan Syarikat: Lokasi Lokasi: Jauh Pejabat Jauh Jenis: Gaji sepenuh masa: $ 130,000- $ 140,000 Penerangan Pekerjaan Mengambil bahagian dalam penyelidikan dan pembangunan aplikasi mudah alih Circle dan ciri-ciri berkaitan API awam yang meliputi keseluruhan kitaran hayat pembangunan perisian. Tanggungjawab utama kerja pembangunan secara bebas berdasarkan rubyonrails dan bekerjasama dengan pasukan react/redux/relay front-end. Membina fungsi teras dan penambahbaikan untuk aplikasi web dan bekerjasama rapat dengan pereka dan kepimpinan sepanjang proses reka bentuk berfungsi. Menggalakkan proses pembangunan positif dan mengutamakan kelajuan lelaran. Memerlukan lebih daripada 6 tahun backend aplikasi web kompleks

Bolehkah mysql kembali json Apr 08, 2025 pm 03:09 PM

MySQL boleh mengembalikan data JSON. Fungsi JSON_EXTRACT mengekstrak nilai medan. Untuk pertanyaan yang kompleks, pertimbangkan untuk menggunakan klausa WHERE untuk menapis data JSON, tetapi perhatikan kesan prestasinya. Sokongan MySQL untuk JSON sentiasa meningkat, dan disyorkan untuk memberi perhatian kepada versi dan ciri terkini.

Memahami sifat asid: tiang pangkalan data yang boleh dipercayai Apr 08, 2025 pm 06:33 PM

Penjelasan terperinci mengenai atribut asid asid pangkalan data adalah satu set peraturan untuk memastikan kebolehpercayaan dan konsistensi urus niaga pangkalan data. Mereka menentukan bagaimana sistem pangkalan data mengendalikan urus niaga, dan memastikan integriti dan ketepatan data walaupun dalam hal kemalangan sistem, gangguan kuasa, atau pelbagai pengguna akses serentak. Gambaran keseluruhan atribut asid Atomicity: Transaksi dianggap sebagai unit yang tidak dapat dipisahkan. Mana -mana bahagian gagal, keseluruhan transaksi dilancarkan kembali, dan pangkalan data tidak mengekalkan sebarang perubahan. Sebagai contoh, jika pemindahan bank ditolak dari satu akaun tetapi tidak meningkat kepada yang lain, keseluruhan operasi dibatalkan. Begintransaction; UpdateAcCountSsetBalance = Balance-100Wh

Kunci utama MySQL boleh menjadi batal Apr 08, 2025 pm 03:03 PM

Kunci utama MySQL tidak boleh kosong kerana kunci utama adalah atribut utama yang secara unik mengenal pasti setiap baris dalam pangkalan data. Jika kunci utama boleh kosong, rekod tidak dapat dikenal pasti secara unik, yang akan membawa kepada kekeliruan data. Apabila menggunakan lajur integer sendiri atau UUIDs sebagai kunci utama, anda harus mempertimbangkan faktor-faktor seperti kecekapan dan penghunian ruang dan memilih penyelesaian yang sesuai.

See all articles