


Video Google AI lagi hebat! VideoPrism, pengekod visual universal semua-dalam-satu, menyegarkan 30 ciri prestasi SOTA
Selepas model video AI Sora menjadi popular, syarikat utama seperti Meta dan Google telah mengetepikan untuk melakukan penyelidikan dan mengejar OpenAI.
Baru-baru ini, penyelidik daripada pasukan Google mencadangkan pengekod video universal - VideoPrism.
Ia boleh mengendalikan pelbagai tugas pemahaman video melalui satu model beku.
Pictures
Alamat kertas: https://arxiv.org/pdf/2402.13217.pdf
Sebagai contoh, VideoPrism boleh mengelaskan dan mengesan orang yang meniup lilin dalam video di bawah.
Gambar
Pengambilan teks video, berdasarkan kandungan teks, kandungan yang sepadan dalam video boleh diambil semula.
Gambar
Untuk contoh lain, huraikan video di bawah - seorang gadis kecil sedang bermain dengan blok bangunan.
Anda juga boleh menjalankan soalan dan jawapan QA.
- Apakah warna blok yang dia letak di atas blok hijau?
- Ungu.
Pictures
Para penyelidik telah melatih VideoPrism pada korpus heterogen yang mengandungi 36 juta pasangan sari kata video berkualiti tinggi dan 582 juta klip video dengan teks selari yang bising (seperti teks transkripsi ASR).
Perlu dinyatakan bahawa VideoPrism menyegarkan 30 SOTA dalam 33 ujian penanda aras pemahaman video. .
Walaupun penyelidikan terdahulu telah mencapai kemajuan besar dalam pemahaman video umum, membina "model video asas" yang sebenar masih merupakan matlamat yang sukar difahami. Sebagai tindak balas, Google melancarkan VideoPrism, pengekod visual tujuan umum yang direka untuk menyelesaikan pelbagai tugas pemahaman video, termasuk pengelasan, penyetempatan, pengambilan semula, sari kata dan menjawab soalan (QA).
Struktur reka bentuk, kaedah latihan dua peringkat
Konsep reka bentuk di sebalik VideoPrism adalah seperti berikut.
Data pra-latihan ialah asas model asas (FM) Data pra-latihan yang ideal untuk ViFM ialah sampel yang mewakili semua video di dunia. Dalam sampel ini, kebanyakan video tidak mempunyai teks selari yang menerangkan kandungan.
Gambar
Dari segi pemodelan, pengarang mula-mula mempelajari secara perbandingan pembenaman video semantik daripada semua pasangan teks video dengan kualiti yang berbeza.
Pembenaman semantik kemudiannya di peringkat global dan dilabel diperhalusi menggunakan data video tulen yang meluas, menambah baik pemodelan video bertopeng yang diterangkan di bawah.
Walaupun berjaya dalam bahasa semula jadi, pemodelan data bertopeng kekal mencabar untuk CV kerana kekurangan semantik dalam isyarat visual mentah.
Penyelidikan sedia ada menggabungkan kadar penyamaran yang tinggi dan ringan dengan meminjam semantik tidak langsung (seperti menggunakan CLIP untuk membimbing model atau tokenizer, atau semantik tersirat untuk menangani cabaran ini) atau menyamaratakan secara tersirat (seperti melabelkan tompok visual) gabungan dekoder.
Berdasarkan idea di atas, pasukan Google menggunakan pendekatan dua peringkat berdasarkan data pra-latihan.
Gambar
Pada peringkat pertama, pembelajaran kontrastif dilakukan untuk menjajarkan pengekod video dengan pengekod teks menggunakan semua pasangan teks video.
Berdasarkan penyelidikan terdahulu, pasukan Google meminimumkan skor persamaan semua pasangan teks video dalam kelompok, melakukan pengecilan kehilangan rentas entropi simetri.
Dan gunakan model imej CoCa untuk memulakan modul pengekodan spatial dan memasukkan WebLI ke dalam pra-latihan.
Sebelum mengira kerugian, ciri pengekod video diagregatkan melalui pengumpulan perhatian berbilang kepala (MAP).
Peringkat ini membolehkan pengekod video mempelajari semantik visual yang kaya daripada penyeliaan linguistik, dan model yang dihasilkan menyediakan pembenaman video semantik untuk latihan peringkat kedua.
Gambar
Di peringkat kedua, pengekod terus dilatih dan dua penambahbaikan dibuat:
- Model perlu meramalkan pembenaman global peringkat video dan token peringkat pertama berdasarkan video input yang tidak bertopeng patch Embedding
- Token output pengekod dikocok secara rawak sebelum dihantar ke penyahkod untuk mengelakkan pintasan pembelajaran.
Terutamanya, pra-latihan penyelidik memanfaatkan dua isyarat penyeliaan: penerangan tekstual video dan penyeliaan kendiri kontekstual, yang membolehkan VideoPrism berprestasi baik pada tugasan penampilan dan aksi.
Malah, kajian terdahulu menunjukkan bahawa kapsyen video terutamanya mendedahkan petunjuk penampilan, manakala penyeliaan kontekstual membantu mempelajari tindakan. .
Terbahagi terutamanya kepada empat kategori berikut: (1) Secara amnya hanya pemahaman video, termasuk pengelasan dan kedudukan spatiotemporal
(4 ) Tugasan CV dalam sains Klasifikasi dan penyetempatan spatiotemporal Jadual 2 menunjukkan keputusan tulang belakang beku pada VideoGLUE. VideoPrism dengan ketara mengatasi garis dasar pada semua set data. Tambahan pula, meningkatkan saiz model asas VideoPrism daripada ViT-B kepada ViT-g dengan ketara meningkatkan prestasi. Perlu diingat bahawa tiada kaedah garis dasar mencapai hasil kedua terbaik merentas semua penanda aras, menunjukkan bahawa kaedah sebelumnya mungkin telah dibangunkan untuk menyasarkan aspek pemahaman video tertentu. Dan VideoPrism terus menambah baik dalam pelbagai tugasan ini. Hasil ini menunjukkan bahawa VideoPrism menyepadukan pelbagai isyarat video ke dalam satu pengekod: semantik pada pelbagai butiran, penampilan dan isyarat gerakan, maklumat spatiotemporal dan keteguhan kepada sumber video yang berbeza (seperti video dalam talian dan persembahan berskrip) .
Imej
Pendapatan dan pengelasan teks video tangkapan sifar
Jadual 3 dan Jadual 4 masing-masing meringkaskan hasil perolehan teks video dan klasifikasi video.
Prestasi VideoPrism menyegarkan berbilang penanda aras, dan pada set data yang mencabar, VideoPrism telah mencapai peningkatan yang sangat ketara berbanding dengan teknologi sebelumnya.
Gambar
Kebanyakan hasil untuk model asas VideoPrism-B sebenarnya mengatasi model berskala lebih besar sedia ada.
Tambahan pula, VideoPrism adalah setanding atau lebih baik daripada model dalam Jadual 4 yang dipralatih menggunakan data dalam domain dan modaliti tambahan (cth. audio). Penambahbaikan dalam pengambilan sifar dan tugas klasifikasi ini mencerminkan keupayaan generalisasi VideoPrism yang berkuasa.
Gambar
Sari kata video sampel sifar dan semakan kualiti
Jadual 5 dan Jadual 6 menunjukkan, masing-masing, keputusan sari kata video sampel sifar dan QA.
Walaupun seni bina model yang ringkas dan bilangan parameter penyesuai yang kecil, model terkini masih kompetitif dan, kecuali VATEX, berada di kedudukan antara kaedah teratas untuk membekukan model visual dan bahasa.
Hasilnya menunjukkan bahawa pengekod VideoPrism membuat generalisasi dengan baik kepada tugas penjanaan video ke pertuturan.
Gambar
Tugas CV dalam domain saintifik
Universal ViFM menggunakan pengekod beku dikongsi merentas semua penilaian, dengan prestasi yang setanding dengan model khusus domain yang dikhususkan untuk satu tugasan.
Khususnya, VideoPrism selalunya menunjukkan prestasi terbaik dan mengatasi model pakar domain dengan model skala asas.
Penskalaan kepada model berskala besar boleh meningkatkan lagi prestasi pada semua set data. Keputusan ini menunjukkan bahawa ViFM mempunyai potensi untuk mempercepatkan analisis video dengan ketara dalam bidang yang berbeza.
Kajian Ablasi
Rajah 4 menunjukkan keputusan ablasi. Terutamanya, penambahbaikan berterusan VideoPrism pada SSv2 menunjukkan keberkesanan pengurusan data dan usaha reka bentuk model dalam mempromosikan pemahaman gerakan dalam video.
Walaupun garis dasar perbandingan sudah mencapai keputusan yang kompetitif pada K400, penyulingan global yang dicadangkan dan shuffling token meningkatkan lagi ketepatan.
Gambar
Rujukan:
https://arxiv.org/pdf/2402.13217.pdf
https://blog.research.google/2024 .html
Atas ialah kandungan terperinci Video Google AI lagi hebat! VideoPrism, pengekod visual universal semua-dalam-satu, menyegarkan 30 ciri prestasi SOTA. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Cecair memproses 7 juta rekod dan membuat peta interaktif dengan teknologi geospatial. Artikel ini meneroka cara memproses lebih dari 7 juta rekod menggunakan Laravel dan MySQL dan mengubahnya menjadi visualisasi peta interaktif. Keperluan Projek Cabaran Awal: Ekstrak Wawasan berharga menggunakan 7 juta rekod dalam pangkalan data MySQL. Ramai orang mula -mula mempertimbangkan bahasa pengaturcaraan, tetapi mengabaikan pangkalan data itu sendiri: Bolehkah ia memenuhi keperluan? Adakah penghijrahan data atau pelarasan struktur diperlukan? Bolehkah MySQL menahan beban data yang besar? Analisis awal: Penapis utama dan sifat perlu dikenalpasti. Selepas analisis, didapati bahawa hanya beberapa atribut yang berkaitan dengan penyelesaiannya. Kami mengesahkan kemungkinan penapis dan menetapkan beberapa sekatan untuk mengoptimumkan carian. Carian Peta Berdasarkan Bandar

Untuk menetapkan masa untuk Vue Axios, kita boleh membuat contoh Axios dan menentukan pilihan masa tamat: dalam tetapan global: vue.prototype. $ Axios = axios.create ({timeout: 5000}); Dalam satu permintaan: ini. $ axios.get ('/api/pengguna', {timeout: 10000}).

Terdapat banyak sebab mengapa permulaan MySQL gagal, dan ia boleh didiagnosis dengan memeriksa log ralat. Penyebab umum termasuk konflik pelabuhan (periksa penghunian pelabuhan dan ubah suai konfigurasi), isu kebenaran (periksa keizinan pengguna yang menjalankan perkhidmatan), ralat fail konfigurasi (periksa tetapan parameter), rasuah direktori data (memulihkan data atau membina semula ruang meja), isu ruang jadual InnoDB (semak fail ibdata1) Apabila menyelesaikan masalah, anda harus menganalisisnya berdasarkan log ralat, cari punca utama masalah, dan mengembangkan tabiat sandaran data secara teratur untuk mencegah dan menyelesaikan masalah.

Artikel ini memperkenalkan operasi pangkalan data MySQL. Pertama, anda perlu memasang klien MySQL, seperti MySqlworkbench atau Command Line Client. 1. Gunakan perintah MySQL-Uroot-P untuk menyambung ke pelayan dan log masuk dengan kata laluan akaun root; 2. Gunakan CreateTatabase untuk membuat pangkalan data, dan gunakan Pilih pangkalan data; 3. Gunakan createtable untuk membuat jadual, menentukan medan dan jenis data; 4. Gunakan InsertInto untuk memasukkan data, data pertanyaan, kemas kini data dengan kemas kini, dan padam data dengan padam. Hanya dengan menguasai langkah -langkah ini, belajar menangani masalah biasa dan mengoptimumkan prestasi pangkalan data anda boleh menggunakan MySQL dengan cekap.

Jurutera Backend Senior Remote Company Kekosongan Syarikat: Lokasi Lokasi: Jauh Pejabat Jauh Jenis: Gaji sepenuh masa: $ 130,000- $ 140,000 Penerangan Pekerjaan Mengambil bahagian dalam penyelidikan dan pembangunan aplikasi mudah alih Circle dan ciri-ciri berkaitan API awam yang meliputi keseluruhan kitaran hayat pembangunan perisian. Tanggungjawab utama kerja pembangunan secara bebas berdasarkan rubyonrails dan bekerjasama dengan pasukan react/redux/relay front-end. Membina fungsi teras dan penambahbaikan untuk aplikasi web dan bekerjasama rapat dengan pereka dan kepimpinan sepanjang proses reka bentuk berfungsi. Menggalakkan proses pembangunan positif dan mengutamakan kelajuan lelaran. Memerlukan lebih daripada 6 tahun backend aplikasi web kompleks

MySQL boleh mengembalikan data JSON. Fungsi JSON_EXTRACT mengekstrak nilai medan. Untuk pertanyaan yang kompleks, pertimbangkan untuk menggunakan klausa WHERE untuk menapis data JSON, tetapi perhatikan kesan prestasinya. Sokongan MySQL untuk JSON sentiasa meningkat, dan disyorkan untuk memberi perhatian kepada versi dan ciri terkini.

Penjelasan terperinci mengenai atribut asid asid pangkalan data adalah satu set peraturan untuk memastikan kebolehpercayaan dan konsistensi urus niaga pangkalan data. Mereka menentukan bagaimana sistem pangkalan data mengendalikan urus niaga, dan memastikan integriti dan ketepatan data walaupun dalam hal kemalangan sistem, gangguan kuasa, atau pelbagai pengguna akses serentak. Gambaran keseluruhan atribut asid Atomicity: Transaksi dianggap sebagai unit yang tidak dapat dipisahkan. Mana -mana bahagian gagal, keseluruhan transaksi dilancarkan kembali, dan pangkalan data tidak mengekalkan sebarang perubahan. Sebagai contoh, jika pemindahan bank ditolak dari satu akaun tetapi tidak meningkat kepada yang lain, keseluruhan operasi dibatalkan. Begintransaction; UpdateAcCountSsetBalance = Balance-100Wh

Kunci utama MySQL tidak boleh kosong kerana kunci utama adalah atribut utama yang secara unik mengenal pasti setiap baris dalam pangkalan data. Jika kunci utama boleh kosong, rekod tidak dapat dikenal pasti secara unik, yang akan membawa kepada kekeliruan data. Apabila menggunakan lajur integer sendiri atau UUIDs sebagai kunci utama, anda harus mempertimbangkan faktor-faktor seperti kecekapan dan penghunian ruang dan memilih penyelesaian yang sesuai.
