


Skala kecil, kecekapan tinggi: DeepMind melancarkan penyelesaian berbilang modal Mirasol 3B
Salah satu cabaran utama yang dihadapi pembelajaran pelbagai mod ialah keperluan untuk menggabungkan modaliti heterogen seperti teks, audio dan model video perlu menggabungkan isyarat daripada sumber yang berbeza. Walau bagaimanapun, modaliti ini mempunyai ciri yang berbeza dan sukar untuk digabungkan melalui satu model. Sebagai contoh, video dan teks mempunyai kadar pensampelan yang berbeza
Baru-baru ini, pasukan penyelidik daripada Google DeepMind telah mengasingkan model berbilang modal kepada berbilang model autoregresif bebas dan khusus untuk diproses mengikut ciri pelbagai modaliti yang dimasukkan.
Secara khusus, kajian ini mencadangkan model multimodal yang dipanggil Mirasol3B. Mirasol3B terdiri daripada komponen autoregresif audio dan video yang disegerakkan masa serta komponen autoregresif untuk modaliti kontekstual. Modaliti ini tidak semestinya diselaraskan secara sementara, tetapi disusun secara berurutan
Alamat kertas: https://arxiv.org/abs/2311.05698
peringkat penanda aras yang lebih besar dalam model yang lebih besar. Dengan mempelajari perwakilan yang lebih padat, mengawal panjang jujukan perwakilan ciri audio-video, dan pemodelan berdasarkan surat-menyurat temporal, Mirasol3B dapat memenuhi keperluan pengiraan tinggi input berbilang modal dengan berkesan.
Pengenalan Kaedah
Mirasol3B ialah model multimodal teks audio-video di mana pemodelan autoregresif dipisahkan kepada komponen autoregresif untuk modaliti sejajar masa (cth. audio, video) dan komponen bukan autoregresif modaliti kontekstual yang dijajarkan secara sementara (cth., teks). Mirasol3B menggunakan pemberat perhatian silang untuk menyelaraskan proses pembelajaran komponen ini. Penyahgandingan ini menjadikan pengedaran parameter dalam model lebih munasabah, memperuntukkan kapasiti yang mencukupi kepada modaliti (video dan audio), dan menjadikan model keseluruhan lebih ringan.
Seperti yang ditunjukkan dalam Rajah 1, Mirasol3B terdiri daripada dua komponen pembelajaran utama: komponen autoregresif dan komponen gabungan input. Antaranya, komponen autoregresif direka untuk mengendalikan input berbilang mod yang hampir serentak seperti video dan audio untuk kombinasi input yang tepat pada masanya tukar bahasa ke cina. Kajian ini mencadangkan untuk membahagikan modaliti yang dijajarkan secara sementara ke dalam segmen masa dan mempelajari perwakilan bersama audio-video dalam segmen masa. Secara khusus, penyelidikan ini mencadangkan mekanisme pembelajaran ciri bersama modal yang dipanggil "Combiner". "Combiner" menggabungkan ciri modal dalam tempoh masa yang sama untuk menjana perwakilan yang lebih padat
"Penggabung" dengan berkesan memenuhi keperluan perwakilan modal untuk menjadi cekap dan bermaklumat. Ia boleh merangkumi sepenuhnya acara dan aktiviti dalam video dan modaliti serentak lain, dan boleh digunakan dalam model autoregresif berikutnya untuk mempelajari kebergantungan jangka panjang.
Untuk memproses isyarat video dan audio dan menyesuaikan diri dengan input video/audio yang lebih panjang, ia dibahagikan kepada (kira-kira disegerakkan dalam masa) kepingan kecil, dan kemudian perwakilan audio-visual bersama dipelajari melalui "Combiner" . Komponen kedua mengendalikan konteks, atau isyarat tidak sejajar sementara seperti maklumat teks global, yang selalunya masih berterusan. Ia juga autoregresif dan menggunakan ruang terpendam gabungan sebagai input perhatian silang.
Komponen pembelajaran mengandungi video dan audio, dan parameternya ialah 3B manakala komponen tanpa audio ialah 2.9B. Antaranya, kebanyakan parameter digunakan dalam model autoregresif audio dan video. Mirasol3B biasanya memproses video 128 bingkai, dan juga boleh memproses video yang lebih panjang, seperti 512 bingkai Disebabkan reka bentuk partition dan seni bina model "Combiner", menambah lebih banyak bingkai atau meningkatkan saiz dan bilangan blok, dsb., hanya Parameter akan ditingkatkan sedikit, yang menyelesaikan masalah bahawa video yang lebih panjang memerlukan lebih banyak parameter dan memori yang lebih besar.
Eksperimen dan Keputusan
Kajian ini menilai Mirasol3B pada penanda aras VideoQA standard, penanda aras VideoQA video panjang dan penanda aras audio+video.
Keputusan ujian pada set data VideoQA MSRVTTQA ditunjukkan dalam Jadual 1 di bawah Mirasol3B mengatasi model SOTA semasa, serta model yang lebih besar seperti PaLI-X dan Flamingo.
Dari segi soal jawab video yang panjang, kajian ini menguji dan menilai Mirasol3B pada set data ActivityNet-QA dan NExTQA Keputusan ditunjukkan dalam Jadual 2 di bawah:
. akhir, kajian KineticsSound, VGG-Sound dan Epic-Sound telah dipilih untuk penanda aras audio-video dan penilaian generasi terbuka telah diterima pakai. Keputusan eksperimen ditunjukkan dalam Jadual 3 di bawah:
Pembaca yang berminat boleh membaca teks asal kertas untuk mengetahui lebih lanjut tentang kandungan penyelidikan. 🎜🎜
Atas ialah kandungan terperinci Skala kecil, kecekapan tinggi: DeepMind melancarkan penyelesaian berbilang modal Mirasol 3B. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

Video Face Swap
Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

DDREASE ialah alat untuk memulihkan data daripada fail atau peranti sekat seperti cakera keras, SSD, cakera RAM, CD, DVD dan peranti storan USB. Ia menyalin data dari satu peranti blok ke peranti lain, meninggalkan blok data yang rosak dan hanya memindahkan blok data yang baik. ddreasue ialah alat pemulihan yang berkuasa yang automatik sepenuhnya kerana ia tidak memerlukan sebarang gangguan semasa operasi pemulihan. Selain itu, terima kasih kepada fail peta ddasue, ia boleh dihentikan dan disambung semula pada bila-bila masa. Ciri-ciri utama lain DDREASE adalah seperti berikut: Ia tidak menimpa data yang dipulihkan tetapi mengisi jurang sekiranya pemulihan berulang. Walau bagaimanapun, ia boleh dipotong jika alat itu diarahkan untuk melakukannya secara eksplisit. Pulihkan data daripada berbilang fail atau blok kepada satu

0. Apakah fungsi artikel ini? Kami mencadangkan DepthFM: model anggaran kedalaman monokular generatif yang serba boleh dan pantas. Sebagai tambahan kepada tugas anggaran kedalaman tradisional, DepthFM juga menunjukkan keupayaan terkini dalam tugas hiliran seperti mengecat kedalaman. DepthFM cekap dan boleh mensintesis peta kedalaman dalam beberapa langkah inferens. Mari kita baca karya ini bersama-sama ~ 1. Tajuk maklumat kertas: DepthFM: FastMonocularDepthEstimationwithFlowMatching Pengarang: MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

Prestasi JAX, yang dipromosikan oleh Google, telah mengatasi Pytorch dan TensorFlow dalam ujian penanda aras baru-baru ini, menduduki tempat pertama dalam 7 penunjuk. Dan ujian tidak dilakukan pada TPU dengan prestasi JAX terbaik. Walaupun dalam kalangan pembangun, Pytorch masih lebih popular daripada Tensorflow. Tetapi pada masa hadapan, mungkin lebih banyak model besar akan dilatih dan dijalankan berdasarkan platform JAX. Model Baru-baru ini, pasukan Keras menanda aras tiga hujung belakang (TensorFlow, JAX, PyTorch) dengan pelaksanaan PyTorch asli dan Keras2 dengan TensorFlow. Pertama, mereka memilih satu set arus perdana

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

Menghadapi ketinggalan, sambungan data mudah alih perlahan pada iPhone? Biasanya, kekuatan internet selular pada telefon anda bergantung pada beberapa faktor seperti rantau, jenis rangkaian selular, jenis perayauan, dsb. Terdapat beberapa perkara yang boleh anda lakukan untuk mendapatkan sambungan Internet selular yang lebih pantas dan boleh dipercayai. Betulkan 1 – Paksa Mulakan Semula iPhone Kadangkala, paksa memulakan semula peranti anda hanya menetapkan semula banyak perkara, termasuk sambungan selular. Langkah 1 – Hanya tekan kekunci naikkan kelantangan sekali dan lepaskan. Seterusnya, tekan kekunci Turun Kelantangan dan lepaskannya semula. Langkah 2 - Bahagian seterusnya proses adalah untuk menahan butang di sebelah kanan. Biarkan iPhone selesai dimulakan semula. Dayakan data selular dan semak kelajuan rangkaian. Semak semula Betulkan 2 – Tukar mod data Walaupun 5G menawarkan kelajuan rangkaian yang lebih baik, ia berfungsi lebih baik apabila isyarat lemah

Saya menangis hingga mati. Dunia sedang membina model besar. Data di Internet tidak mencukupi. Model latihan kelihatan seperti "The Hunger Games", dan penyelidik AI di seluruh dunia bimbang tentang cara memberi makan data ini kepada pemakan yang rakus. Masalah ini amat ketara dalam tugas berbilang modal. Pada masa mereka mengalami kerugian, pasukan pemula dari Jabatan Universiti Renmin China menggunakan model baharu mereka sendiri untuk menjadi yang pertama di China untuk menjadikan "suapan data yang dijana model itu sendiri" menjadi kenyataan. Selain itu, ia merupakan pendekatan serampang dua mata dari segi pemahaman dan sisi penjanaan Kedua-dua pihak boleh menjana data baharu berbilang modal yang berkualiti tinggi dan memberikan maklum balas data kepada model itu sendiri. Apakah model? Awaker 1.0, model berbilang modal besar yang baru sahaja muncul di Forum Zhongguancun. Siapa pasukan itu? Enjin Sophon. Diasaskan oleh Gao Yizhao, pelajar kedoktoran di Sekolah Kecerdasan Buatan Hillhouse Universiti Renmin.

Video terbaru robot Tesla Optimus dikeluarkan, dan ia sudah boleh berfungsi di kilang. Pada kelajuan biasa, ia mengisih bateri (bateri 4680 Tesla) seperti ini: Pegawai itu juga mengeluarkan rupanya pada kelajuan 20x - pada "stesen kerja" kecil, memilih dan memilih dan memilih: Kali ini ia dikeluarkan Salah satu sorotan video itu ialah Optimus menyelesaikan kerja ini di kilang, sepenuhnya secara autonomi, tanpa campur tangan manusia sepanjang proses. Dan dari perspektif Optimus, ia juga boleh mengambil dan meletakkan bateri yang bengkok, memfokuskan pada pembetulan ralat automatik: Berkenaan tangan Optimus, saintis NVIDIA Jim Fan memberikan penilaian yang tinggi: Tangan Optimus adalah robot lima jari di dunia paling cerdik. Tangannya bukan sahaja boleh disentuh

Apa? Adakah Zootopia dibawa menjadi realiti oleh AI domestik? Didedahkan bersama-sama dengan video itu ialah model penjanaan video domestik berskala besar baharu yang dipanggil "Keling". Sora menggunakan laluan teknikal yang serupa dan menggabungkan beberapa inovasi teknologi yang dibangunkan sendiri untuk menghasilkan video yang bukan sahaja mempunyai pergerakan yang besar dan munasabah, tetapi juga mensimulasikan ciri-ciri dunia fizikal dan mempunyai keupayaan gabungan konsep dan imaginasi yang kuat. Mengikut data, Keling menyokong penjanaan video ultra panjang sehingga 2 minit pada 30fps, dengan resolusi sehingga 1080p dan menyokong berbilang nisbah aspek. Satu lagi perkara penting ialah Keling bukanlah demo atau demonstrasi hasil video yang dikeluarkan oleh makmal, tetapi aplikasi peringkat produk yang dilancarkan oleh Kuaishou, pemain terkemuka dalam bidang video pendek. Selain itu, tumpuan utama adalah untuk menjadi pragmatik, bukan untuk menulis cek kosong, dan pergi ke dalam talian sebaik sahaja ia dikeluarkan Model besar Ke Ling telah pun dikeluarkan di Kuaiying.
