Rumah > Peranti teknologi > AI > teks badan

Google melancarkan Mirasol: 3 bilion parameter, memanjangkan pemahaman multimodal kepada video panjang

WBOY
Lepaskan: 2023-11-17 23:39:01
ke hadapan
1071 orang telah melayarinya

Google melancarkan Mirasol: 3 bilion parameter, memanjangkan pemahaman multimodal kepada video panjang

Berita 16 November, Google baru-baru ini mengeluarkan kenyataan akhbar yang memperkenalkan Mirasol, model kecerdasan buatan kecil yang boleh menjawab soalan tentang video dan mencatat rekod baharu.

Google melancarkan Mirasol: 3 bilion parameter, memanjangkan pemahaman multimodal kepada video panjang

Pada masa ini sukar untuk model AI mengendalikan aliran data yang berbeza Jika anda mahu AI memahami video, anda perlu menyepadukan maklumat daripada kaedah yang berbeza seperti video, audio dan teks, yang meningkatkan kesukaran dengan ketara.

Penyelidik di Google dan Google Deepmind telah mencadangkan kaedah baharu untuk meluaskan pemahaman multimodal ke domain video panjang.

Dengan model Mirasol AI, pasukan bekerja untuk menyelesaikan dua cabaran utama:

    Keperluan untuk menyegerakkan video dan audio pada frekuensi pensampelan tinggi, tetapi memproses tajuk dan penerangan video secara tidak segerak.
  • Video dan audio menjana sejumlah besar data, yang boleh menegangkan kapasiti model.
Di Mirasol, Google telah mengguna pakai model penggabung dan penukar autoregresif

Komponen model ini akan memproses isyarat video dan audio yang disegerakkan masa dan kemudian membahagikan video kepada segmen bebas

Penukar memproses setiap serpihan dan mempelajari hubungan antara setiap serpihan, kemudian menggunakan pengubah lain untuk memproses teks kontekstual, dengan kedua-dua komponen bertukar maklumat tentang input masing-masing.

Satu modul transformasi baharu yang dipanggil Combiner mampu mengekstrak perwakilan biasa daripada setiap serpihan dan memampatkan data melalui pengurangan dimensi. Setiap klip mengandungi 4 hingga 64 bingkai, dan model pada masa ini mempunyai 3 bilion parameter dan mampu mengendalikan video daripada 128 hingga 512 bingkai

Google melancarkan Mirasol: 3 bilion parameter, memanjangkan pemahaman multimodal kepada video panjang

Dalam ujian, Mirasol3B mencapai penanda aras baharu dalam analisis masalah video, dengan volum yang lebih besar dengan ketara Kecil dan boleh mengendalikan video yang lebih panjang. Dengan menggunakan varian penggabung dengan memori, pasukan itu dapat mengurangkan lagi kuasa pengkomputeran yang diperlukan sebanyak 18%

Google melancarkan Mirasol: 3 bilion parameter, memanjangkan pemahaman multimodal kepada video panjang

Google melancarkan Mirasol: 3 bilion parameter, memanjangkan pemahaman multimodal kepada video panjang

Google melancarkan Mirasol: 3 bilion parameter, memanjangkan pemahaman multimodal kepada video panjang

Google melancarkan Mirasol: 3 bilion parameter, memanjangkan pemahaman multimodal kepada video panjang

Google melancarkan Mirasol: 3 bilion parameter, memanjangkan pemahaman multimodal kepada video panjang

laman web rasmi dilampirkan di sini. release

, pengguna yang berminat boleh membacanya secara mendalam.

Atas ialah kandungan terperinci Google melancarkan Mirasol: 3 bilion parameter, memanjangkan pemahaman multimodal kepada video panjang. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Label berkaitan:
sumber:51cto.com
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan
Tentang kita Penafian Sitemap
Laman web PHP Cina:Latihan PHP dalam talian kebajikan awam,Bantu pelajar PHP berkembang dengan cepat!