Google melancarkan Mirasol: 3 bilion parameter, memanjangkan pemahaman multimodal kepada video panjang-AI-php.cn

Google melancarkan Mirasol: 3 bilion parameter, memanjangkan pemahaman multimodal kepada video panjang

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Lepaskan： 2023-11-17 23:39:01

ke hadapan

1171 orang telah melayarinya

Google melancarkan Mirasol: 3 bilion parameter, memanjangkan pemahaman multimodal kepada video panjang

Berita 16 November, Google baru-baru ini mengeluarkan kenyataan akhbar yang memperkenalkan Mirasol, model kecerdasan buatan kecil yang boleh menjawab soalan tentang video dan mencatat rekod baharu.

Google melancarkan Mirasol: 3 bilion parameter, memanjangkan pemahaman multimodal kepada video panjang

Pada masa ini sukar untuk model AI mengendalikan aliran data yang berbeza Jika anda mahu AI memahami video, anda perlu menyepadukan maklumat daripada kaedah yang berbeza seperti video, audio dan teks, yang meningkatkan kesukaran dengan ketara.

Penyelidik di Google dan Google Deepmind telah mencadangkan kaedah baharu untuk meluaskan pemahaman multimodal ke domain video panjang.

Dengan model Mirasol AI, pasukan bekerja untuk menyelesaikan dua cabaran utama:

Video dan audio menjana sejumlah besar data, yang boleh menegangkan kapasiti model.

Di Mirasol, Google telah mengguna pakai model penggabung dan penukar autoregresif

Komponen model ini akan memproses isyarat video dan audio yang disegerakkan masa dan kemudian membahagikan video kepada segmen bebas

Penukar memproses setiap serpihan dan mempelajari hubungan antara setiap serpihan, kemudian menggunakan pengubah lain untuk memproses teks kontekstual, dengan kedua-dua komponen bertukar maklumat tentang input masing-masing.

Satu modul transformasi baharu yang dipanggil Combiner mampu mengekstrak perwakilan biasa daripada setiap serpihan dan memampatkan data melalui pengurangan dimensi. Setiap klip mengandungi 4 hingga 64 bingkai, dan model pada masa ini mempunyai 3 bilion parameter dan mampu mengendalikan video daripada 128 hingga 512 bingkai

Google melancarkan Mirasol: 3 bilion parameter, memanjangkan pemahaman multimodal kepada video panjang

Dalam ujian, Mirasol3B mencapai penanda aras baharu dalam analisis masalah video, dengan volum yang lebih besar dengan ketara Kecil dan boleh mengendalikan video yang lebih panjang. Dengan menggunakan varian penggabung dengan memori, pasukan itu dapat mengurangkan lagi kuasa pengkomputeran yang diperlukan sebanyak 18%

Google melancarkan Mirasol: 3 bilion parameter, memanjangkan pemahaman multimodal kepada video panjang

laman web rasmi dilampirkan di sini. release

, pengguna yang berminat boleh membacanya secara mendalam.

Atas ialah kandungan terperinci Google melancarkan Mirasol: 3 bilion parameter, memanjangkan pemahaman multimodal kepada video panjang. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!