Berita 16 November, Google baru-baru ini mengeluarkan kenyataan akhbar yang memperkenalkan Mirasol, model kecerdasan buatan kecil yang boleh menjawab soalan tentang video dan mencatat rekod baharu.
Pada masa ini sukar untuk model AI mengendalikan aliran data yang berbeza Jika anda mahu AI memahami video, anda perlu menyepadukan maklumat daripada kaedah yang berbeza seperti video, audio dan teks, yang meningkatkan kesukaran dengan ketara.
Penyelidik di Google dan Google Deepmind telah mencadangkan kaedah baharu untuk meluaskan pemahaman multimodal ke domain video panjang.
Dengan model Mirasol AI, pasukan bekerja untuk menyelesaikan dua cabaran utama:
Keperluan untuk menyegerakkan video dan audio pada frekuensi pensampelan tinggi, tetapi memproses tajuk dan penerangan video secara tidak segerak. - Video dan audio menjana sejumlah besar data, yang boleh menegangkan kapasiti model.
-
Di Mirasol, Google telah mengguna pakai model penggabung dan penukar autoregresif
Komponen model ini akan memproses isyarat video dan audio yang disegerakkan masa dan kemudian membahagikan video kepada segmen bebas
Penukar memproses setiap serpihan dan mempelajari hubungan antara setiap serpihan, kemudian menggunakan pengubah lain untuk memproses teks kontekstual, dengan kedua-dua komponen bertukar maklumat tentang input masing-masing.
Satu modul transformasi baharu yang dipanggil Combiner mampu mengekstrak perwakilan biasa daripada setiap serpihan dan memampatkan data melalui pengurangan dimensi. Setiap klip mengandungi 4 hingga 64 bingkai, dan model pada masa ini mempunyai 3 bilion parameter dan mampu mengendalikan video daripada 128 hingga 512 bingkai
Dalam ujian, Mirasol3B mencapai penanda aras baharu dalam analisis masalah video, dengan volum yang lebih besar dengan ketara Kecil dan boleh mengendalikan video yang lebih panjang. Dengan menggunakan varian penggabung dengan memori, pasukan itu dapat mengurangkan lagi kuasa pengkomputeran yang diperlukan sebanyak 18%
laman web rasmi dilampirkan di sini. release
, pengguna yang berminat boleh membacanya secara mendalam.
Atas ialah kandungan terperinci Google melancarkan Mirasol: 3 bilion parameter, memanjangkan pemahaman multimodal kepada video panjang. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!