Meta Inc. telah mengeluarkan ImageBind, model kecerdasan buatan sumber terbuka baharu yang menyepadukan berbilang aliran data, termasuk teks, audio, data visual, suhu dan bacaan gerakan, dan banyak lagi. Model itu pada masa ini hanyalah projek penyelidikan dan belum mempunyai pengguna langsung atau aplikasi praktikal lagi, tetapi ia menunjukkan kemungkinan untuk sistem AI generatif masa depan yang boleh mencipta pengalaman yang mengasyikkan, pelbagai deria. Pada masa yang sama, model itu juga menunjukkan sikap terbuka Meta dalam bidang penyelidikan kecerdasan buatan, manakala pesaingnya seperti OpenAI dan Google semakin tertutup.
Konsep teras penyelidikan adalah untuk menyepadukan berbilang jenis data ke dalam indeks berbilang dimensi (atau dalam terminologi kecerdasan buatan, "ruang terbenam"). Konsep ini mungkin sedikit abstrak, tetapi ia adalah asas ledakan baru-baru ini dalam kecerdasan buatan generatif. Sebagai contoh, penjana imej AI seperti DALL-E, Stable Diffusion dan Midjourney bergantung pada sistem yang mengikat teks dan imej bersama semasa fasa latihan. Mereka mencari corak dalam data visual sambil menyambungkan maklumat ini kepada perihalan imej. Inilah sebabnya mengapa sistem ini dapat menjana imej berdasarkan input teks pengguna. Perkara yang sama berlaku untuk banyak alat AI yang boleh menjana video atau audio dengan cara yang sama.
Meta mengatakan model ImageBindnya ialah yang pertama menyepadukan enam jenis data ke dalam satu ruang benam. Enam jenis data termasuk: visual (termasuk imej dan video terma (teks inframerah); (IMU ditemui dalam telefon dan jam tangan pintar dan digunakan untuk melakukan pelbagai tugas, daripada menukar telefon daripada landskap kepada potret kepada membezakan antara jenis pergerakan yang berbeza.)
Sistem AI masa hadapan akan dapat melakukan sesuatu. seperti hari ini Sama seperti sistem untuk input teks, rujuk silang data ini. Sebagai contoh, bayangkan peranti realiti maya masa hadapan yang mampu menjana bukan sahaja input audio dan visual, tetapi juga pergerakan persekitaran dan platform fizikal anda. Anda boleh memintanya untuk mensimulasikan perjalanan laut yang panjang, dan bukan sahaja ia akan meletakkan anda di atas kapal dengan bunyi ombak di latar belakang, tetapi anda juga akan merasakan geladak bergoyang di bawah kaki anda dan angin laut bertiup.
Meta menyatakan dalam catatan blog bahawa model masa hadapan juga boleh menambah aliran input deria lain, termasuk "sentuhan, pertuturan, bau dan isyarat fMRI otak." Syarikat itu juga mendakwa bahawa penyelidikan ini "membawa mesin lebih dekat kepada keupayaan manusia untuk belajar daripada pelbagai bentuk maklumat secara serentak, menyeluruh, dan secara langsung
Sudah tentu, banyak perkara ini berdasarkan ramalan, Dan kemungkinan besar aplikasi langsung penyelidikan ini akan menjadi sangat terhad. Tahun lepas, sebagai contoh, syarikat Meta menunjukkan model AI yang mampu menghasilkan video pendek dan kabur berdasarkan penerangan teks. Penyelidikan seperti ImageBind menunjukkan cara versi masa hadapan sistem boleh menggabungkan aliran data lain, seperti menjana audio yang sepadan dengan output video.
Bagi pemerhati industri, penyelidikan ini juga menarik, kerana IT House telah menyedari bahawa syarikat Meta mempunyai model asas sumber terbuka, yang merupakan amalan yang telah menarik perhatian yang semakin meningkat dalam bidang kecerdasan buatan.
Atas ialah kandungan terperinci Meta ialah model kecerdasan buatan berbilang deria sumber terbuka yang menyepadukan enam jenis data termasuk teks, audio dan penglihatan.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!