Model asas multimodal dan multitasking semasa, seperti **4M** atau **UnifiedIO**, menunjukkan hasil yang menjanjikan. Walau bagaimanapun, keupayaan mereka yang luar biasa untuk menerima input yang berbeza dan melaksanakan tugas yang berbeza dihadkan oleh bilangan modaliti dan tugasan yang mereka latih (biasanya kecil).
, Berdasarkan ini, penyelidik dari Ecole Polytechnique Fédérale de Lausanne (EPFL) dan Apple bersama-sama membangunkan **maju** mana-mana model tunggal modal yang **secara meluas** pelbagai dalam berpuluh-puluh latihan Kelakuan mengenai pelbagai modaliti, dan melaksanakan latihan kolaboratif pada set data berbilang modal berskala besar dan korpora teks.
Langkah penting dalam proses latihan ialah melakukan **tokenisasi** diskret pada pelbagai modaliti, sama ada data berstruktur seperti rangkaian neural seperti imej **peta ciri**, vektor, pembahagian contoh atau pose manusia, atau Data yang boleh diwakili sebagai teks.
Alamat kertas: https://arxiv.org/pdf/2406.09406
Laman utama kertas https://4m.epfl.ch/
Pengenalan kaedah
Kajian ini menggunakan skim pra-latihan 4M (kajian ini juga datang dari EPFL dan Apple dan dikeluarkan tahun lepas), yang terbukti sebagai kaedah umum yang boleh diperluaskan dengan berkesan kepada pelbagai -modaliti. Secara khusus, artikel ini memastikan matlamat latihan seni bina dan topeng pelbagai mod tidak berubah, dengan mengembangkan saiz model dan set data, meningkatkan jenis dan bilangan modaliti yang terlibat dalam melatih model, dan bersama-sama pada berbilang set data Latihan boleh meningkatkan prestasi dan kebolehsuaian model. Modaliti dibahagikan kepada kategori berikut: RGB, geometri, semantik, tepi, peta ciri, metadata dan teks, seperti yang ditunjukkan dalam rajah di bawah.Tokenisasi
Tokenisasi terutamanya termasuk menukar modaliti dan tugas yang berbeza kepada urutan atau token diskret, dengan itu menyatukan ruang perwakilannya. Penyelidik menggunakan kaedah tokenisasi yang berbeza untuk mendiskrisikan mod dengan ciri yang berbeza, seperti yang ditunjukkan dalam Rajah 3. Ringkasnya, artikel ini menggunakan tiga tokenizer, termasuk ViT tokenizer, MLP tokenizer dan text tokenizer. Dari segi pemilihan seni bina, artikel ini mengguna pakai seni bina penyahkod pengekod 4M berdasarkan Transformer, dan menambah pembenaman modal tambahan untuk menyesuaikan diri dengan modaliti baharu.Hasil eksperimen
Seterusnya, kertas kerja menunjukkan keupayaan pelbagai mod 4M-21.Penjanaan berbilang modal
Berdasarkan token penyahkodan berulang, 4M-21 boleh digunakan untuk meramalkan sebarang modaliti latihan. Seperti yang ditunjukkan dalam Rajah 2, kertas ini boleh menjana semua modaliti dengan cara yang konsisten daripada modaliti input yang diberikan. Selain itu, memandangkan kajian ini secara bersyarat dan tanpa syarat boleh menjana sebarang modaliti latihan daripada mana-mana subset modaliti lain, ia menyokong beberapa kaedah untuk melaksanakan penjanaan halus dan berbilang modal, seperti yang ditunjukkan dalam Rajah 4, Sebagai contoh, melakukan penyuntingan multimodal. . Tambahan pula, 4M-21 menunjukkan pemahaman teks yang dipertingkatkan, kedua-dua pada benam T5-XXL dan sari kata biasa, yang membolehkan penjanaan bunyi geometri dan semantik (Rajah 4, kanan atas).Pendapatan berbilang modal
Seperti yang ditunjukkan dalam Rajah 5, 4M-21 membuka kunci keupayaan mendapatkan semula yang tidak mungkin dengan model DINOv2 dan ImageBind asal, seperti mendapatkan semula imej RGB atau modaliti lain . Di samping itu, 4M-21 boleh menggabungkan pelbagai modaliti untuk meramalkan pembenaman global, membolehkan kawalan perolehan yang lebih baik, seperti yang ditunjukkan di sebelah kanan.
Di luar kotak
4M-21 mampu melaksanakan pelbagai tugas penglihatan biasa di luar kotak, seperti yang ditunjukkan dalam Rajah 6.
Jadual 1 menilai anggaran normal dan kedalaman permukaan DIODA, semantik COCO dan segmentasi contoh, anggaran pose manusia 3DPW 3D, dsb.
Percubaan pemindahan
Selain itu, artikel ini juga melatih model tiga saiz berbeza: B, L dan XL. Pengekod mereka kemudiannya dipindahkan ke tugas hiliran dan dinilai pada tetapan mod tunggal (RGB) dan berbilang modaliti (RGB + kedalaman). Semua eksperimen pemindahan membuang penyahkod dan sebaliknya melatih kepala khusus tugasan. Keputusan ditunjukkan dalam Jadual 2:
Akhir sekali, kertas kerja ini melaksanakan pemindahan berbilang modal pada NYUv2, segmentasi semantik Hypersim dan pengesanan objek 3D pada ARKitScenes. Seperti yang ditunjukkan dalam Jadual 3, 4M-21 memanfaatkan sepenuhnya input kedalaman pilihan dan meningkatkan garis dasar dengan ketara.
Atas ialah kandungan terperinci Terlalu lengkap! Apple melancarkan model visual baharu 4M-21, mampu 21 mod. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!