Terlalu lengkap! Apple melancarkan model visual baharu 4M-21, mampu 21 mod-AI-php.cn

Terlalu lengkap! Apple melancarkan model visual baharu 4M-21, mampu 21 mod

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Lepaskan： 2024-06-25 17:17:19

asal

1236 orang telah melayarinya

Model asas multimodal dan multitasking semasa, seperti **4M** atau **UnifiedIO**, menunjukkan hasil yang menjanjikan. Walau bagaimanapun, keupayaan mereka yang luar biasa untuk menerima input yang berbeza dan melaksanakan tugas yang berbeza dihadkan oleh bilangan modaliti dan tugasan yang mereka latih (biasanya kecil).

, Berdasarkan ini, penyelidik dari Ecole Polytechnique Fédérale de Lausanne (EPFL) dan Apple bersama-sama membangunkan **maju** mana-mana model tunggal modal yang **secara meluas** pelbagai dalam berpuluh-puluh latihan Kelakuan mengenai pelbagai modaliti, dan melaksanakan latihan kolaboratif pada set data berbilang modal berskala besar dan korpora teks.

Langkah penting dalam proses latihan ialah melakukan **tokenisasi** diskret pada pelbagai modaliti, sama ada data berstruktur seperti rangkaian neural seperti imej **peta ciri**, vektor, pembahagian contoh atau pose manusia, atau Data yang boleh diwakili sebagai teks.

Terlalu lengkap! Apple melancarkan model visual baharu 4M-21, mampu 21 mod

Alamat kertas: https://arxiv.org/pdf/2406.09406
Laman utama kertas https://4m.epfl.ch/
Tajuk A. -kepada-Mana-mana Model Visi untuk Puluhan Tugas dan Modaliti

Kajian ini menunjukkan bahawa melatih model tunggal juga boleh menyelesaikan sekurang-kurangnya **tiga kali** lebih banyak tugas/**modaliti** berbanding model sedia ada, dan melakukan bukan Prestasi akan hilang. Selain itu, penyelidikan ini juga mencapai keupayaan penjanaan data berbilang mod yang lebih halus dan lebih terkawal.

Penyelidikan ini dibina berdasarkan skim pra-latihan topeng pelbagai mod dan meningkatkan keupayaan model dengan melatih berdozen modaliti yang sangat pelbagai. Dengan mengekodnya menggunakan tokenizer diskret khusus modaliti, kajian ini membolehkan melatih satu model bersatu pada modaliti yang berbeza.

Ringkasnya, penyelidikan ini meluaskan keupayaan model sedia ada dalam beberapa dimensi utama:

Modaliti: daripada 7 modaliti model arbitrari-ke-arbitrari sedia ada terbaik kepada 21 modaliti berbeza , membolehkan penjanaan rentas modal, boleh dikawal , dan prestasi luar biasa yang hebat. Ini adalah kali pertama model penglihatan tunggal boleh menyelesaikan berpuluh-puluh tugasan yang berbeza dalam apa-apa cara tanpa menjejaskan prestasi dan tanpa sebarang pembelajaran berbilang tugas tradisional.
Kepelbagaian: Tambahkan sokongan untuk data yang lebih berstruktur, seperti pose manusia, kejadian SAM, metadata dan banyak lagi.
tokenisasi: Kaji tokenisasi diskret bagi modaliti yang berbeza menggunakan kaedah khusus modaliti, seperti pembenaman imej global, pose manusia dan kejadian semantik.
Pelanjutan: Kembangkan saiz model kepada parameter 3B dan set data kepada sampel 0.5B.
Latihan kolaboratif: latihan kolaboratif dalam penglihatan dan bahasa pada masa yang sama.

Pengenalan kaedah

Kajian ini menggunakan skim pra-latihan 4M (kajian ini juga datang dari EPFL dan Apple dan dikeluarkan tahun lepas), yang terbukti sebagai kaedah umum yang boleh diperluaskan dengan berkesan kepada pelbagai -modaliti.

Secara khusus, artikel ini memastikan matlamat latihan seni bina dan topeng pelbagai mod tidak berubah, dengan mengembangkan saiz model dan set data, meningkatkan jenis dan bilangan modaliti yang terlibat dalam melatih model, dan bersama-sama pada berbilang set data Latihan boleh meningkatkan prestasi dan kebolehsuaian model.

Modaliti dibahagikan kepada kategori berikut: RGB, geometri, semantik, tepi, peta ciri, metadata dan teks, seperti yang ditunjukkan dalam rajah di bawah.

Terlalu lengkap! Apple melancarkan model visual baharu 4M-21, mampu 21 mod

Tokenisasi

Tokenisasi terutamanya termasuk menukar modaliti dan tugas yang berbeza kepada urutan atau token diskret, dengan itu menyatukan ruang perwakilannya. Penyelidik menggunakan kaedah tokenisasi yang berbeza untuk mendiskrisikan mod dengan ciri yang berbeza, seperti yang ditunjukkan dalam Rajah 3. Ringkasnya, artikel ini menggunakan tiga tokenizer, termasuk ViT tokenizer, MLP tokenizer dan text tokenizer.

Terlalu lengkap! Apple melancarkan model visual baharu 4M-21, mampu 21 mod

Dari segi pemilihan seni bina, artikel ini mengguna pakai seni bina penyahkod pengekod 4M berdasarkan Transformer, dan menambah pembenaman modal tambahan untuk menyesuaikan diri dengan modaliti baharu.

Hasil eksperimen

Seterusnya, kertas kerja menunjukkan keupayaan pelbagai mod 4M-21.

Penjanaan berbilang modal

Berdasarkan token penyahkodan berulang, 4M-21 boleh digunakan untuk meramalkan sebarang modaliti latihan. Seperti yang ditunjukkan dalam Rajah 2, kertas ini boleh menjana semua modaliti dengan cara yang konsisten daripada modaliti input yang diberikan.

Terlalu lengkap! Apple melancarkan model visual baharu 4M-21, mampu 21 mod

Selain itu, memandangkan kajian ini secara bersyarat dan tanpa syarat boleh menjana sebarang modaliti latihan daripada mana-mana subset modaliti lain, ia menyokong beberapa kaedah untuk melaksanakan penjanaan halus dan berbilang modal, seperti yang ditunjukkan dalam Rajah 4, Sebagai contoh, melakukan penyuntingan multimodal. . Tambahan pula, 4M-21 menunjukkan pemahaman teks yang dipertingkatkan, kedua-dua pada benam T5-XXL dan sari kata biasa, yang membolehkan penjanaan bunyi geometri dan semantik (Rajah 4, kanan atas).

Terlalu lengkap! Apple melancarkan model visual baharu 4M-21, mampu 21 mod

Pendapatan berbilang modal

Seperti yang ditunjukkan dalam Rajah 5, 4M-21 membuka kunci keupayaan mendapatkan semula yang tidak mungkin dengan model DINOv2 dan ImageBind asal, seperti mendapatkan semula imej RGB atau modaliti lain . Di samping itu, 4M-21 boleh menggabungkan pelbagai modaliti untuk meramalkan pembenaman global, membolehkan kawalan perolehan yang lebih baik, seperti yang ditunjukkan di sebelah kanan.

Terlalu lengkap! Apple melancarkan model visual baharu 4M-21, mampu 21 mod

Di luar kotak

4M-21 mampu melaksanakan pelbagai tugas penglihatan biasa di luar kotak, seperti yang ditunjukkan dalam Rajah 6.

Terlalu lengkap! Apple melancarkan model visual baharu 4M-21, mampu 21 mod

Jadual 1 menilai anggaran normal dan kedalaman permukaan DIODA, semantik COCO dan segmentasi contoh, anggaran pose manusia 3DPW 3D, dsb.

Terlalu lengkap! Apple melancarkan model visual baharu 4M-21, mampu 21 mod

Percubaan pemindahan

Selain itu, artikel ini juga melatih model tiga saiz berbeza: B, L dan XL. Pengekod mereka kemudiannya dipindahkan ke tugas hiliran dan dinilai pada tetapan mod tunggal (RGB) dan berbilang modaliti (RGB + kedalaman). Semua eksperimen pemindahan membuang penyahkod dan sebaliknya melatih kepala khusus tugasan. Keputusan ditunjukkan dalam Jadual 2:

Terlalu lengkap! Apple melancarkan model visual baharu 4M-21, mampu 21 mod

Akhir sekali, kertas kerja ini melaksanakan pemindahan berbilang modal pada NYUv2, segmentasi semantik Hypersim dan pengesanan objek 3D pada ARKitScenes. Seperti yang ditunjukkan dalam Jadual 3, 4M-21 memanfaatkan sepenuhnya input kedalaman pilihan dan meningkatkan garis dasar dengan ketara.

Terlalu lengkap! Apple melancarkan model visual baharu 4M-21, mampu 21 mod

Atas ialah kandungan terperinci Terlalu lengkap! Apple melancarkan model visual baharu 4M-21, mampu 21 mod. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!