Pada masa ini, Model Besar Berbilang Modal(MLLM)telah menunjukkan keupayaan pemahaman kognitif yang kuat pada pelbagai tugas visual.
Walau bagaimanapun, kebanyakan model besar berbilang modal terhad kepada pemahaman imej sehala, menjadikannya sukar untuk memetakan kandungan yang difahami kembali kepada imej.
Sebagai contoh, model boleh dengan mudah mengetahui objek apa yang ada dalam gambar, tetapi ia tidak dapat mengenal pasti objek dalam gambar dengan tepat.
Kekurangan keupayaan kedudukan secara langsung mengehadkan aplikasi model besar berbilang modal dalam bidang hiliran seperti penyuntingan imej, pemanduan autonomi dan kawalan robot.
Sebagai tindak balas kepada masalah ini, penyelidik dari Universiti Hong Kong dan pasukan pengkomersilan ByteDance mencadangkan paradigma baharu Groma -
meningkatkan keupayaan kedudukan persepsi model besar berbilang modal melalui pengekodan imej serantau.
Selepas menyepadukan penentududukan, Groma boleh menyambung terus kandungan teks dan kawasan imej, sekali gus meningkatkan interaktiviti dan hala tuju perbualan dengan ketara. Kaedah ini tidak mengubah maksud asal, tetapi hanya melaraskan sedikit ungkapan.
Cara memberi model besar berbilang modal keupayaan untuk mencari objek, iaitu, untuk mengaitkan kandungan teks dengan kawasan imej untuk mencapai "perkataan yang bermakna", kini merupakan tempat tumpuan penyelidikan utama. Matlamat model besar multimodal adalah untuk dapat mencari rantau dalam imej yang sepadan dengan huraian apabila diberi imej dan huraian teks yang sepadan. Tugas ini dipanggil masalah penjajaran imej-teks. Untuk menyelesaikan masalah ini, pendekatan biasa adalah untuk memperhalusi model bahasa besar untuk terus mengeluarkan koordinat objek. Walau bagaimanapun, kaedah ini mempunyai banyak batasan:
1Model bahasa besar yang telah dilatih pada teks itu sendiri tidak mempunyai keupayaan untuk memahami ruang, dan sukar untuk mengesan objek dengan tepat berdasarkan penalaan halus dengan hanya sedikit. jumlah data.
2Tugas penentududukan mempunyai keperluan tinggi pada resolusi imej input, tetapi meningkatkan resolusi akan meningkatkan jumlah pengiraan model berbilang modal yang besar.
3Bentuk keluaran model bahasa besar tidak sesuai untuk memproses tugas penentududukan yang halus, seperti pembahagian. Berdasarkan pertimbangan ini, Groma mencadangkan untuk memindahkan kedudukan kepada tokenizer penglihatan bagi model besar berbilang modal Tokenizer penglihatan akan menemui dan mencari objek berpotensi, dan kemudian menyerahkannya kepada model bahasa besar untuk pengecaman.
Pada masa yang sama, reka bentuk ini juga menggunakan sepenuhnya keupayaan pemahaman spatial tokenizer penglihatan itu sendiri, tanpa memerlukan model pakar luar
(seperti SAM)untuk membantu penentududukan, dengan itu mengelakkan lebihan model luaran. Secara khusus, Groma memperkenalkan pengekodan wilayah untuk merealisasikan fungsi penentududukan berdasarkan pengekodan imej global - seperti yang ditunjukkan dalam rajah di bawah, Groma mula-mula menggunakan Pencadang Wilayah untuk mencari objek berpotensi, dan kemudian menggunakan Pengekod Wilayah untuk mengesan kawasan yang terletak satu demi satu. Dikodkan ke dalam token rantau.
Model bahasa besar boleh menentukan rantau yang sepadan berdasarkan makna semantik token rantau dan mencapai kesan seperti hiperpautan dengan memasukkan token rantau ke dalam output untuk mencapai perbualan berasaskan visual.
Begitu juga, kawasan yang ditentukan pengguna juga boleh dikodkan ke dalam token rantau yang sepadan melalui Pengekod Wilayah dan dimasukkan ke dalam arahan pengguna, supaya model berbilang mod boleh memfokus pada kawasan yang ditentukan dan menjana jawapan berarah.
Untuk meningkatkan keteguhan dan ketepatan kedudukan, Groma menggunakan lebih daripada 8M data
(termasuk SA1B)untuk melatih Pencadang Wilayah. Oleh itu, cadangan yang dijana termasuk bukan sahaja objek biasa, tetapi juga elemen seperti komponen objek dan latar belakang yang lebih luas. Selain itu, terima kasih kepada reka bentuk yang dipisahkan, Groma boleh menggunakan peta ciri resolusi tinggi untuk input Pencadang/Pengekod Wilayah, dan peta ciri resolusi rendah untuk input model yang besar, dengan itu mengurangkan jumlah pengiraan tanpa kehilangan prestasi kedudukan.
Hasil eksperimen
Pada masa yang sama, Groma telah mengesahkan keupayaan dialog dan penaakulannya pada Penanda Aras VQA (LLaVA-COCO), yang biasa digunakan pada model besar berbilang modal.
Dalam perbandingan visual, Groma juga menunjukkan ingatan yang lebih tinggi dan kurang halusinasi.
Selain itu, Groma juga menyokong dialog rujukan dan sembang asas yang menyepadukan keupayaan dialog dan keupayaan kedudukan.
Terima kasih kepada keupayaan penaakulan kognitif yang berkuasa bagi model bahasa besar, model besar berbilang modal berprestasi cemerlang dalam tugas pemahaman visual.
Walau bagaimanapun, beberapa tugas penglihatan tradisional, seperti segmentasi pengesanan, anggaran kedalaman, dsb., lebih bergantung pada keupayaan persepsi visual, iaitu kekurangan model bahasa besar.
Groma menyediakan penyelesaian baharu untuk masalah ini, iaitu memisahkan persepsi dan kognisi, dengan tokenizer penglihatan yang bertanggungjawab untuk persepsi dan model bahasa besar yang bertanggungjawab untuk kognisi.
Bentuk persepsi ini dahulu dan kemudian kognisi bukan sahaja lebih sejajar dengan proses visual manusia, tetapi juga mengelakkan overhed pengiraan untuk melatih semula model bahasa yang besar.
Pada 15 Mei, ByteDance baru sahaja mengumumkan model besar Doubao yang dibangunkan sendiri, yang menyediakan keupayaan pelbagai mod, hiliran menyokong 50+ perniagaan seperti Doubao APP, Kouzi dan Jimeng, dan terbuka kepada pelanggan perusahaan melalui enjin Volcano untuk membantu Perusahaan meningkatkan kecekapan dan mempercepatkan inovasi pintar. Pada masa ini, Doubao APP telah menjadi aplikasi AIGC dengan bilangan pengguna terbesar di pasaran China. ByteDance terus meningkatkan pelaburannya dalam bakat terbaik dan teknologi termaju, serta mengambil bahagian dalam cabaran dan kesukaran teknikal utama industri.
Tapak web projek:
https://www.php.cn/link/07a81d45ff030b63fe2a0f375b779f09
Pautan Paper:
https://www.php.cn/link/ b82b80956cfbe75101bd223fe6319dec
Kod sumber terbuka:
https://www.php.cn/link/b984bddf9e97c508f9e97c58f8f9e7c58f
Atas ialah kandungan terperinci HKU Byte mencadangkan paradigma baharu model besar berbilang modal, mensimulasikan persepsi manusia dahulu dan kemudian kognisi, untuk mengesan objek dalam gambar dengan tepat. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!