Pada penghujung tahun lepas, OpenAI melancarkan ChatGPT kepada umum Sebaik sahaja dikeluarkan, teknologi ini segera mendorong chatbots dipacu AI ke pusat wacana arus perdana, dan ramai penyelidik membincangkan cara ia boleh mengubah perniagaan, pendidikan, dll. Terdapat satu lagi pusingan perdebatan.
Seterusnya, gergasi teknologi mengikuti dan melabur dalam pasukan penyelidikan saintifik, dan apa yang dipanggil teknologi "AI generatif" (teknologi yang boleh menghasilkan teks perbualan, grafik, dll.) juga turut sedia.
Seperti yang kita semua tahu, ChatGPT diperhalusi berdasarkan siri model GPT-3.5 Kami telah melihat banyak penyelidikan yang mengikutinya dengan teliti adakah kajian baru mereka sebagai perbandingan? Baru-baru ini, dalam makalah "Penaakulan Berbilang Modal dalam Model Bahasa" yang dikeluarkan oleh Amazon, mereka mencadangkan Multimodal-CoT termasuk ciri visual ini berprestasi baik dalam penanda aras ScienceQA apabila bilangan parameter adalah kurang daripada 1 bilion. 16 mata peratusan lebih tinggi daripada GPT-3.5 (75.17%→91.68%), malah mengatasi ramai manusia.
Berikut ialah pengenalan ringkas kepada penanda aras ScienceQA Ia merupakan set data soalan dan jawapan saintifik berbilang modal pertama dengan penjelasan terperinci, yang dicadangkan oleh UCLA dan Institut Allen untuk Kecerdasan Buatan (. AI2). Ia digunakan terutamanya untuk menguji keupayaan penaakulan multi-modal model Ia mempunyai kepelbagaian bidang yang sangat kaya, meliputi bidang sains semula jadi, sains bahasa dan sains sosial, dan mengemukakan keperluan tinggi untuk keupayaan penaakulan logik. daripada model tersebut.
Alamat kertas: https://arxiv.org/abs/2302.00923
Alamat projek: https://github.com/amazon-science/mm-cot
Mari kita lihat Bagaimana Model bahasa Amazon mengatasi GPT-3.5.
Model Bahasa Besar (LLM) berfungsi dengan baik pada tugas penaakulan yang kompleks dan tidak boleh dilakukan tanpa bantuan gesaan Rantaian Pemikiran (CoT) . Walau bagaimanapun, penyelidikan CoT sedia ada hanya tertumpu kepada modaliti bahasa. Untuk mencetuskan inferens CoT dalam pelbagai modaliti, satu penyelesaian yang mungkin adalah untuk memperhalusi model bahasa kecil untuk melaksanakan inferens CoT dengan menggabungkan ciri visual dan bahasa.
Walau bagaimanapun, telah diperhatikan bahawa model kecil cenderung untuk membuat sesuatu dengan lebih kerap daripada model besar. Tingkah laku model ini sering dipanggil "halusinasi". Kajian Google sebelum ini juga menunjukkan (kertas Rangkaian Pemikiran Mendorong Penaakulan dalam Model Bahasa Besar) bahawa gesaan berasaskan CoT hanya berguna apabila model mempunyai sekurang-kurangnya 100 bilion parameter!
Maksudnya, pembayang CoT tidak mempunyai kesan positif pada prestasi model kecil dan hanya menghasilkan peningkatan prestasi apabila digunakan dengan model parameter ∼100B.
Walau bagaimanapun, artikel ini mengkaji peningkatan prestasi dengan kurang daripada 1 bilion parameter Bagaimana ia dilakukan? Ringkasnya, kertas kerja ini mencadangkan Multimodal-CoT yang mengandungi ciri visual, dan menggunakan paradigma ini (Multimodal-CoT) untuk mencari penaakulan CoT dalam pelbagai modaliti.
Multimodal-CoT menggabungkan ciri visual dalam rangka latihan tunggal untuk mengurangkan kesan model bahasa yang mempunyai kecenderungan untuk menghasilkan corak penaakulan ilusi. Secara keseluruhannya, kerangka ini membahagikan proses penaakulan kepada dua bahagian: penjanaan rasional (mencari sebab) dan penaakulan jawapan (mencari jawapan).
Proses dua peringkat CoT Multimodal: menggunakan teks (soalan + konteks) dan ciri visual untuk menjana logik justifikasi .
Set Data
Artikel ini tertumpu terutamanya pada set data ScienceQA. Set termasuk imej dan teks sebagai sebahagian daripada konteks Selain itu, set data mengandungi penjelasan jawapan supaya model boleh diperhalusi untuk menjana rasional CoT. Selain itu, kertas kerja ini menggunakan model DETR untuk menjana ciri visual.
LM yang lebih kecil terdedah kepada halusinasi apabila menjana CoT/Prinsip Asas Pengarang membuat spekulasi bahawa jika terdapat seni bina yang diubah suai di mana model boleh menggunakan ciri teks yang dihasilkan oleh LM dan ciri visual yang dihasilkan oleh model imej. , kemudian lebih Keupayaan untuk memberi alasan dan menjawab soalan.
Seni Bina
Secara amnya, kita memerlukan seni bina yang boleh menjana ciri teks dan ciri visual serta menggunakannya untuk menjana model untuk responsif teks.
Ia juga diketahui bahawa terdapat beberapa interaksi antara teks dan ciri visual, yang pada asasnya merupakan sejenis mekanisme perhatian bersama, yang membantu merangkum maklumat yang terdapat dalam kedua-dua modaliti, yang menjadikan adalah mungkin untuk belajar daripada idea. Untuk mencapai semua ini, penulis memilih model T5, yang mempunyai seni bina penyahkod pengekod, dan seperti yang dinyatakan di atas, model DETR digunakan untuk menjana ciri visual.
Pengekod model T5 bertanggungjawab menjana ciri teks, tetapi penyahkod model T5 tidak menggunakan ciri teks yang dijana oleh pengekod, tetapi menggunakan lapisan interaksi perhatian bersama yang dicadangkan oleh pengarang ( lapisan interaksi gaya perhatian bersama) output.
Meruntuhkannya, dengan mengandaikan H_language ialah output pengekod T5. X_vision ialah keluaran DETR. Langkah pertama ialah memastikan ciri visual dan ciri teks mempunyai saiz tersembunyi yang sama supaya kita boleh menggunakan lapisan perhatian.
Nota: Semua coretan kod adalah daripada GitHub kertas: https://github.com/amazon-science/mm-cot/blob/main/model.py
self.image_dense = nn.Linear(self.patch_dim, config.d_model)
W_h pada asasnya ialah lapisan linear dan H_vision sepadan dengan ciri visual akhir. W_h membantu menukar saiz ciri visual agar sepadan dengan saiz ciri teks.
Seterusnya kita perlu menambah lapisan perhatian supaya ciri visual dan teks boleh berinteraksi antara satu sama lain. Untuk melakukan ini, pengarang menggunakan lapisan perhatian satu kepala dengan H_language sebagai vektor pertanyaan dan H_vision sebagai vektor kunci dan nilai.
self.mha_layer = torch.nn.MultiheadAttention(embed_dim=config.hidden_size, kdim=config.hidden_size, vdim=config.hidden_size, num_heads=1, batch_first=True) image_att, _ = self.mha_layer(hidden_states, image_embedding, image_embedding)
Kini kami mempunyai pembenaman yang mengandungi maklumat daripada ciri teks dan visual. Penulis kemudiannya menggunakan gabungan berpagar untuk menghasilkan set ciri akhir yang akan dihantar ke penyahkod. Terdapat dua langkah untuk gabungan berpagar:
W_I dan W_v pada asasnya adalah dua lapisan linear.
self.gate_dense = nn.Linear(2*config.hidden_size, config.hidden_size) self.sigmoid = nn.Sigmoid() hidden_states = encoder_outputs[0] merge = torch.cat([hidden_states, image_att], dim=-1) gate = self.sigmoid(self.gate_dense(merge)) hidden_states = (1 - gate) * hidden_states + gate * image_att
Akhir sekali, ciri bercantum dihantar kepada penyahkod.
decoder_outputs = self.decoder( input_ids=decoder_input_ids, attention_mask=decoder_attention_mask, inputs_embeds=decoder_inputs_embeds, past_key_values=past_key_values, encoder_hidden_states=hidden_states,
Inilah struktur yang diikuti oleh pengarang! Walau bagaimanapun, ingat bahawa terdapat dua fasa. Peringkat pertama adalah untuk menjana rasional/CoT. Peringkat kedua menggunakan CoT yang dihasilkan pada peringkat pertama untuk menjana jawapan, seperti yang ditunjukkan dalam rajah di atas.
Pengarang menggunakan pemberat model UnifiedQA sebagai titik permulaan model T5 dan memperhalusinya pada set data ScienceQA. Mereka mendapati bahawa kaedah CoT Multimodal mereka mengatasi semua garis dasar sebelumnya, termasuk GPT-3.5.
Apa yang menarik ialah model asas dengan hanya 223 juta parameter mengatasi GPT-3.5 dan model Visual QA yang lain! Ini menyerlahkan kuasa mempunyai seni bina multimodal.
Pengarang juga menunjukkan bahawa pendekatan dua peringkat mereka mengatasi pendekatan satu peringkat.
Keuntungan terbesar daripada kertas ini ialah ciri berbilang modal berguna dalam menyelesaikan masalah dengan Betapa hebatnya ciri visual dan teks apabila ia datang kepada soalan.
Pengarang menunjukkan bahawa memanfaatkan ciri visual, walaupun model bahasa kecil (LM) boleh menghasilkan rantaian pemikiran/penaakulan yang bermakna dengan lebih kurang halusinasi, mendedahkan bahawa model visual Peranan yang boleh dimainkannya membangunkan teknologi pembelajaran berdasarkan rantaian pemikiran.
Daripada percubaan, kami melihat bahawa menambahkan ciri visual pada kos berjuta-juta parameter boleh membawa nilai yang lebih besar daripada menskalakan model teks biasa kepada berbilion parameter.
Atas ialah kandungan terperinci Terokai generasi baharu model kecil yang melangkaui GPT 3.5.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!