Dengan sokongan model bahasa besar (LLM), hasil yang ketara telah dicapai dalam tugasan berbilang modal digabungkan dengan penglihatan, seperti penerangan imej, jawapan soalan visual (VQA) dan pengesanan objek perbendaharaan kata terbuka
Walau bagaimanapun, model bahasa visual (VLM) semasa pada asasnya hanya menggunakan maklumat visual dalam imej untuk menyelesaikan tugasan, dan selalunya berprestasi lemah pada set data seperti informeek dan OK-VQA yang memerlukan pengetahuan luaran untuk membantu menjawab soalan.
Baru-baru ini Google telah mengeluarkan kaedah carian maklumat visual autonomi baharu AVIS, yang menggunakan model bahasa besar (LLM) untuk merangka strategi secara dinamik untuk menggunakan alat luaran, termasuk memanggil API, menganalisis hasil output, membuat keputusan dan lain-lain operasi. Soal Jawab Imej menyediakan pengetahuan kritikal.
Sila klik pautan berikut untuk membaca kertas: https://arxiv.org/pdf/2306.08129.pdf
AVIS terutamanya mengintegrasikan tiga jenis alatan:
imej Alat untuk mengekstrak maklumat visual
2. Alat carian web untuk mendapatkan semula pengetahuan dan fakta dunia terbuka
3. Alat carian imej yang boleh digunakan untuk mendapatkan imej yang serupa secara visual
dan kemudian gunakan
mereka berdasarkan besar Perancang model bahasa memilih alat dan hasil pertanyaan pada setiap langkah untuk menjana jawapan kepada soalan secara dinamik.Simulasi pembuatan keputusan manusia
Banyak masalah visual dalam dataset Infoseek dan OK-VQA agak sukar walaupun untuk manusia dan biasanya memerlukan bantuan pelbagai alat luaran, jadi penyelidik memilih untuk menjalankan tinjauan pengguna terlebih dahulu dan memerhatikan Manusia penyelesaian kepada masalah penglihatan yang kompleks.Pertama, kami akan menyediakan pengguna dengan set alat yang tersedia, termasuk PALI, PALM dan carian web. Seterusnya, kami menunjukkan imej input, soalan, pemangkasan objek yang dikesan, entiti graf pengetahuan yang dipautkan daripada hasil carian imej, tajuk imej yang serupa, tajuk produk yang berkaitan dan penerangan imej
Seterusnya, penyelidik merekodkan operasi dan output pengguna, dan menggunakan dua kaedah untuk membimbing sistem menjawab:
1 Bina graf peralihan dengan menganalisis urutan keputusan yang dibuat oleh pengguna, yang mengandungi keadaan berbeza dan set operasi yang tersedia di setiap negeri Semua berbeza.
Kandungan yang ditulis semula: rajah penukaran AVIS Gambar rajah penukaran AVIS yang direka bentuk semula ialah perwakilan grafik yang digunakan untuk menggambarkan proses penukaran AVIS. Gambar rajah ini dengan jelas menggambarkan pelbagai peringkat dan langkah AVIS dan membentangkannya kepada pengguna dengan cara yang mudah difahami. Melalui gambarajah penukaran ini, pengguna boleh memahami dengan lebih baik prinsip kerja dan proses operasi AVIS. Reka bentuk carta ini ringkas dan jelas, membolehkan pengguna memahami proses penukaran AVIS dengan cepat. Kedua-dua pengguna pemula dan berpengalaman boleh dengan mudah memahami dan menggunakan proses penukaran melalui gambar rajah penukaran AVIS ini
Sebagai contoh, dalam keadaan permulaan, sistem hanya boleh melakukan tiga operasi: penerangan PALI, PALI VQA atau pengesanan sasaran .
Untuk meningkatkan prestasi dan keberkesanan sistem, contoh pembuatan keputusan manusia boleh digunakan untuk membimbing perancang dan penaakulan untuk berinteraksi dengan contoh konteks yang relevan
Rangka Kerja Keseluruhan
Pendekatan AVIS mengamalkan Keputusan dinamik -membuat strategi yang direka untuk menjawab pertanyaan untuk maklumat visualSistem ini terdiri daripada tiga komponen utama:
Kandungan yang perlu ditulis semula ialah: 1. Perancang (planner), digunakan untuk menentukan operasi seterusnya, termasuk panggilan API yang sesuai dan pertanyaan yang perlu diproses 2. Memori kerja (working memory) working memory, dikekalkan Maklumat keputusan yang diperoleh daripada pelaksanaan API. 3 Penaakulan digunakan untuk memproses output panggilan API dan boleh menentukan sama ada maklumat yang diperolehi mencukupi untuk menjana respons akhir, atau sama ada pengambilan data tambahan diperlukan Anda perlu memutuskan alat yang mana. untuk digunakan setiap kali Serta pertanyaan yang dihantar kepada sistem, perancang akan melaksanakan beberapa siri operasi berdasarkan status semasa, perancang juga akan menyediakan tindakan susulan yang berpotensi Untuk menyelesaikan masalah; bahawa ruang carian mungkin terlalu besar disebabkan terlalu banyak ruang tindakan yang berpotensi Masalahnya ialah perancang perlu merujuk kepada graf peralihan untuk menghapuskan tindakan yang tidak berkaitan, tidak termasuk tindakan yang telah diambil sebelum ini dan disimpan dalam memori kerja. Kemudian perancang mengumpulkan satu set contoh konteks daripada data penyelidikan pengguna, digabungkan dengan rekod interaksi alat sebelumnya, perancang merumuskan gesaan dan memasukkannya ke dalam model bahasa, dan LLM mengembalikan jawapan berstruktur , menentukan alat seterusnya untuk diaktifkan dan pertanyaan untuk dihantar. Keseluruhan proses reka bentuk boleh didorong oleh pelbagai panggilan kepada perancang untuk memacu keputusan dinamik dan menjana jawapan langkah demi langkah Penyelidik menggunakan penaakulan untuk menganalisis output pelaksanaan alat, mengekstrak maklumat berguna, dan tentukan Kategori output alat: jawapan bermaklumat, tidak bermaklumat atau muktamad Jika penaakulan mengembalikan hasil daripada "menyediakan jawapan", ia akan dikeluarkan secara langsung sebagai hasil akhir dan menamatkan tugas jika hasilnya tiada maklumat, ia akan kembali kepada perancangan dan memilih tindakan lain berdasarkan keadaan semasa; jika penaakulan menganggap output alat berguna, ia mengubah keadaan dan memindahkan kawalan kembali kepada perancang untuk membuat keputusan baharu dalam keadaan baharu. AVIS menggunakan strategi membuat keputusan yang dinamik untuk bertindak balas kepada pertanyaan carian maklumat visual Apa yang perlu ditulis semula ialah: Set alat 1 Model menjawab soalan visual, menggunakan model VQA PALI 17B, mengambil imej dan soalan sebagai input dan jawapan berasaskan teks sebagai output. Pengesanan objek, menggunakan pengesan objek yang dilatih pada superset set data Open Images, yang disediakan oleh Google Lens API khusus kategori menggunakan ambang keyakinan tinggi, hanya mengekalkan kotak pengesanan kedudukan teratas dalam imej input. Gunakan Carian Imej Google untuk mendapatkan maklumat pemangkasan imej yang berkaitan dengan kotak yang dikesan Apabila membuat keputusan, perancang menganggap penggunaan setiap maklumat sebagai operasi yang berasingan, kerana setiap Maklumat mungkin mengandungi beratus-ratus token, yang memerlukan pemprosesan dan penaakulan yang kompleks. Dalam sesetengah kes, imej mungkin mengandungi kandungan teks, seperti nama jalan atau nama jenama. Anda boleh menggunakan ciri Pengecaman Aksara Optik (OCR) dalam API Google Lens untuk mengekstrak teks ini Dengan menggunakan API Carian Google untuk carian web, anda boleh memasukkan pertanyaan teks dan mendapatkan hasil output pautan dan coretan dokumen yang berkaitan sambil juga Boleh menyediakan panel graf pengetahuan dengan jawapan langsung, dan sehingga lima soalan yang berkaitan dengan pertanyaan input
Hasil eksperimen
Tanpa penalaan halus, kaedah AVIS berjaya mencapai ketepatan 50.7% Pada set data OK-VQA, sistem AVIS mencapai ketepatan 60.2% di bawah tetapan beberapa tangkapan kedua , model PALI yang diperhalusi. Kebanyakan contoh soal jawab dalam OK-VQA bergantung pada pengetahuan akal dan bukannya pengetahuan halus, jadi perbezaan prestasi mungkin disebabkan oleh perkara ini. PALI dapat mengeksploitasi pengetahuan am yang dikodkan dalam parameter model tanpa bergantung pada bantuan pengetahuan luaran Ciri utama AVIS ialah keupayaan untuk membuat keputusan secara dinamik dan bukannya melaksanakan urutan tetap contoh Contoh menunjukkan fleksibiliti AVIS dalam menggunakan alat yang berbeza pada peringkat yang berbeza. Perlu diingat bahawa reka bentuk penaakulan dalam artikel ini membolehkan AVIS mengenal pasti maklumat yang tidak berkaitan, kembali ke keadaan sebelumnya dan mengulangi carian. Sebagai contoh, dalam contoh kedua tentang taksonomi kulat, AVIS pada mulanya membuat keputusan yang salah dengan memilih objek daun, mendapati ia tidak berkaitan dengan masalah, mendorong AVIS untuk merancang semula, dan kemudian berjaya memilih objek; yang berkaitan dengan masalah. Objek berkaitan kulat ekor ayam belanda palsu, sehingga tiba di jawapan yang betul, Stereum Para penyelidik mencadangkan kaedah baru AVIS, menggunakan LLM sebagai pusat perhimpunan untuk menjawab pengetahuan menggunakan pelbagai luaran alatan Masalah visual yang intensif. Dalam pendekatan ini, penyelidik memilih untuk menggunakan data pembuatan keputusan manusia yang dikumpul daripada kajian pengguna sebagai sauh, menerima pakai rangka kerja berstruktur dan menggunakan perancang berasaskan LLM untuk membuat keputusan secara dinamik pemilihan alat dan pembentukan pertanyaan The Penaakulan yang didorong oleh LLM boleh memproses dan mengekstrak maklumat penting daripada output alat yang dipilih, dengan menggunakan perancang dan penaakulan secara berulang untuk memilih alat yang berbeza sehingga semua maklumat yang diperlukan untuk menjawab soalan visual dikumpulkan Hasil eksperimen
Kesimpulan
Atas ialah kandungan terperinci Adakah penalaan halus 'soal jawab imej berasaskan pengetahuan' tidak berguna? Google mengeluarkan sistem carian AVIS: beberapa sampel mengatasi PALI yang diselia, dan ketepatannya meningkat tiga kali ganda. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!