Dalam beberapa tahun kebelakangan ini, dengan perkembangan pesat teknologi soal jawab dan teknologi pemahaman pelbagai mod, tugasan menjawab soalan visual (Visual Question Answering) telah menjadi semakin popular. Set data menjawab soalan visual berskala besar seperti VQA, CLEVER dan Visual-7W telah dikeluarkan satu demi satu, yang telah menggalakkan perkembangan berulang tugas menjawab soalan visual. Walau bagaimanapun, kebanyakan data menjawab soalan visual semasa adalah soalan yang disintesis secara buatan, seperti "Apakah warna matanya yang direka bentuk secara rekaan oleh anotasi selepas melihat gambar itu?" Data yang dijana secara manual akan menjadi agak mudah, berkualiti rendah dan malah berat sebelah. Oleh itu, dalam kerja ini, kami mencadangkan set data soalan dan jawapan imej berasaskan Cina berskala besar: ChiQA berdasarkan soalan sebenar daripada pengguna dalam pelayar QQ.
ChiQA mengandungi lebih 40,000 pertanyaan pengguna sebenar dan lebih 200,000 pasangan imej soalan. Data dan beberapa model asas telah diterbitkan di GitHub. Penyelidikan yang berkaitan telah diterima ke dalam artikel panjang CIKM2022.
Alamat kertas: https://arxiv.org/abs/2208.03030
Alamat Github: https://github.com/benywon/ChiQA
Menjawab Soalan ialah salah satu tugas yang sangat penting dalam kecerdasan buatan dan pemprosesan bahasa pintar. Dalam beberapa tahun kebelakangan ini, dengan keluaran set data berskala besar (seperti SQuAD, NaturalQuestions) dan pengenalan model bahasa pra-latihan berskala besar (seperti BERT, GPT), tugasan soal jawab telah berkembang pesat. Walau bagaimanapun, kebanyakan tugasan menjawab soalan semasa adalah unimodal, iaitu soalan, sumber dan jawapan semuanya berasaskan teks. Walau bagaimanapun, dari perspektif kecerdasan kognitif dan aplikasi praktikal, sumber pelbagai modal seperti imej selalunya boleh memberikan maklumat dan jawapan yang lebih kaya. Contohnya, untuk soalan: Apakah dimensi iPhone13? Carta perbandingan saiz untuk model iPhone13 yang berbeza akan menjadi lebih jelas dan intuitif. Terdapat juga beberapa contoh seperti yang ditunjukkan di bawah:
Rajah 1: Beberapa contoh di mana gambar sesuai untuk menjawab soalan pengguna
Dalam beberapa tahun kebelakangan ini, data soal jawab dan tugasan untuk pemahaman pelbagai modal telah dicadangkan satu demi satu. Seperti VQA1.0 dan 2.0, CLEVR, GQA, dsb. Dalam kebanyakan set data soalan dan jawapan imej, sistem menyediakan beberapa imej yang dijana secara buatan atau sebenar kepada anotor, dan anotor perlu menulis beberapa soalan secara manual yang menyasarkan atribut atau entiti tertentu. Walau bagaimanapun, proses pengumpulan data ini pasti mempunyai banyak kelemahan:
1) Semua soalan adalah bergantung kepada imej, iaitu, anotasi bertanya kepada mereka selepas melihat soalan bergambar. Dalam proses pembinaan data berskala besar, soalan yang dijana secara buatan selalunya tidak mempunyai kepelbagaian dan sering berat sebelah disebabkan oleh faktor subjektif penganotasi. Model yang dilatih mengenai data jenis ini yang melihat sumber dahulu dan kemudian bertanya soalan selalunya boleh mencapai keputusan yang sangat baik dengan melihat soalan tanpa melihat sumber latar belakang; Kedua, dalam data tradisional Dalam VQA, jawapannya selalunya merupakan entiti yang ringkas, perhubungan atau penerangan ringkas tentang kawasan tertentu. Walau bagaimanapun, untuk tugasan soalan dan jawapan imej sebenar, banyak jawapan teks yang tidak diperlukan Contohnya, untuk soalan: "Apakah rupa alpaca yang memberikan jawapan panjang yang menerangkan rupa alpaca adalah sangat berlebihan. Kedua, perihalan entiti pendek seperti ini sering menyebabkan anotasi hanya memberi perhatian kepada perhubungan tempatan dan kurang memberi perhatian kepada beberapa maklumat tentang struktur keseluruhan yang sebenar; sebelumnya Sumber cenderung menumpukan pada bahasa Inggeris, dengan data soalan dan jawapan imej yang sangat sedikit dalam domain bahasa Cina.
Dalam kerja ini, sebagai tindak balas kepada masalah di atas, kami mencadangkan set data soalan dan jawapan imej Cina berskala besar - ChiQA (Chinese Image Question Answering). Kami bermula dengan istilah carian sebenar pengguna dalam penyemak imbas QQ mudah alih, mendapatkan beberapa gambar berkaitan melalui API tertentu, dan kemudian menyerahkan gambar kepada anotor terlatih secara profesional untuk anotasi tiga peringkat untuk menunjukkan sama ada gambar itu boleh menjawab soalan dengan sempurna ( 2 mata ), sebahagiannya dijawab (1 mata), dan tidak dapat menjawab (0 mata) soalan pengguna. Untuk ChiQA, terdapat tiga ciri yang ketara:
Akhirnya kami mengumpul lebih daripada 40,000 soalan, setiap soalan mempunyai kira-kira 5 gambar yang berkaitan, iaitu sejumlah lebih daripada 200,000 pasangan gambar soalan. Setiap soalan mempunyai beberapa gambar, dan kami menjaringkan setiap gambar pada skala tiga langkah 2-1-0. Beberapa contoh dalam ChiQA ditunjukkan di bawah:
Gamb : Contoh beberapa sampel dalam ChiQA.
Pengumpulan data: Semua soalan datang daripada pertanyaan pengguna sebenar Keseluruhan proses pengumpulan data boleh dibahagikan kepada empat langkah Carta alir keseluruhan adalah seperti berikut :
Rajah 4: Proses pengumpulan data
Jadi kita perlu menapis pertanyaan terlebih dahulu dengan niat soal jawab. Dalam kerja ini, kami menggunakan kaedah penyeliaan lemah yang dibina secara dalaman untuk melatih pengelas binari bagi menentukan sama ada pertanyaan mempunyai niat menjawab soalan. Penilaian manusia terhadap model niat ini dapat mencapai 90% ketepatan dan 80% ingat kembali. Kami menggunakan model ini untuk sampel pertanyaan pengguna dan memperoleh kira-kira 75,000 pertanyaan pengguna yang dinilai oleh model mempunyai niat Soal Jawab dan memasuki pusingan seterusnya.
Selepas mendapat soalan, kami menghantar soalan ini ke API terbuka yang disediakan oleh Google (Google Images API - SerpApi) untuk mendapatkan semula imej yang berkaitan. API Google mengembalikan 100 imej yang paling berkaitan untuk setiap pertanyaan. Untuk memastikan kualiti data akhir, kami mengalih keluar pertanyaan yang panjang atau lebarnya kurang daripada 200 piksel dan imej yang terlalu panjang atau terlalu lebar.
Selepas mendapat imej asal, kami mengambil 5 imej ditapis pertama dan meminta anotasi untuk menjelaskan pertanyaan ini dan 5 imej yang sepadan. Kami telah mereka bentuk antara muka anotasi khusus untuk tugasan ini, seperti yang ditunjukkan dalam rajah di bawah.
Rajah 5: Antara muka anotasi ChiQA
Semasa proses anotasi , kami meminta anotor untuk menandakan tiga aspek:
1) Anotasi masalah
Memandangkan kerja ini tertumpu pada Gambar Soal Jawab, sebenarnya, banyak soalan pengguna biasa tiada kaitan dengan Soal Jawab gambar (atau sukar dijawab dengan gambar). Oleh itu, kami terlebih dahulu meminta annotator untuk menandakan sama ada soalan ini boleh dianggap sebagai soalan soalan dan jawapan imej. Contohnya:
Jika soalan ialah "perbezaan antara xxx dan xxx", maka soalan ini akan dianggap sebagai soalan dengan niat soalan dan jawapan imej
Jika sesuatu soalan kabur, samar-samar, atau mengandungi inferens yang tidak berdasarkan fakta, maka soalan itu akan diklasifikasikan sebagai tidak mempunyai niat Soal Jawab imej dan tidak akan mengambil bahagian dalam proses anotasi imej seterusnya.
Beberapa contoh anotasi pertanyaan ditunjukkan dalam Rajah 6:
Rajah 6: Contoh daripada anotasi pertanyaan
2) Anotasi imej
Untuk pertanyaan yang sah dalam langkah sebelumnya, kami Labelkan 5 pertanyaan calonnya. Piawaian anotasi ialah anotasi 0-1-2 tiga peringkat, di mana:
Skor 0 bermakna imej tidak boleh digunakan untuk menjawab soalan ini sama sekali dan skor 2 bermakna kualiti imej boleh diterima dan boleh digunakan sepenuhnya. Jawab soalan ini secara bebas. Gambar dengan skor 1 berada di antara keduanya, yang bermaksud bahawa gambar itu berkaitan dengan pertanyaan, tetapi ia tidak boleh dijawab secara langsung. Pengguna mungkin memerlukan lebih banyak pertanyaan atau alasan untuk mendapatkan jawapan akhir. Beberapa contoh 0 mata, 1 mata dan 2 mata ditunjukkan dalam rajah di bawah:
Rajah 7: Untuk soalan " Cara menggunakan preposisi berbeza" ”, Contoh anotasi imej dan pemarkahan
3) Kawalan kualiti
Kami berada dalam keseluruhan proses anotasi Program kawalan kualiti yang ketat diterima pakai. Khususnya, kami akan menjemput 3 pasukan berkualiti untuk menjalankan anotasi percubaan dan memilih pasukan yang mempunyai kualiti anotasi terbaik untuk menganotasi semua data yang tinggal. Kedua, semasa proses anotasi, kami akan membahagikan data beranotasi kepada kelompok Untuk setiap kumpulan data, kami akan mengambil sampel satu perlima daripada data untuk pengesahan manual Jika kadar lulus data kurang daripada 90%, maka ini batch Data akan dikembalikan dan dilabel semula sehingga ketepatan data mencapai 90%.
Selepas kerja pengumpulan data, kami mendapati bahawa jika data diambil secara rawak dan dilabelkan, selalunya terdapat beberapa corak ringkas, dan kehadiran corak mudah sedemikian dalam jumlah besar dalam data mungkin berat sebelah model akhir. Oleh itu, kami mereka bentuk proses anotasi pembelajaran yang aktif. Khususnya, kami mula-mula akan meminta anotasi untuk menganotasi kumpulan data Selepas anotasi kumpulan data ini selesai, kami akan menggunakan kumpulan data ini untuk melatih model padanan imej teks transmembran. Selepas model dilatih, kami mula menggunakan model ini untuk "memilih" sampel baharu: jika model itu sangat tidak pasti tentang ramalan sampel baharu ini (iaitu, entropi ramalan pengelasan akhir adalah sangat besar), maka kami fikir sampel ini agak sukar untuk model Oleh itu, terdapat kebarangkalian yang lebih tinggi untuk mengekalkannya sehingga pertengahan pusingan seterusnya kebarangkalian yang lebih kecil sehingga pusingan seterusnya.
Kami mendapati bahawa proses pemilihan data pembelajaran aktif sememangnya menjadikan set data lebih tidak berat sebelah. Kami mendapati bahawa data berlabel dari peringkat pertama mengandungi beberapa berat sebelah yang tidak dapat dilihat. Sebagai contoh, soalan yang mengandungi perkataan "Petua" ditandakan sebagai soalan yang sah, tetapi hampir semua imej yang sepadan ditandakan sebagai tidak boleh dijawab (iaitu, 0 mata, oleh itu, model mungkin meramalkan soalan akhir secara langsung berdasarkan soalan dalam pertanyaan tanpa melihat hasil. Proses pembelajaran aktif ini mengurangkan kemungkinan jalan pintas berkeyakinan tinggi dan berat sebelah ini sukar untuk dipilih pada pusingan seterusnya, sekali gus mengurangkan kesan model ini.
Kami menapis secara rawak 2500 keping data daripada data beranotasi dan meminta anotasi yang berbeza untuk menganotasinya semula. Jika hasil anotasi adalah sama dengan hasil sebelumnya, data dikekalkan sebagai set ujian Jika ia berbeza, kami meminta "pakar" yang mengetahui tugas dengan baik untuk menganotasi semula data, dan akhirnya mendapat ujian 2362. data dan lebih daripada 40,000 data latihan. Maklumat statistik set latihan dan set ujian ditunjukkan dalam rajah di bawah:
Rajah 8: Maklumat statistik bagi set latihan dan set ujian dalam ChiQA
Selepas menganotasi data, kami melakukan statistik dan analisis pada data dalam ChiQA.
1) Analisa perkataan biasa pertanyaan:
Kami menggunakan segmentasi perkataan yang gagap untuk segmen pertanyaan, dan pertanyaan Perkataan in dipaparkan pada carta awan di bawah mengikut kekerapan:
Anda boleh melihat bahawa pertanyaan paling biasa dalam ChiQA ialah Perbezaan, ilustrasi, lokasi, dsb. Ini selaras dengan gerak hati kita, kerana kata-kata ini sememangnya soalan yang sangat sesuai untuk dijawab oleh gambar.
2) Analisis domain
Kami menggunakan pengelas pengelasan domain dalaman untuk melaksanakan semua pengelasan pertanyaan, hasil akhir ditunjukkan dalam rajah di bawah:
Anda boleh melihat bahawa data kami mengandungi data dalam banyak medan, dan tiada satu pun Data dalam medan mengambil kira majoriti mutlak. Ini memastikan pengedaran data kami adalah sekata. Kedua, kami juga mengira kata tanya dalam soalan, dan hasilnya adalah seperti yang ditunjukkan dalam rajah di bawah:
Anda boleh lihat kelas apa dan bagaimana dalam Soalan ChiQA seperti ini untuk majoriti, dan beberapa soalan lain juga mempunyai perkadaran yang besar.
3) Analisis imej
Selain soalan, kami juga melakukan analisis imej dalam ChiQA. Memandangkan kebanyakan imej adalah bebas bahasa, kami menggunakan model pengesanan sasaran DETR yang diiktiraf sebagai mempunyai prestasi cemerlang dalam industri untuk melombong entiti dalam imej. DETR boleh memetakan entiti dalam imej kepada entiti yang ditakrifkan oleh MS-COCO standard, seperti "orang", "anjing", dsb. Kami melombong entiti untuk setiap imej dalam ChiQA dan memaparkan taburan entiti frekuensi tertinggi dalam rajah di bawah:
boleh dilihat dalam ChiQA Lebih daripada 30 entiti muncul sekurang-kurangnya 1000 kali dalam , yang menunjukkan bahawa ChiQA ialah data imej yang sangat sekata dan meliputi kebanyakan medan Entiti yang paling kerap muncul ialah "orang", "telefon bimbit", "kereta", dll. Ini sama dengan pengagihan soalan.
4) Kemahiran menaakul
Untuk menganalisis data dengan lebih baik, kami juga menganalisis data ChiQA yang diperlukan kemahiran menaakul telah dianalisis. Fokus pada menganalisis 5 kemahiran yang memerlukan penaakulan:
Kami mengambil sampel 200 kepingan data ChiQA dan melabelkannya mengikut 5 piawaian di atas, sesetengah daripadanya mungkin memerlukan lebih daripada satu kemahiran menaakul. Hasilnya ditunjukkan di bawah.
Adalah dapat dilihat bahawa selain Grouding, lebih daripada 80% data ChiQA memerlukan pemahaman yang mendalam tentang hubungan teks dan kontras dalam imej. Ini sangat berbeza daripada kebanyakan data VQA sebelumnya. Kedua, terdapat beberapa soalan yang memerlukan logik dan perbandingan, menunjukkan bahawa data dalam ChiQA agak sukar. Kami percaya bahawa analisis kemahiran menaakul dalam ChiQA boleh membantu kami memahami data ini dengan lebih baik dan memberikan beberapa panduan priori untuk reka bentuk model seterusnya.
Dalam set data ChiQA, terdapat tiga peringkat pemarkahan anotasi: 0, 1, 2, jadi dalam eksperimen kami menguji indeks kedudukan model dan penunjuk pengelasan biasa. Terbahagi kepada tiga kategori:
Model Garis Dasar
Kami bereksperimen dengan berbilang model yang biasa digunakan pada set data ChiQA. Berikutan kerja pemadanan imej-teks sebelumnya, kami mula-mula mengekod imej dan teks menggunakan pengekod masing-masing, kemudian melakukan gabungan mod silang perwakilan mereka, dan akhirnya menggunakan lapisan ramalan untuk mendapatkan skor padanan. Dalam model yang disenaraikan di bawah, menambah ♣ bermakna model telah dilatih dan menambah ♦ bermakna model itu belum dilatih.
Berikut ialah keputusannya:
The model di atas Penunjuk pada set ujian ditunjukkan dalam rajah. Kita dapat melihat bahawa aplikasi langsung kaedah silang mod tercanggih sebelum ini berprestasi buruk, dengan metrik hanya lebih baik sedikit daripada model pemarkahan rawak. Ini bermakna data ChiQA adalah sukar dan model yang hanya menggunakan pembelajaran kontrastif berskala besar yang diselia dengan lemah, seperti ALBEF*, Wenlan, mungkin tidak dapat membezakan maklumat terperinci yang diperlukan untuk menjawab soalan visual. Tambahan pula, prestasi lemah model ini menggambarkan bahawa set data ChiQA adalah berbeza daripada data padanan teks imej yang diselia dengan lemah kerana padanan teks imej yang diselia dengan lemah memfokuskan pada korelasi, manakala data ChiQA juga memerlukan kebolehjawaban imej.
Akhirnya, model yang diperhalusi pada ChiQA telah mencapai kemajuan yang besar berbanding garis dasar, tetapi masih jauh daripada prestasi manusia, jadi model masih banyak yang perlu dilakukan pada set data ChiQA ruang untuk penambahbaikan.
Dengan perkembangan Internet, pengguna mempunyai permintaan yang lebih tinggi untuk soalan dan jawapan, dan sistem perlu menyediakan jawapan yang lebih intuitif dan mudah . Terutama dalam beberapa tahun kebelakangan ini, kandungan multimedia telah menjadi semakin banyak, dan semakin banyak kandungan Soal Jawab berdasarkan gambar dan video telah muncul di hadapan orang ramai. Pasukan QQ Browser Lab Lizhi adalah yang pertama dalam industri melancarkan projek soal jawab bergambar pada bulan April tahun ini, sebagai contoh, jika pengguna mencari perbezaan antara buah kiwi dan buah kiwi, hasilnya akan dipaparkan secara intuitif di hadapan. pengguna dalam bentuk gambar. Seperti yang ditunjukkan dalam gambar di bawah:
Pada masa ini, masalah seperti ini yang boleh dipuaskan secara langsung dengan gambar telah mencapai hasil yang baik selepas ia masuk ke dalam talian. Kami telah memerhatikan bahawa tingkah laku penggunanya (seperti CTR, kadar penggantian perkataan, dsb.) telah dipertingkatkan dengan ketara berbanding keputusan tradisional, menunjukkan bahawa "Soal Jawab baharu" semasa berdasarkan gambar, dsb., ialah perniagaan produk yang lebih baik. memenuhi keperluan pengguna.
Pengenalan kepada pasukan pengarang
Pasukan Pusat Teknologi Carian Pelayar QQ ialah pasukan yang bertanggungjawab untuk penyelidikan teknologi carian dan pembangunan platform maklumat dan talian perkhidmatan Tencent PCG, ia memacu inovasi produk melalui penyelidikan pengguna, menyediakan grafik kepada pengguna , maklumat, novel, Video panjang dan pendek, perkhidmatan dan keperluan maklumat pelbagai segi lain dipenuhi. Dari segi algoritma, berdasarkan pemprosesan bahasa semula jadi, pembelajaran mendalam, pemahaman dan penjanaan pelbagai mod, pengiraan dan aplikasi pengetahuan dan teknologi lain, kami membina pemahaman kandungan, korelasi dan pengisihan, carian pelbagai mod, soal jawab pintar, pelbagai- terjemahan bahasa, carian Disyorkan dan arahan teknikal lain, meneroka dan menggunakan teknologi termaju industri untuk mencipta pengalaman carian pengguna yang lebih baik dari segi kejuruteraan, membina sistem perindustrian peringkat pertengahan untuk teknologi carian dan menggilap prestasi tinggi, ketersediaan tinggi; , sistem perolehan berpuluh-puluh bilion peringkat kos rendah untuk menyediakan Tencent dengan PCG menyediakan perkhidmatan enjin carian asas untuk senario carian pelbagai perniagaan kandungan Pada masa ini ia menyokong pelbagai rangkaian produk PCG seperti Pelayar QQ, Tencent Video, Tencent News dan Tencent Weishi.
Atas ialah kandungan terperinci ChiQA - set data soalan dan jawapan bergambar berdasarkan 200,000 soalan pengguna sebenar. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!