Kadar ketepatan pengekstrakan jawapan mencapai 96.88%, xFinder menghapuskan mentaliti 'menipu' model besar-AI-php.cn

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Pengarang pertama dan pengarang yang sepadan untuk artikel ini adalah kedua-duanya dari Institut Penyelidikan Inovasi Algoritma Shanghai. Antaranya, pengarang yang sepadan Dr. Li Zhiyu lulus dari Jabatan Sains Komputer Universiti Renmin China dan telah terlibat dalam pelaksanaan algoritma dan penyelidikan dalam syarikat Internet seperti Alibaba dan Xiaohongshu Beliau telah mengambil bahagian dalam projek termasuk ratusan bilion produk peta pengetahuan, peta pengguna dan peta pendapat awam, sebanyak lebih daripada 40 kertas kerja telah diterbitkan. Li Zhiyu kini bertanggungjawab untuk keseluruhan kerja penyelidikan dan pembangunan teknologi di jabatan model besar Institut Penyelidikan Inovasi Algoritma Shanghai (diketuai oleh Dr. Xiong Feiyu). Laman utama Institut: https://www.iaar.ac.cn/

Perkembangan pesat model bahasa besar (LLM) telah mencetuskan perbincangan hangat tentang cara menilai keadilan dan kebolehpercayaan mereka.

Walaupun rangka kerja penilaian sedia ada seperti OpenCompass, LM Eval Harness dan UltraEval serta pelbagai Penanda Aras memacu kemajuan industri, hanya terdapat beberapa pasukan yang memfokuskan pada kredibiliti atau pengukuran kebolehpercayaan komponen teras rangka kerja penilaian ini.

Baru-baru ini, pasukan penyelidik dari Institut Penyelidikan Inovasi Algoritma Shanghai dan Universiti Renmin China mengeluarkan kertas kerja bertajuk "xFinder: Pengekstrakan Jawapan Teguh dan Tepat untuk Model Bahasa Besar". Kertas kerja ini menyediakan analisis yang mendalam tentang keseluruhan proses rangka kerja penilaian LLM, memfokuskan pada menilai kebolehpercayaan dan ketekalan komponen pengekstrak jawapan dalam penilaian model besar. .

Muka berpeluk Pautan:

https://huggingface.co/collections/IAAR-Shanghai/xfinder-664b7b21e94e9a93f25a8412

Rangka kerja penilaian semasa terutamanya bergantung kepada masalah penilaian biasa (bergantung pada masalah biasa Ex) kecacatan kaedah ini. Keputusan semakan manual menunjukkan bahawa kadar ketepatan pengekstrakan terbaik hanya 74.38%, dan keputusan penilaian sangat tidak boleh dipercayai.
Selain itu, kaedah RegEx mudah dipasang secara sengaja atau tidak sengaja, meningkatkan kemungkinan "menipu" dan seterusnya menjejaskan kebolehpercayaan dan konsistensi keputusan penilaian. Rajah di bawah menunjukkan ralat pengekstrakan komponen RegEx dalam rangka kerja penilaian LLM.
Untuk menyelesaikan masalah ini dengan berkesan, pasukan penyelidik dari Institut Penyelidikan Inovasi Algoritma Shanghai dan Universiti Renmin China membangunkan model baharu yang dipanggil xFinder untuk mengekstrak jawapan utama dengan lebih tepat.

xFinder mempunyai kelebihan berikut:

(1) Ia tidak memerlukan output jawapan dalam format tertentu, mempunyai keteguhan pengekstrakan jawapan yang kukuh, dan ketepatan pengekstrakan adalah setinggi 95.18%, yang ketara. lebih baik daripada kaedah LLM RegEx terbaik semasa dalam rangka kerja penilaian.

(2) Menyokong pelbagai jenis soalan, secara automatik boleh menukar soalan aneka pilihan huruf kepada soalan kuiz, dan menyokong penilaian bercampur jenis soalan yang berbeza, dengan itu mengurangkan kemungkinan penguji menyesuaikan jenis soalan. Kadar ketepatan pengekstrakan jawapan mencapai 96.88%, xFinder menghapuskan mentaliti menipu model besar

Pengenalan kaedah

Proses pelaksanaan xFinder terutamanya termasuk penjanaan kandungan respons LLM, anotasi set data KAF dan latihan xFinder. Untuk mencapai latihan berkesan model xFinder, pasukan membina set data khusus - set data Pencari Jawapan Utama (KAF). Set data mengandungi 26,900 sampel latihan, 4,961 sampel ujian dan 4,482 sampel generalisasi, meliputi pelbagai tugas penilaian.响 Model bahasa besar bertindak balas untuk menghasilkan

Pertama sekali, pasukan penyelidik memilih beberapa set data tugasan penilaian biasa daripada tanda aras dan laporan penilaian utama yang sedia ada tugas pilihan teks, tugas label kategori dan tugasan matematik.

Kemudian, pasukan menggunakan siri LLM yang berbeza (seperti Qwen, InternLM, ChatGLM, dll.) untuk menjana pasangan data untuk tugasan ini. Melalui pelbagai LLM, pasukan menjana pasangan data yang kaya dan pelbagai, menyediakan sokongan data yang mencukupi untuk latihan model xFinder.

Anotasi automatik dan semakan manual

Pasukan menggunakan strategi untuk mengeluarkan jawapan utama daripada respons LLM dan menggunakannya sebagai label untuk membina set data KAF berkualiti tinggi. Untuk meningkatkan kecekapan anotasi set latihan, mereka menggunakan proses separa automatik, menggunakan GPT-4 untuk menjana dua set anotasi melalui gesaan yang berbeza, dan menggunakan strategi ketekalan diri untuk menapis item dengan anotasi tidak konsisten dan semua soalan matematik, dan menyerahkannya kepada semakan manual. Untuk memastikan kesahan dan kebolehpercayaan set ujian dan set generalisasi, semua label menjalani dua pusingan anotasi manual. Dalam Latihan XFINDER

Untuk meningkatkan kepelbagaian set data KAF dan keupayaan generalisasi model, pasukan penyelidik telah menggunakan dua strategi peningkatan data:

(1) simulasi respons LLM: 50 % daripada soalan pilihan huruf dalam set latihan KAF telah diubah suai dengan menambah atau memadam satu atau dua pilihan untuk mensimulasikan pelbagai respons LLM.

(2) Perkaya bentuk segera: Ekstrak 10% daripada respons LLM yang mengandungi ayat jawapan utama dan gantikan bahagian gesaan, contohnya, gantikan "Jawapan akhir ialah A" dengan "Berdasarkan konteks soalan, A adalah jawapan yang paling mungkin".

Selain itu, pasukan menggunakan alat XTuner dan kaedah QLoRA untuk memperhalusi model asas seperti siri Llama, siri Qwen dan siri Gemma, dan akhirnya memperoleh xFinder.

Hasil eksperimen

Pasukan menjalankan eksperimen yang meluas untuk menilai prestasi xFinder pada tugas yang berbeza dan membandingkannya dengan kaedah RegEx sedia ada. Keputusan pada set ujian KAF

Pada set ujian KAF, kadar ketepatan pengekstrakan purata XFinder-Qwen1505 mencapai 96.88%, yang jauh lebih tinggi daripada 74.38% kaedah regex dalam rangka kerja penilaian terbaik.

Secara khusus, ketepatan pengekstrakan xFinder-qwen1505 ialah 97.35% dalam tugasan pilihan huruf; %. Keputusan ini menunjukkan bahawa xFinder berfungsi dengan baik merentas pelbagai tugas, meningkatkan ketepatan dan kebolehpercayaan penilaian dengan ketara.

Hasil set generalisasi KAF

Pada set generalisasi KAF baharu (set generalisasi ini menggunakan LLM dan penjanaan tugas ujian berbeza daripada set latihan dan set ujian dalam set data KAF), xFinder daripada sampel set data KAF) -qwen1505 menunjukkan prestasi cemerlang, dengan ketepatan pengekstrakan purata 93.42%.

Hasil eksperimen menunjukkan bahawa xFinder bukan sahaja berprestasi lebih baik daripada rangka kerja penilaian berasaskan RegEx yang lain, malah jauh lebih baik daripada GPT-4, menunjukkan sepenuhnya keteguhan tinggi dan keupayaan generalisasinya.

Penilaian dalam senario dunia sebenar

Pasukan penyelidik menjalankan penilaian menyeluruh terhadap 10 LLM menggunakan xFinder dan rangka kerja penilaian tradisional. Tugas penilaian meliputi CommonsenseQA, BoolQ, GSM8K, dsb. Satu siri eksperimen perbandingan telah dijalankan dengan menggunakan lima skema pengekstrakan jawapan kepada 10 LLM yang berbeza.

Untuk meringkaskan, keputusan eksperimen terutamanya mendedahkan tiga penemuan utama:

(1) Kedudukan model yang sama di bawah rangka kerja yang berbeza selalunya mempunyai perbezaan yang besar, yang sukar untuk menggambarkan dengan tepat keupayaan sebenar model, menunjukkan Kurang konsisten.

(2) xFinders yang berbeza menunjukkan tahap konsistensi yang tinggi dalam eksperimen ini, dan juga mengatasi rangka kerja penilaian lain dalam ketepatan mengekstrak jawapan, menunjukkan bahawa xFinder ialah kaedah penilaian yang lebih dipercayai.

(3) Berbanding dengan tetapan pilihan huruf tradisional, secara langsung menggunakan teks pilihan boleh meningkatkan konsistensi kedudukan dengan ketara, mencerminkan ketidakstabilan tetapan pilihan huruf. Butiran lanjut dan keputusan eksperimen dibentangkan dalam lampiran, yang mengesahkan lagi kesahihan penemuan di atas.

Kesimpulan

Secara umum, xFinder meningkatkan ketepatan dan kebolehpercayaan penilaian LLM dengan mengoptimumkan modul pengekstrakan jawapan kunci. Keputusan eksperimen menunjukkan bahawa xFinder berfungsi dengan baik pada pelbagai tugasan dan mempunyai keupayaan keteguhan dan generalisasi yang tinggi. Pada masa hadapan, pasukan penyelidik akan terus mengoptimumkan xFinder dan mengkaji isu penilaian utama lain untuk menyediakan asas yang kukuh bagi penilaian prestasi LLM yang boleh dipercayai.

Atas ialah kandungan terperinci Kadar ketepatan pengekstrakan jawapan mencapai 96.88%, xFinder menghapuskan mentaliti 'menipu' model besar. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!