Dalam trend terkini dalam bidang kecerdasan buatan, kualiti gesaan yang dijana secara buatan mempunyai kesan yang tegas terhadap ketepatan tindak balas model bahasa besar (LLM). OpenAI mencadangkan bahawa soalan yang tepat, terperinci dan khusus adalah penting untuk prestasi model bahasa yang besar ini. Walau bagaimanapun, bolehkah pengguna biasa memastikan soalan mereka cukup jelas untuk LLM?
Kandungan yang perlu ditulis semula ialah: Perlu diingat bahawa terdapat perbezaan yang ketara antara pemahaman semula jadi manusia dalam situasi tertentu dan tafsiran mesin. Sebagai contoh, konsep "bulan genap" jelas merujuk kepada bulan seperti Februari dan April kepada manusia, tetapi GPT-4 mungkin salah faham sebagai bulan dengan bilangan hari genap. Ini bukan sahaja mendedahkan batasan kecerdasan buatan dalam memahami konteks harian, tetapi juga mendorong kita untuk memikirkan cara berkomunikasi dengan model bahasa besar ini dengan lebih berkesan. Dengan kemajuan berterusan teknologi kecerdasan buatan, cara merapatkan jurang antara manusia dan mesin dalam pemahaman bahasa adalah topik penting untuk penyelidikan masa depan
Berkenaan perkara ini, Institut Penyelidikan Am yang diketuai oleh Profesor Gu Quanquan dari University of California , Los Angeles (UCLA) Makmal Kepintaran Buatan telah mengeluarkan laporan penyelidikan yang mencadangkan penyelesaian inovatif kepada masalah kekaburan dalam pemahaman masalah model bahasa besar (seperti GPT-4). Penyelidikan ini telah disiapkan oleh pelajar kedoktoran Deng Yihe, Zhang Weitong dan Chen Zixiang
Keputusan
Para penyelidik menjalankan eksperimen pada tugas yang berbeza, dan keputusan menunjukkan bahawa kedua-dua RaR satu langkah dan RaR dua langkah boleh meningkatkan ketepatan jawapan GPT4 dengan berkesan Terutama sekali, RaR menunjukkan peningkatan ketara pada tugasan yang mungkin mencabar untuk GPT-4, malah menghampiri ketepatan 100% dalam beberapa kes. Pasukan penyelidik meringkaskan dua kesimpulan utama berikut:
Para penyelidik menggunakan kaedah RaR Dua langkah untuk menjalankan penyelidikan untuk meneroka prestasi model yang berbeza seperti GPT-4, GPT-3.5 dan Vicuna-13b-v.15. Keputusan eksperimen menunjukkan bahawa untuk model dengan seni bina yang lebih kompleks dan keupayaan pemprosesan yang lebih kukuh, seperti GPT-4, kaedah RaR boleh meningkatkan ketepatan dan kecekapan masalah pemprosesan dengan ketara. Untuk model yang lebih mudah, seperti Vicuna, walaupun peningkatannya lebih kecil, ia masih menunjukkan keberkesanan strategi RaR. Berdasarkan ini, penyelidik meneliti lagi kualiti soalan selepas menceritakan semula model yang berbeza. Soalan pernyataan semula untuk model yang lebih kecil kadangkala boleh mengganggu niat soalan. Dan model lanjutan seperti GPT-4 menyediakan soalan pengulangan yang sepadan dengan niat manusia dan boleh meningkatkan jawapan model lain #Penemuan ini mendedahkan fenomena penting: terdapat perbezaan dalam kualiti dan keberkesanan soalan yang dilatih oleh tahap yang berbeza. model bahasa. Terutama untuk model lanjutan seperti GPT-4, masalah yang dinyatakan semula bukan sahaja memberikan mereka pemahaman yang lebih jelas tentang masalah itu, tetapi juga boleh berfungsi sebagai input yang berkesan untuk meningkatkan prestasi model lain yang lebih kecil.
Perbezaan antara RaR dan rantaian pemikiran (CoT)Untuk memahami perbezaan antara RaR dan rantaian pemikiran (CoT) Para penyelidik membentangkan rumusan matematik mereka dan menggambarkan bagaimana RaR berbeza secara matematik daripada CoT dan bagaimana ia boleh digabungkan dengan mudah.
Sebelum mendalami cara meningkatkan keupayaan inferens model, kajian ini menunjukkan bahawa kualiti soalan harus dipertingkatkan. untuk memastikan Dapat menilai dengan betul keupayaan inferens model. Sebagai contoh, dalam masalah "flip syiling", didapati GPT-4 memahami "flip" sebagai tindakan melambung secara rawak, yang berbeza dengan niat manusia. Walaupun "mari kita fikir langkah demi langkah" digunakan untuk membimbing model dalam penaakulan, salah faham ini masih akan berterusan semasa proses inferens. Hanya selepas menjelaskan soalan, model bahasa besar menjawab soalan yang dimaksudkan ,Selain teks soalan, soalan dan jawapan , contoh untuk CoT beberapa pukulan juga ditulis oleh manusia. Ini menimbulkan persoalan: Bagaimanakah model bahasa besar (LLM) bertindak balas apabila contoh yang dibina secara buatan ini cacat? Kajian ini memberikan contoh yang menarik dan mendapati contoh CoT beberapa pukulan yang lemah boleh memberi kesan negatif kepada LLM. Mengambil tugas "Surat Akhir Sertai" sebagai contoh, contoh masalah yang digunakan sebelum ini menunjukkan kesan positif dalam meningkatkan prestasi model. Walau bagaimanapun, apabila logik segera berubah, seperti daripada mencari huruf terakhir kepada mencari huruf pertama, GPT-4 memberikan jawapan yang salah. Fenomena ini menyerlahkan sensitiviti model kepada contoh tiruan.
Para penyelidik mendapati bahawa menggunakan RaR, GPT-4 boleh membetulkan kelemahan logik dalam contoh yang diberikan, dengan itu menambah baik Kualiti dan keteguhan CoT
KesimpulanModel Bahasa Manusia dan Besar (LLM) mungkin salah faham dalam komunikasi: soalan yang kelihatan jelas kepada manusia mungkin difahami oleh model bahasa yang besar seperti soalan lain. Pasukan penyelidik UCLA menyelesaikan masalah ini dengan mencadangkan RaR, kaedah baru yang mendorong LLM untuk menyatakan semula dan menjelaskan soalan sebelum menjawabnya
Keberkesanan RaR Ini telah disahkan oleh penilaian percubaan pada beberapa set data penanda aras. Keputusan analisis lanjut menunjukkan bahawa kualiti masalah boleh dipertingkatkan dengan menyatakan semula masalah, dan kesan penambahbaikan ini boleh dipindahkan antara model yang berbeza
Atas ialah kandungan terperinci Biarkan model AI besar bertanya soalan secara autonomi: GPT-4 memecahkan halangan untuk bercakap dengan manusia dan menunjukkan tahap prestasi yang lebih tinggi. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!