Kami tahu bahawa daripada model Google T5 hingga model besar siri OpenAI GPT, model bahasa besar (LLM) telah menunjukkan keupayaan generalisasi yang mengagumkan, seperti pembelajaran konteks dan penaakulan rantaian pemikiran. Pada masa yang sama, untuk menjadikan LLM mengikut arahan bahasa semula jadi dan menyelesaikan tugas dunia sebenar, penyelidik telah meneroka kaedah penalaan halus arahan untuk LLM. Ini dilakukan dalam dua cara: menggunakan gesaan dan maklum balas beranotasi manusia untuk memperhalusi model pada pelbagai tugas, atau menggunakan penanda aras awam dan set data ditambah dengan arahan yang dijana secara manual atau automatik untuk menyelia penalaan halus.
Antara kaedah ini, Penalaan Kendiri Arahan Kendiri ialah kaedah yang mudah dan berkesan yang belajar daripada arahan berikutan data yang dijana oleh LLM guru penalaan halus arahan SOTA, menjadikan LLM setanding kepada manusia Penjajaran yang disengajakan. Fakta telah membuktikan bahawa penalaan halus arahan telah menjadi cara yang berkesan untuk meningkatkan keupayaan generalisasi sampel sifar dan sampel kecil LLM.
Kejayaan ChatGPT dan GPT-4 baru-baru ini memberikan peluang besar untuk menggunakan penalaan halus arahan untuk menambah baik LLM sumber terbuka. Meta LLaMA ialah keluarga LLM sumber terbuka dengan prestasi yang setanding dengan LLM proprietari seperti GPT-3. Untuk mengajar LLaMA mengikut arahan, Arahan Kendiri telah diterima pakai dengan cepat kerana prestasi unggul dan kos yang rendah. Sebagai contoh, model Alpaca Stanford menggunakan sampel pematuhan arahan 52k yang dijana oleh GPT-3.5, dan model Vicuna menggunakan kira-kira 70k sampel pematuhan arahan daripada ShareGPT.
Untuk memajukan tahap SOTA bagi penalaan halus arahan, Microsoft Research menggunakan GPT-4 sebagai model guru untuk penalaan halus arahan kendiri buat kali pertama dalam kertas "Penalaan Arahan dengan GPT-4" .
Di satu pihak, penyelidik mengeluarkan data yang dijana oleh GPT-4, termasuk set data pematuhan arahan 52k dalam bahasa Cina dan Inggeris, dan data maklum balas yang dijana oleh GPT-4 untuk menilai output ketiga-tiga arahan model penalaan halus.
Sebaliknya, model LLaMA penalaan halus arahan dan model ganjaran telah dibangunkan berdasarkan data yang dijana oleh GPT-4. Untuk menilai kualiti LLM penalaan halus arahan, para penyelidik menilai sampel ujian menggunakan tiga metrik: penilaian manual bagi tiga kriteria penjajaran, penilaian automatik berdasarkan maklum balas GPT-4 dan ROUGE-L (kaedah penilaian ringkasan automatik untuk arahan tidak semulajadi) satu).
Hasil percubaan mengesahkan keberkesanan arahan penalaan halus LLM menggunakan data yang dijana oleh GPT-4. Data pematuhan arahan bahasa Cina dan Inggeris 52k yang dijana oleh GPT-4 mencapai prestasi sampel sifar yang lebih baik pada tugas baharu berbanding model SOTA sebelumnya. Pada masa ini, penyelidik telah mendedahkan data yang dijana menggunakan GPT-4 dan kod berkaitan.
Kajian ini menggunakan GPT-4 untuk menjana empat set data berikut:
Rajah 1 membandingkan set respons output Bahasa Inggeris GPT-4 dan GPT-3.5. Rajah 1 (a) dan (b) menunjukkan dua set keluaran pasangan kata kerja-kata nama dengan kekerapan lebih tinggi daripada 10. Rajah 1 (c) membandingkan 25 pasangan perkataan yang paling kerap dalam dua set tersebut taburan kekerapan panjang jujukan, dan keputusan menunjukkan bahawa GPT-4 cenderung untuk menghasilkan jujukan yang lebih panjang daripada GPT-3.5.
Kajian ini berdasarkan pusat pemeriksaan LLaMA 7B dan menggunakan penalaan halus diselia untuk melatih dua model: ( i) LLaMA-GPT4, dilatih pada data pematuhan arahan Bahasa Inggeris 52K yang dijana oleh GPT-4. (ii) LLaMA-GPT4-CN, dilatih pada arahan bahasa Cina 52K mengikut data yang dijana daripada GPT-4.
Model Ganjaran
Pembelajaran Pengukuhan dengan Maklum Balas Manusia (RLHF) bertujuan untuk menyelaraskan tingkah laku LLM dengan keutamaan manusia, Ganjaran pemodelan adalah salah satu bahagian utamanya, dan masalahnya sering dirumuskan sebagai tugas regresi untuk meramalkan ganjaran antara isyarat yang diberikan dan tindak balas. Walau bagaimanapun, kaedah ini biasanya memerlukan data perbandingan berskala besar Model sumber terbuka sedia ada seperti Alpaca, Vicuna dan Dolly tidak melibatkan RLHF kerana kos yang tinggi untuk membuat anotasi data perbandingan. Pada masa yang sama, penyelidikan baru-baru ini menunjukkan bahawa GPT-4 dapat mengenal pasti dan membaiki ralatnya sendiri dan menilai dengan tepat kualiti respons. Oleh itu, untuk memudahkan penyelidikan mengenai RLHF, kajian ini mencipta data perbandingan menggunakan GPT-4, seperti yang dinyatakan di atas.
Untuk menilai kualiti data, kajian ini juga melatih model ganjaran berdasarkan OPT 1.3B untuk penilaian pada set data ini. Taburan data perbandingan ditunjukkan dalam Rajah 2.
Kajian ini menggunakan tiga jenis berikut untuk penilaian : Penilaian manusia, GPT-4, dan penilaian arahan luar tabii. Keputusan mengesahkan bahawa menggunakan data yang dijana oleh GPT-4 ialah kaedah yang cekap dan berkesan untuk memperhalusi arahan LLM berbanding dengan data jana mesin yang lain. Seterusnya kita melihat proses eksperimen tertentu.
Penilaian manusia
Rajah 3 (a) ialah hasil perbandingan LLaMA-GPT4 vs Alpaca eksperimen menunjukkan bahawa dalam Di bawah penunjuk Kebergunaan, GPT-4 menang dengan skor 54.12%. Rajah 3(b) menunjukkan hasil perbandingan LLaMA-GPT4 lwn GPT-4, menunjukkan bahawa prestasi LLaMA diperhalusi oleh arahan GPT-4 adalah serupa dengan GPT-4 asal.
Perbandingan dengan SOTA menggunakan penilaian automatik
Kajian menggunakan GPT-4 untuk menilai secara automatik respons model yang berbeza pada 80 soalan yang tidak kelihatan. Mula-mula kumpulkan jawapan daripada dua bot sembang, LLaMA-GPT-4 (7B) dan GPT-4, dan gunakan bot sembang lain untuk menerbitkan jawapan, termasuk LLaMA (13B), Alpaca (13B), Vicuna (13B), Bard (Google, 2023) dan ChatGPT. Untuk setiap penilaian, kajian meminta GPT-4 menilai kualiti tindak balas antara kedua-dua model pada skala 1 hingga 10. Keputusan ditunjukkan dalam Rajah 4.
Rajah 4 (c,d) membandingkan semua chatbots. LLaMA_GPT4 berprestasi lebih baik: 7B LLaMA GPT4 berprestasi lebih baik daripada 13B Alpaca dan LLaMA. Walau bagaimanapun, LLaMA_GPT4 masih mempunyai jurang berbanding dengan chatbot komersial yang besar seperti GPT-4.
Para penyelidik mengkaji lagi prestasi semua chatbot dalam Rajah 5 di bawah. Mula-mula gunakan GPT-4 untuk menterjemahkan jawapan bahasa Inggeris chatbot ke dalam bahasa Cina, dan kemudian gunakan GPT-4 untuk menterjemah soalan bahasa Inggeris ke bahasa Cina untuk mendapatkan jawapannya. Perbandingan dengan terjemahan GPT-4 dan respons bahasa Cina yang dihasilkan ditunjukkan dalam 5 (a) dan 5 (b), dengan semua keputusan model diminta menjawab dalam bahasa Cina ditunjukkan dalam 5 (c).
Dalam Rajah 6 di bawah, penyelidik membandingkan LLaMA-GPT4 dengan arahan luar tabii GPT-4 dan Alpaca. Keputusan menunjukkan bahawa LLaMA-GPT4 dan GPT-4 berprestasi lebih baik apabila panjang tindak balas kebenaran tanah meningkat. Ini bermakna mereka boleh mengikut arahan dengan lebih baik apabila adegan lebih kreatif. Kedua-dua LLaMA-GPT4 dan GPT-4 boleh menjana respons yang mengandungi jawapan kebenaran asas yang mudah apabila panjang jujukan adalah pendek, dan menambah perkataan tambahan boleh menjadikan respons lebih seperti sembang.
Sila rujuk kertas asal untuk butiran lanjut teknikal dan eksperimen.
Atas ialah kandungan terperinci Buat pertama kali: Microsoft menggunakan GPT-4 untuk memperhalusi arahan model besar, dan prestasi sifar sampel tugas baharu dipertingkatkan lagi.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!