Penyelidik mengatakan bahawa jika penyulingan Sytem 2 boleh menjadi ciri penting sistem AI pembelajaran berterusan masa hadapan, ia boleh meningkatkan lagi prestasi tugasan inferens di mana Sistem 2 tidak berfungsi dengan baik.
Mengenai strategi model bahasa besar (LLM), umumnya terdapat dua jenis, satu ialah Sistem segera 1 (tindak balas pantas), dan satu lagi ialah Sistem 2 (berfikir perlahan).
Di mana penaakulan Sistem 2 mengutamakan pemikiran yang bernas, pemikiran perantaraan generatif membolehkan model (atau manusia) menaakul dan merancang untuk berjaya menyelesaikan tugas atau bertindak balas kepada arahan. Dalam penaakulan Sistem 2, aktiviti mental yang bersungguh-sungguh diperlukan, terutamanya dalam situasi di mana Sistem 1 (pemikiran yang lebih automatik) boleh menjadi serba salah.
Oleh itu, Sistem 1 ditakrifkan sebagai aplikasi Transformer yang boleh menjana tindak balas secara langsung berdasarkan input tanpa menjana token perantaraan. Sistem 2 ditakrifkan sebagai mana-mana kaedah yang menjana token perantaraan, termasuk kaedah yang melakukan carian atau berbilang gesaan dan kemudian akhirnya menjana respons.
Industri telah mencadangkan satu siri teknologi Sistem 2 yang berkaitan, termasuk rantaian pemikiran, pokok pemikiran, peta pemikiran, resolusi cawangan dan penggabungan, Perhatian Sistem 2, Ungkapan Semula dan Balas (RaR), dsb. Banyak kaedah menunjukkan hasil yang lebih tepat terima kasih kepada inferens eksplisit ini, tetapi berbuat demikian selalunya datang dengan kos inferens dan kependaman tindak balas yang lebih tinggi. Oleh itu, kebanyakan kaedah ini tidak digunakan dalam sistem pengeluaran dan kebanyakannya digunakan dalam Sistem 1.
Bagi manusia, proses pembelajaran untuk memindahkan kemahiran daripada sengaja (Sistem 2) kepada automatik (Sistem 1) dikenali dalam psikologi sebagai automatik, dan penggunaan ingatan prosedur. Contohnya, apabila memandu ke tempat kerja buat kali pertama, orang ramai sering menggunakan usaha yang sedar untuk merancang dan membuat keputusan untuk sampai ke destinasi mereka. Selepas pemandu mengulangi laluan ini, proses pemanduan akan "disusun" ke dalam minda bawah sedar. Begitu juga, sukan seperti tenis boleh menjadi "sifat kedua."
Dalam artikel ini, penyelidik dari Meta FAIR meneroka pendekatan model AI yang serupa. Kaedah ini melakukan penyusunan dengan cara tanpa pengawasan diberikan satu set contoh tidak berlabel dan dipanggil penyulingan Sistem 2. Untuk setiap contoh, mereka menggunakan kaedah Sistem 2 yang diberikan dan kemudian mengukur kualiti ramalan dengan cara yang tidak diselia.
Sebagai contoh, untuk tugasan dengan jawapan yang unik, penyelidik menggunakan ketekalan diri dan sampel beberapa kali. Untuk contoh Sistem 2 yang cukup konsisten, mereka menganggap bahawa hasil ini harus disuling dan ditambah pada kolam penyulingan. Sistem 1 kemudiannya diperhalusi untuk memadankan ramalan kaedah Sistem 2 pada kumpulan contoh yang dikumpul, tetapi tanpa menjana langkah perantaraan. Rajah 1 di bawah menggambarkan keseluruhan proses penyulingan Sistem 2 ke dalam Sistem 1.
Para penyelidik menjalankan eksperimen ke atas 4 kaedah Sistem 2 LLM yang berbeza dan 5 tugasan yang berbeza. Didapati bahawa kaedah kami boleh menyaring penaakulan Sistem 2 kembali ke dalam Sistem 1 dalam pelbagai tetapan, kadangkala lebih baik daripada keputusan guru Sistem 2. Tambahan pula, ramalan ini kini boleh dihasilkan pada sebahagian kecil daripada kos pengiraan.
Sebagai contoh, mereka mendapati penyulingan yang berjaya boleh digunakan untuk tugas menangani pendapat berat sebelah atau maklumat yang tidak relevan (Perhatian Sistem 2), menjelaskan dan menambah baik respons dalam tugas penaakulan tertentu (RaR), dan penilaian terperinci LLM (cawangan- Selesaikan - gabung).
Walau bagaimanapun, tidak semua tugasan boleh disaring ke dalam Sistem 1, terutamanya tugasan penaakulan matematik kompleks yang memerlukan rantaian pemikiran. Ini juga dicerminkan pada manusia, yang tidak dapat melaksanakan tugas tertentu tanpa penaakulan Sistem 2 yang bernas.
Alamat kertas: https://arxiv.org/pdf/2407.06023v2
Menyuling Sistem 2 kembali ke Sistem 1
Persediaan: Sistem 1 dan Sistem model masukan 🜎2 penyelidik mempertimbangkan untuk menyediakan model tunggal, dalam kes mereka model bahasa besar (LLM), yang dapat melaksanakan dua mod tindak balas:
Kaedah Sistem 2 mungkin melibatkan berbilang petunjuk, cawangan, lelaran dan carian, sambil menggunakan LLM untuk menjana hasil perantaraan untuk pemprosesan selanjutnya. Sebaliknya, model Sistem 1 hanya menganggap input asal Input berlabel Walau bagaimanapun, mereka terdedah kepada bunyi bising: sesetengah respons ini mungkin berkualiti tinggi, manakala yang lain mungkin berkualiti rendah atau tidak betul. Untuk tugasan menjawab soalan dan penaakulan ringkas yang melibatkan respons pendek, selalunya dengan jawapan betul (tetapi tidak diketahui) yang unik, penyelidik telah mempertimbangkan langkah pengurusan tanpa pengawasan untuk cuba meningkatkan kualiti data latihan. Mereka mempertimbangkan dua varian berikut yang bergantung pada kriteria ketekalan diri:
Ketekalan diri keluaran: Sampel S_II (x^i; p_θ) sebanyak N kali dan menerima respons undi majoriti; tiada majoriti Jika undi menang, contoh dibuang.Ketekalan diri di bawah gangguan input: Gangguan input x^i dengan cara yang output kekal tidak berubah, seperti menukar susunan soalan berbilang pilihan dalam gesaan, dan mengira S_II untuk setiap gangguan jika output adalah tidak konsisten, buang Contoh.
Kemudian penyelidik memperoleh set data sintetik (X_S_II, Y_S_II), di mana X_S_II ialah subset yang ditapis bagi X dan sasarannya ialah Y_S_II. Langkah terakhir ialah menggunakan set latihan suling ini untuk melaksanakan penyeliaan penalaan halus LLM dengan parameter p_θ. Penyelidik biasanya memulakan model ini daripada keadaan semasa p_θ dan kemudian meneruskan latihan dengan set data baharu. Selepas penalaan halus, mereka memperoleh LLM
, iaitu model Sistem 1 yang dijangka memberikan output dan peningkatan prestasi yang serupa kepada model Sistem 2 yang dinilai.Untuk Sistem 1, penyelidik menggunakan model asas terlaras arahan sebagai garis dasar standard untuk inferens pukulan sifar. Mereka melaporkan metrik khusus tugasan untuk setiap tugasan, serta metrik "#Token", yang mengukur purata bilangan token yang dijana setiap input pada set penilaian. Kaedah Sistem 2 termasuk penjanaan token perantaraan dan penjanaan token output akhir.
Frasa Semula dan Balas Penyulingan
RaR ialah pendekatan Sistem 2 yang mula-mula menggesa model bahasa untuk menyusun semula soalan asal dengan cara yang lebih terperinci, dan kemudian menjana respons berdasarkan soalan yang diutarakan semula, dengan matlamat untuk menyediakan keluaran yang lebih baik. Untuk data penyulingan, penyelidik menggunakan ketekalan diri output untuk membina set data penyulingan Sistem 2 untuk RaR. Untuk setiap input, mereka melakukan lapan lelaran pensampelan pada tugasan huruf terakhir dan lapan lelaran pensampelan pada setiap peringkat tugas flip syiling, kemudian menggunakan undian majoriti untuk menentukan output akhir .
Mari kita lihat tugasan
Last letter Concatenation. Tugasan ini memberi tumpuan kepada penaakulan simbolik, yang memerlukan model untuk menyambung huruf terakhir perkataan yang diberikan. Keputusan keseluruhan ditunjukkan dalam Jadual 1 di bawah.
Model Sistem 1 garis dasar (Llama-2-70B-chat) mencapai ketepatan 30.0%, iaitu lebih rendah daripada kaedah 1-Langkah dan 2-Langkah RaR Sistem 2 (masing-masing 39.5% dan 44.5%). Dengan menyaring kaedah RaR 2-Langkah kembali ke dalam model sembang Llama-2-70B Sistem 1 melalui teknik tanpa pengawasan ini, ketepatan yang menakjubkan sebanyak 98.0% dicapai.
Berbanding dengan model sembang sifar tangkapan, model ini boleh belajar dengan berkesan cara menyelesaikan tugas daripada data latihan ini. Penyulingan RaR berkesan mewarisi kelebihan Sistem 2 dan Sistem 1, mengekalkan kelebihan ketepatan Sistem 2, manakala kos inferensnya bersamaan dengan Sistem 1.
Kembali keTugas Penaakulan Flip Syiling
. Tugas penaakulan simbolik ini, sering diuji dalam penyelidikan, melibatkan penentuan bahagian akhir syiling (kepala atau ekor), bermula dari kedudukan awal yang diketahui melalui satu siri lambungan yang diterangkan dalam bahasa semula jadi, seperti "Syiling mendarat di atas kepala." .Keputusan keseluruhan ditunjukkan dalam Jadual 1 di atas. Sembang Llama-2-70B (sampel sifar) mencapai kadar kejayaan 56.1% pada tugasan ini, manakala RaR 1 Langkah dan 2 Langkah masing-masing mencapai kadar kejayaan 58.5% dan 77.2%. Oleh itu, penambahbaikan besar telah diperoleh menggunakan pendekatan 2 Langkah. Penyulingan 2-Langkah RaR kembali ke Sistem 1 Llama-2-70B-chat melalui teknik tanpa pengawasan kami menghasilkan 75.69% hasil.
Oleh itu, model Sistem 2 yang disuling memberikan prestasi yang setanding dengan Sistem 2 (2 Langkah RaR), tetapi tanpa perlu melaksanakan program LLM menggunakan 2 petunjuk.
Penyulingan Perhatian Sistem 2
Weston dan Sukhbaatar (2023) mencadangkan Sistem 2 Perhatian (S2A), yang membantu mengurangkan perangkap inferens model, seperti bergantung pada maklumat berat sebelah dalam input atau memfokuskan pada konteks yang tidak relevan .
Para penyelidik mengesahkan kebolehlaksanaan penyulingan S2A ke dalam Sistem 1, khususnya tugas menjawab soalan SycophancyEval, yang mengandungi maklumat berat sebelah dalam input yang diketahui boleh membahayakan prestasi LLM.
Keputusan ditunjukkan dalam Jadual 2 di bawah, melaporkan ketepatan purata 3 biji rawak. Seperti yang dijangkakan, garis dasar (System1) LLM mempunyai ketepatan yang lebih rendah pada bahagian berat sebelah dan terdedah kepada input berat sebelah. S2A meningkatkan prestasi dengan ketara pada input berat sebelah. Penyulingan Sistem 2 mempamerkan prestasi kukuh yang serupa dengan kaedah Sistem 2.
Sila rujuk kertas asal untuk lebih banyak hasil eksperimen.
Atas ialah kandungan terperinci Meta membangunkan teknologi penyulingan Sistem 2, dan ketepatan tugas model dialog Llama 2 hampir 100%. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!