


Meta membangunkan teknologi penyulingan Sistem 2, dan ketepatan tugas model dialog Llama 2 hampir 100%
Penyelidik mengatakan bahawa jika penyulingan Sytem 2 boleh menjadi ciri penting sistem AI pembelajaran berterusan masa hadapan, ia boleh meningkatkan lagi prestasi tugasan inferens di mana Sistem 2 tidak berfungsi dengan baik.
Mengenai strategi model bahasa besar (LLM), umumnya terdapat dua jenis, satu ialah Sistem segera 1 (tindak balas pantas), dan satu lagi ialah Sistem 2 (berfikir perlahan).
Di mana penaakulan Sistem 2 mengutamakan pemikiran yang bernas, pemikiran perantaraan generatif membolehkan model (atau manusia) menaakul dan merancang untuk berjaya menyelesaikan tugas atau bertindak balas kepada arahan. Dalam penaakulan Sistem 2, aktiviti mental yang bersungguh-sungguh diperlukan, terutamanya dalam situasi di mana Sistem 1 (pemikiran yang lebih automatik) boleh menjadi serba salah.
Oleh itu, Sistem 1 ditakrifkan sebagai aplikasi Transformer yang boleh menjana tindak balas secara langsung berdasarkan input tanpa menjana token perantaraan. Sistem 2 ditakrifkan sebagai mana-mana kaedah yang menjana token perantaraan, termasuk kaedah yang melakukan carian atau berbilang gesaan dan kemudian akhirnya menjana respons.
Industri telah mencadangkan satu siri teknologi Sistem 2 yang berkaitan, termasuk rantaian pemikiran, pokok pemikiran, peta pemikiran, resolusi cawangan dan penggabungan, Perhatian Sistem 2, Ungkapan Semula dan Balas (RaR), dsb. Banyak kaedah menunjukkan hasil yang lebih tepat terima kasih kepada inferens eksplisit ini, tetapi berbuat demikian selalunya datang dengan kos inferens dan kependaman tindak balas yang lebih tinggi. Oleh itu, kebanyakan kaedah ini tidak digunakan dalam sistem pengeluaran dan kebanyakannya digunakan dalam Sistem 1.
Bagi manusia, proses pembelajaran untuk memindahkan kemahiran daripada sengaja (Sistem 2) kepada automatik (Sistem 1) dikenali dalam psikologi sebagai automatik, dan penggunaan ingatan prosedur. Contohnya, apabila memandu ke tempat kerja buat kali pertama, orang ramai sering menggunakan usaha yang sedar untuk merancang dan membuat keputusan untuk sampai ke destinasi mereka. Selepas pemandu mengulangi laluan ini, proses pemanduan akan "disusun" ke dalam minda bawah sedar. Begitu juga, sukan seperti tenis boleh menjadi "sifat kedua."
Dalam artikel ini, penyelidik dari Meta FAIR meneroka pendekatan model AI yang serupa. Kaedah ini melakukan penyusunan dengan cara tanpa pengawasan diberikan satu set contoh tidak berlabel dan dipanggil penyulingan Sistem 2. Untuk setiap contoh, mereka menggunakan kaedah Sistem 2 yang diberikan dan kemudian mengukur kualiti ramalan dengan cara yang tidak diselia.
Sebagai contoh, untuk tugasan dengan jawapan yang unik, penyelidik menggunakan ketekalan diri dan sampel beberapa kali. Untuk contoh Sistem 2 yang cukup konsisten, mereka menganggap bahawa hasil ini harus disuling dan ditambah pada kolam penyulingan. Sistem 1 kemudiannya diperhalusi untuk memadankan ramalan kaedah Sistem 2 pada kumpulan contoh yang dikumpul, tetapi tanpa menjana langkah perantaraan. Rajah 1 di bawah menggambarkan keseluruhan proses penyulingan Sistem 2 ke dalam Sistem 1.
Para penyelidik menjalankan eksperimen ke atas 4 kaedah Sistem 2 LLM yang berbeza dan 5 tugasan yang berbeza. Didapati bahawa kaedah kami boleh menyaring penaakulan Sistem 2 kembali ke dalam Sistem 1 dalam pelbagai tetapan, kadangkala lebih baik daripada keputusan guru Sistem 2. Tambahan pula, ramalan ini kini boleh dihasilkan pada sebahagian kecil daripada kos pengiraan.
Sebagai contoh, mereka mendapati penyulingan yang berjaya boleh digunakan untuk tugas menangani pendapat berat sebelah atau maklumat yang tidak relevan (Perhatian Sistem 2), menjelaskan dan menambah baik respons dalam tugas penaakulan tertentu (RaR), dan penilaian terperinci LLM (cawangan- Selesaikan - gabung).
Walau bagaimanapun, tidak semua tugasan boleh disaring ke dalam Sistem 1, terutamanya tugasan penaakulan matematik kompleks yang memerlukan rantaian pemikiran. Ini juga dicerminkan pada manusia, yang tidak dapat melaksanakan tugas tertentu tanpa penaakulan Sistem 2 yang bernas.
Alamat kertas: https://arxiv.org/pdf/2407.06023v2
Menyuling Sistem 2 kembali ke Sistem 1
Persediaan: Sistem 1 dan Sistem model masukan 🜎2 penyelidik mempertimbangkan untuk menyediakan model tunggal, dalam kes mereka model bahasa besar (LLM), yang dapat melaksanakan dua mod tindak balas:
- Sistem 1: Menjana output secara langsung y. Pendekatan jenis ini berfungsi dengan memajukan lapisan rangkaian neural autoregresif (Transformer) untuk menjana token output.
- Sistem 2. Kaedah sedemikian menggunakan Transformer asas untuk menjana sebarang jenis token keluaran perantaraan z sebelum menjana token respons akhir, mungkin termasuk berbilang panggilan (petunjuk).
- Secara formal, penyelidik menganggap model Sistem 2 S_II sebagai fungsi yang menerima LLM p_θ dan input x, dan boleh berulang kali memanggil LLM untuk menjana penanda perantaraan z menggunakan algoritma tertentu, dan kemudian mengembalikan output y:
Kaedah Sistem 2 mungkin melibatkan berbilang petunjuk, cawangan, lelaran dan carian, sambil menggunakan LLM untuk menjana hasil perantaraan untuk pemprosesan selanjutnya. Sebaliknya, model Sistem 1 hanya menganggap input asal Input berlabel Walau bagaimanapun, mereka terdedah kepada bunyi bising: sesetengah respons ini mungkin berkualiti tinggi, manakala yang lain mungkin berkualiti rendah atau tidak betul. Untuk tugasan menjawab soalan dan penaakulan ringkas yang melibatkan respons pendek, selalunya dengan jawapan betul (tetapi tidak diketahui) yang unik, penyelidik telah mempertimbangkan langkah pengurusan tanpa pengawasan untuk cuba meningkatkan kualiti data latihan. Mereka mempertimbangkan dua varian berikut yang bergantung pada kriteria ketekalan diri:
Ketekalan diri di bawah gangguan input: Gangguan input x^i dengan cara yang output kekal tidak berubah, seperti menukar susunan soalan berbilang pilihan dalam gesaan, dan mengira S_II untuk setiap gangguan jika output adalah tidak konsisten, buang Contoh.
Kemudian penyelidik memperoleh set data sintetik (X_S_II, Y_S_II), di mana X_S_II ialah subset yang ditapis bagi X dan sasarannya ialah Y_S_II. Langkah terakhir ialah menggunakan set latihan suling ini untuk melaksanakan penyeliaan penalaan halus LLM dengan parameter p_θ. Penyelidik biasanya memulakan model ini daripada keadaan semasa p_θ dan kemudian meneruskan latihan dengan set data baharu. Selepas penalaan halus, mereka memperoleh LLM
- Hasil eksperimen
- Tetapan latihan dan penilaian
- Para penyelidik menggunakan Llama-2-70B-chat sebagai model asas untuk semua eksperimen. Mereka memerlukan model asas dengan kuasa yang mencukupi untuk berjalan dengan cekap seperti model Sistem 2, sementara juga mempunyai pemberat terbuka yang boleh diperhalusi, oleh itu pilihan ini.
Untuk Sistem 1, penyelidik menggunakan model asas terlaras arahan sebagai garis dasar standard untuk inferens pukulan sifar. Mereka melaporkan metrik khusus tugasan untuk setiap tugasan, serta metrik "#Token", yang mengukur purata bilangan token yang dijana setiap input pada set penilaian. Kaedah Sistem 2 termasuk penjanaan token perantaraan dan penjanaan token output akhir.
Frasa Semula dan Balas Penyulingan
RaR ialah pendekatan Sistem 2 yang mula-mula menggesa model bahasa untuk menyusun semula soalan asal dengan cara yang lebih terperinci, dan kemudian menjana respons berdasarkan soalan yang diutarakan semula, dengan matlamat untuk menyediakan keluaran yang lebih baik. Untuk data penyulingan, penyelidik menggunakan ketekalan diri output untuk membina set data penyulingan Sistem 2 untuk RaR. Untuk setiap input, mereka melakukan lapan lelaran pensampelan pada tugasan huruf terakhir dan lapan lelaran pensampelan pada setiap peringkat tugas flip syiling, kemudian menggunakan undian majoriti untuk menentukan output akhir .
Mari kita lihat tugasan
Last letter Concatenation. Tugasan ini memberi tumpuan kepada penaakulan simbolik, yang memerlukan model untuk menyambung huruf terakhir perkataan yang diberikan. Keputusan keseluruhan ditunjukkan dalam Jadual 1 di bawah.
Model Sistem 1 garis dasar (Llama-2-70B-chat) mencapai ketepatan 30.0%, iaitu lebih rendah daripada kaedah 1-Langkah dan 2-Langkah RaR Sistem 2 (masing-masing 39.5% dan 44.5%). Dengan menyaring kaedah RaR 2-Langkah kembali ke dalam model sembang Llama-2-70B Sistem 1 melalui teknik tanpa pengawasan ini, ketepatan yang menakjubkan sebanyak 98.0% dicapai.
Berbanding dengan model sembang sifar tangkapan, model ini boleh belajar dengan berkesan cara menyelesaikan tugas daripada data latihan ini. Penyulingan RaR berkesan mewarisi kelebihan Sistem 2 dan Sistem 1, mengekalkan kelebihan ketepatan Sistem 2, manakala kos inferensnya bersamaan dengan Sistem 1.
Kembali keTugas Penaakulan Flip Syiling
. Tugas penaakulan simbolik ini, sering diuji dalam penyelidikan, melibatkan penentuan bahagian akhir syiling (kepala atau ekor), bermula dari kedudukan awal yang diketahui melalui satu siri lambungan yang diterangkan dalam bahasa semula jadi, seperti "Syiling mendarat di atas kepala." .Keputusan keseluruhan ditunjukkan dalam Jadual 1 di atas. Sembang Llama-2-70B (sampel sifar) mencapai kadar kejayaan 56.1% pada tugasan ini, manakala RaR 1 Langkah dan 2 Langkah masing-masing mencapai kadar kejayaan 58.5% dan 77.2%. Oleh itu, penambahbaikan besar telah diperoleh menggunakan pendekatan 2 Langkah. Penyulingan 2-Langkah RaR kembali ke Sistem 1 Llama-2-70B-chat melalui teknik tanpa pengawasan kami menghasilkan 75.69% hasil.
Oleh itu, model Sistem 2 yang disuling memberikan prestasi yang setanding dengan Sistem 2 (2 Langkah RaR), tetapi tanpa perlu melaksanakan program LLM menggunakan 2 petunjuk.
Penyulingan Perhatian Sistem 2
Weston dan Sukhbaatar (2023) mencadangkan Sistem 2 Perhatian (S2A), yang membantu mengurangkan perangkap inferens model, seperti bergantung pada maklumat berat sebelah dalam input atau memfokuskan pada konteks yang tidak relevan .
Para penyelidik mengesahkan kebolehlaksanaan penyulingan S2A ke dalam Sistem 1, khususnya tugas menjawab soalan SycophancyEval, yang mengandungi maklumat berat sebelah dalam input yang diketahui boleh membahayakan prestasi LLM.
Keputusan ditunjukkan dalam Jadual 2 di bawah, melaporkan ketepatan purata 3 biji rawak. Seperti yang dijangkakan, garis dasar (System1) LLM mempunyai ketepatan yang lebih rendah pada bahagian berat sebelah dan terdedah kepada input berat sebelah. S2A meningkatkan prestasi dengan ketara pada input berat sebelah. Penyulingan Sistem 2 mempamerkan prestasi kukuh yang serupa dengan kaedah Sistem 2.
Sila rujuk kertas asal untuk lebih banyak hasil eksperimen.
Atas ialah kandungan terperinci Meta membangunkan teknologi penyulingan Sistem 2, dan ketepatan tugas model dialog Llama 2 hampir 100%. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

Video Face Swap
Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas











Ia juga merupakan video Tusheng, tetapi PaintsUndo telah mengambil laluan yang berbeza. Pengarang ControlNet LvminZhang mula hidup semula! Kali ini saya menyasarkan bidang lukisan. Projek baharu PaintsUndo telah menerima 1.4kstar (masih meningkat secara menggila) tidak lama selepas ia dilancarkan. Alamat projek: https://github.com/lllyasviel/Paints-UNDO Melalui projek ini, pengguna memasukkan imej statik, dan PaintsUndo secara automatik boleh membantu anda menjana video keseluruhan proses mengecat, daripada draf baris hingga produk siap . Semasa proses lukisan, perubahan garisan adalah menakjubkan Hasil akhir video sangat serupa dengan imej asal: Mari kita lihat lukisan lengkap.

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Semua pengarang kertas kerja ini adalah daripada pasukan guru Zhang Lingming di Universiti Illinois di Urbana-Champaign (UIUC), termasuk: Steven Code repair; pelajar kedoktoran tahun empat, penyelidik

sorakan! Bagaimana rasanya apabila perbincangan kertas adalah perkataan? Baru-baru ini, pelajar di Universiti Stanford mencipta alphaXiv, forum perbincangan terbuka untuk kertas arXiv yang membenarkan soalan dan ulasan disiarkan terus pada mana-mana kertas arXiv. Pautan laman web: https://alphaxiv.org/ Malah, tidak perlu melawati tapak web ini secara khusus. Hanya tukar arXiv dalam mana-mana URL kepada alphaXiv untuk terus membuka kertas yang sepadan di forum alphaXiv: anda boleh mencari perenggan dengan tepat dalam. kertas itu, Ayat: Dalam ruang perbincangan di sebelah kanan, pengguna boleh menyiarkan soalan untuk bertanya kepada pengarang tentang idea dan butiran kertas tersebut Sebagai contoh, mereka juga boleh mengulas kandungan kertas tersebut, seperti: "Diberikan kepada

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Dalam proses pembangunan kecerdasan buatan, kawalan dan bimbingan model bahasa besar (LLM) sentiasa menjadi salah satu cabaran utama, bertujuan untuk memastikan model ini adalah kedua-duanya. berkuasa dan selamat untuk masyarakat manusia. Usaha awal tertumpu kepada kaedah pembelajaran pengukuhan melalui maklum balas manusia (RL

Jika jawapan yang diberikan oleh model AI tidak dapat difahami sama sekali, adakah anda berani menggunakannya? Memandangkan sistem pembelajaran mesin digunakan dalam bidang yang lebih penting, menjadi semakin penting untuk menunjukkan sebab kita boleh mempercayai output mereka, dan bila tidak mempercayainya. Satu cara yang mungkin untuk mendapatkan kepercayaan dalam output sistem yang kompleks adalah dengan menghendaki sistem menghasilkan tafsiran outputnya yang boleh dibaca oleh manusia atau sistem lain yang dipercayai, iaitu, difahami sepenuhnya sehingga apa-apa ralat yang mungkin boleh dilakukan. dijumpai. Contohnya, untuk membina kepercayaan dalam sistem kehakiman, kami memerlukan mahkamah memberikan pendapat bertulis yang jelas dan boleh dibaca yang menjelaskan dan menyokong keputusan mereka. Untuk model bahasa yang besar, kita juga boleh menggunakan pendekatan yang sama. Walau bagaimanapun, apabila mengambil pendekatan ini, pastikan model bahasa menjana

Baru-baru ini, Hipotesis Riemann, yang dikenali sebagai salah satu daripada tujuh masalah utama milenium, telah mencapai kejayaan baharu. Hipotesis Riemann ialah masalah yang tidak dapat diselesaikan yang sangat penting dalam matematik, berkaitan dengan sifat tepat taburan nombor perdana (nombor perdana ialah nombor yang hanya boleh dibahagikan dengan 1 dan dirinya sendiri, dan ia memainkan peranan asas dalam teori nombor). Dalam kesusasteraan matematik hari ini, terdapat lebih daripada seribu proposisi matematik berdasarkan penubuhan Hipotesis Riemann (atau bentuk umumnya). Dalam erti kata lain, sebaik sahaja Hipotesis Riemann dan bentuk umumnya dibuktikan, lebih daripada seribu proposisi ini akan ditetapkan sebagai teorem, yang akan memberi kesan yang mendalam terhadap bidang matematik dan jika Hipotesis Riemann terbukti salah, maka antara cadangan ini sebahagian daripadanya juga akan kehilangan keberkesanannya. Kejayaan baharu datang daripada profesor matematik MIT Larry Guth dan Universiti Oxford

Bolehkah model bahasa benar-benar digunakan untuk ramalan siri masa? Menurut Undang-undang Tajuk Berita Betteridge (sebarang tajuk berita yang berakhir dengan tanda soal boleh dijawab dengan "tidak"), jawapannya mestilah tidak. Fakta nampaknya benar: LLM yang begitu berkuasa tidak dapat mengendalikan data siri masa dengan baik. Siri masa, iaitu, siri masa, seperti namanya, merujuk kepada satu set jujukan titik data yang disusun mengikut urutan masa. Analisis siri masa adalah kritikal dalam banyak bidang, termasuk ramalan penyebaran penyakit, analisis runcit, penjagaan kesihatan dan kewangan. Dalam bidang analisis siri masa, ramai penyelidik baru-baru ini mengkaji cara menggunakan model bahasa besar (LLM) untuk mengelas, meramal dan mengesan anomali dalam siri masa. Makalah ini menganggap bahawa model bahasa yang pandai mengendalikan kebergantungan berjujukan dalam teks juga boleh digeneralisasikan kepada siri masa.

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com. Pengenalan Dalam beberapa tahun kebelakangan ini, aplikasi model bahasa besar multimodal (MLLM) dalam pelbagai bidang telah mencapai kejayaan yang luar biasa. Walau bagaimanapun, sebagai model asas untuk banyak tugas hiliran, MLLM semasa terdiri daripada rangkaian Transformer yang terkenal, yang
