Semuanya bermula dengan kemunculan ChatGPT...
Komuniti NLP yang dahulunya aman ketakutan dengan kedatangan "raksasa" yang tiba-tiba ini! Semalaman, seluruh bulatan NLP telah mengalami perubahan yang besar. Industri telah menyusuli dengan cepat, modal telah melonjak, dan ia telah memulakan jalan mereplikasi ChatGPT tiba-tiba jatuh ke dalam keadaan kekeliruan... Semua orang perlahan-lahan mula percaya bahawa "NLP telah diselesaikan!"
Namun, dilihat dari kalangan akademik NLP yang masih aktif baru-baru ini dan aliran kerja cemerlang yang tidak berkesudahan, ini bukanlah kes, malah boleh dikatakan "NLP baru sahaja menjadi nyata!"
Dalam beberapa bulan lalu, Universiti Beihang, Mila, Universiti Sains dan Teknologi Hong Kong, ETH Zurich (ETH ), Universiti Waterloo, Kolej Dartmouth, Selepas penyelidikan yang sistematik dan komprehensif, banyak institusi seperti Universiti Sheffield dan Akademi Sains China menghasilkan kertas setebal 110 halaman, yang menghuraikan secara sistematik rantaian teknologi dalam era pasca-ChatGPT: interaksi.
Apakah itu interaksi?
Sebenarnya konsep “interaksi” tidak dibayangkan oleh pengarang. Sejak kemunculan ChatGPT, banyak kertas kerja telah diterbitkan mengenai isu baharu dalam dunia NLP, seperti:
LM berinteraksi dengan manusia untuk lebih memahami dan memenuhi keperluan pengguna, respons yang diperibadikan dan penjajaran dengan nilai kemanusiaan ), dan menambah baik keseluruhan pengalaman pengguna;
LM berinteraksi dengan pangkalan pengetahuan untuk memperkayakan pengetahuan fakta yang dinyatakan dalam bahasa, meningkatkan perkaitan latar belakang pengetahuan bagi respons dan menggunakan maklumat luaran secara dinamik untuk menghasilkan Respons yang lebih tepat;
Biarkan model bahasa berinteraksi dengan orang Interaksi boleh dibahagikan kepada tiga cara:
Gunakan gesaan untuk berkomunikasi
Gunakan maklum balas untuk belajar
"Berkomunikasi menggunakan gesaan" terutamanya tertumpu pada sifat interaksi masa nyata dan berterusan, iaitu, ia menekankan sifat berterusan pelbagai pusingan dialog. Ini selaras dengan idea AI Perbualan [8]. Iaitu, melalui beberapa pusingan dialog, biarkan pengguna terus bertanya, supaya tindak balas model bahasa perlahan-lahan sejajar dengan keutamaan pengguna semasa dialog. Pendekatan ini biasanya tidak memerlukan pelarasan parameter model semasa interaksi.
"Belajar menggunakan maklum balas" ialah cara penjajaran utama pada masa ini, iaitu membenarkan pengguna memberi maklum balas kepada respons model bahasa ini boleh menjadi "baik/buruk". yang menerangkan keutamaan ” anotasi juga boleh menjadi maklum balas yang lebih terperinci dalam bentuk bahasa semula jadi. Model perlu dilatih untuk membuat maklum balas ini setinggi mungkin. Contoh biasa ialah RLHF [7] yang digunakan oleh InstructGPT Ia mula-mula menggunakan data maklum balas keutamaan berlabel pengguna untuk respons model untuk melatih model ganjaran, dan kemudian menggunakan model ganjaran ini untuk melatih model bahasa dengan algoritma RL tertentu untuk memaksimumkan ganjaran. (seperti yang ditunjukkan di bawah) ).
Melatih model bahasa untuk mengikuti arahan dengan maklum balas manusia [7]
"Gunakan konfigurasi untuk melaraskan" ialah kaedah interaksi khas yang membolehkan pengguna melaraskan secara langsung hiperparameter model bahasa (seperti suhu), atau mod lata model bahasa, dsb. Contoh biasa ialah Rangkaian AI Google [9]. Model bahasa dengan gesaan pratetap yang berbeza disambungkan antara satu sama lain untuk membentuk rantaian penaakulan untuk memproses tugasan yang diperkemas. Pengguna boleh melaraskan kaedah sambungan nod ini melalui seret dan lepas UI.
"Belajar daripada simulasi manusia" boleh menggalakkan penggunaan berskala besar bagi tiga kaedah di atas, kerana terutamanya dalam proses latihan, menggunakan pengguna sebenar adalah tidak realistik. Sebagai contoh, RLHF biasanya perlu menggunakan model ganjaran untuk mensimulasikan pilihan pengguna. Contoh lain ialah ITG Microsoft Research [10], yang menggunakan model oracle untuk mensimulasikan tingkah laku penyuntingan pengguna.
Baru-baru ini, Profesor Stanford Percy Liang dan yang lain telah membina skema penilaian yang sangat sistematik untuk interaksi Manusia-LM: Menilai Interaksi Model Bahasa Manusia [11], pembaca yang berminat boleh Rujuk kertas ini atau teks asal.
Terdapat tiga langkah untuk model bahasa berinteraksi dengan asas pengetahuan:
Secara umumnya, berinteraksi dengan pangkalan pengetahuan boleh mengurangkan "halusinasi" model bahasa, iaitu, meningkatkan fakta, ketepatan, dan lain-lain outputnya juga boleh membantu meningkatkan ketepatan masa model bahasa, membantu menambah pengetahuan dan keupayaan model bahasa (seperti yang ditunjukkan di bawah), dsb.
MineDojo [16]: Apabila ejen model bahasa menemui tugas yang tidak diketahui, ia boleh belajar daripada asas pengetahuan Cari bahan kajian, dan kemudian selesaikan tugasan ini dengan bantuan bahan.
"Sumber Pengetahuan" terbahagi kepada dua jenis, satu pengetahuan korpus tertutup (Corpus Knowledge), seperti WikiText, dsb.[15]; ialah pengetahuan rangkaian terbuka (Internet Knowledge), seperti pengetahuan yang boleh diperolehi menggunakan enjin carian [14].
“Pencarian Pengetahuan” dibahagikan kepada empat kaedah:
Model bahasa berinteraksi dengan model atau alatan, terutamanya Tujuannya adalah untuk menguraikan tugas-tugas yang kompleks, seperti menguraikan tugas-tugas penaakulan kompleks kepada beberapa sub-tugas, yang juga merupakan idea teras Rantaian Pemikiran [17]. Subtugas yang berbeza boleh diselesaikan menggunakan model atau alat dengan keupayaan yang berbeza Contohnya, tugasan pengkomputeran boleh diselesaikan menggunakan kalkulator, dan tugas mendapatkan semula boleh diselesaikan menggunakan model perolehan. Oleh itu, interaksi jenis ini bukan sahaja dapat meningkatkan keupayaan penaakulan, perancangan, dan membuat keputusan model bahasa, tetapi juga mengurangkan batasan model bahasa seperti "halusinasi" dan output yang tidak tepat. Khususnya, apabila alat digunakan untuk melaksanakan sub-tugas tertentu, ia mungkin mempunyai kesan tertentu pada dunia luar, seperti menggunakan API WeChat untuk menyiarkan kalangan rakan, dsb., yang dipanggil "Berorientasikan Alat Pembelajaran" [ 2].
Selain itu, kadangkala sukar untuk menguraikan tugas yang kompleks secara eksplisit. Dalam kes ini, peranan atau kemahiran yang berbeza boleh diberikan kepada model bahasa yang berbeza, dan kemudian Biarkan model bahasa ini secara tersirat dan automatik membentuk pembahagian kerja semasa proses kerjasama dan komunikasi bersama untuk mengurai tugas. Jenis interaksi ini bukan sahaja dapat memudahkan proses penyelesaian tugas yang kompleks, tetapi juga mensimulasikan masyarakat manusia dan membina beberapa bentuk masyarakat ejen pintar.
Pengarang menggabungkan model dan alatan, terutamanya kerana model dan alatan tidak semestinya dua kategori yang berasingan, contohnya, alat enjin carian dan model retriever tidak penting. Intipati ini ditakrifkan oleh pengarang menggunakan "selepas penguraian tugas, jenis subtugas yang dilakukan oleh objek jenis apa".
Apabila model bahasa berinteraksi dengan model atau alat, terdapat tiga jenis operasi:
Nota: Berfikir terutamanya bercakap tentang "Rantaian Pemikiran Pelbagai Peringkat", iaitu: langkah penaakulan yang berbeza, sepadan dengan bahasa Panggilan model yang berbeza (berbilang model run), bukannya menjalankan model sekali dan mengeluarkan pemikiran+jawapan pada masa yang sama (model tunggal dijalankan) seperti Vanilla CoT [17]. ungkapan ReAct [18].
Tugas biasa Pemikiran termasuk ReAct [18], Paling Kurang Mendorong [19], Tanya Sendiri [20], dsb. Sebagai contoh, Least-to-Most Prompting [19] mula-mula menguraikan masalah yang kompleks kepada beberapa sub-masalah modul mudah, dan kemudian secara berulang memanggil model bahasa untuk menyelesaikannya satu demi satu.
Kerja tipikal lakonan termasuk ReAct [18], HuggingGPT [21], Toolformer [22], dsb. Sebagai contoh, Toolformer [22] memproses korpus pra-latihan model bahasa ke dalam bentuk dengan gesaan penggunaan alat Oleh itu, model bahasa terlatih boleh secara automatik memanggil alat yang betul pada masa yang tepat apabila menjana alat luaran (. seperti enjin carian, alat terjemahan, alat masa, kalkulator, dsb.) menyelesaikan sub-masalah tertentu.
Bekerjasama terutamanya termasuk:
Berinteraksi dengan persekitaran
Model bahasa dan persekitaran tergolong kepada dua kuadran berbeza: model bahasa dibina pada simbol teks abstrak dan mahir dalam penaakulan peringkat tinggi, perancangan, membuat keputusan dan tugas-tugas lain manakala persekitaran dibina di atas isyarat deria tertentu (seperti maklumat visual, maklumat pendengaran , dsb.), dan simulasi Atau beberapa tugas peringkat rendah mungkin berlaku secara semula jadi, seperti menyediakan pemerhatian, maklum balas, peralihan keadaan, dsb. (contohnya: sebiji epal jatuh ke tanah di dunia nyata, dan "menjalar" muncul dalam enjin simulasi di hadapan anda).
Oleh itu, untuk membolehkan model bahasa berinteraksi secara berkesan dan cekap dengan persekitaran, ia merangkumi dua aspek usaha:
Asas Modaliti: membolehkan model bahasa memproses maklumat berbilang modal seperti imej dan audio
Terdapat dua pertimbangan utama untuk Affordance Grounding, iaitu: cara melaksanakan (1) persepsi skala adegan (persepsi skala adegan) di bawah syarat tugasan yang diberikan, dan (2 ) tindakan yang mungkin. Contohnya:
Sebagai contoh, dalam adegan di atas, tugasan yang diberikan "Sila tutup lampu di ruang tamu" dan "Persepsi skala pemandangan" memerlukan kami mencari semua lampu dengan kotak merah, bukannya memilih yang hijau yang tidak ada di ruang tamu tetapi di dapur Untuk lampu yang dibulatkan, "tindakan yang mungkin" memerlukan kita untuk menentukan cara yang boleh dilakukan untuk mematikan lampu Sebagai contoh, menarik lampu tali memerlukan tindakan "tarik". dan menghidupkan dan mematikan lampu memerlukan tindakan "suis togol".
Secara amnya, Affordance Grounding boleh diselesaikan menggunakan fungsi nilai yang bergantung pada persekitaran, seperti SayCan [31], dsb., atau model pembumian khusus seperti Grounded Decoding [ 32] tunggu. Ia juga boleh diselesaikan dengan berinteraksi dengan orang, model, alatan, dll. (seperti yang ditunjukkan di bawah).
Monolog Dalaman [33]
Dalam bab Antaramuka Interaksi kertas kerja, penulis secara sistematik membincangkan penggunaan, kebaikan dan keburukan interaksi yang berbeza bahasa dan media interaksi , termasuk:
Kertas ini juga membincangkannya secara menyeluruh, dalam terperinci dan sistematik Pelbagai kaedah interaksi, terutamanya termasuk:
Disebabkan had ruang, artikel ini tidak memperincikan perbincangan lain, seperti penilaian, aplikasi, etika, keselamatan dan arahan pembangunan masa hadapan. Walau bagaimanapun, kandungan ini masih menduduki 15 halaman dalam teks asal kertas, jadi pembaca disyorkan untuk melihat lebih banyak butiran dalam teks asal Berikut ialah garis besar kandungan ini:
Penilaian interaksi
Perbincangan penilaian dalam kertas kerja terutamanya melibatkan kata kunci berikut:
Aplikasi utama NLP interaktif
Etika dan Keselamatan
Membincangkan kesan model bahasa interaktif terhadap pendidikan, dan turut membincangkan isu etika dan keselamatan seperti berat sebelah sosial dan privasi.
Hal Tuju Pembangunan Masa Depan dan Cabaran
Atas ialah kandungan terperinci Apa lagi yang boleh dilakukan oleh NLP? Universiti Beihang, ETH, Universiti Sains dan Teknologi Hong Kong, Akademi Sains China dan institusi lain bersama-sama mengeluarkan kertas setebal seratus muka surat untuk menerangkan secara sistematik rantaian teknologi pasca-ChatGPT. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!