Apakah pembelajaran arahan di sebalik ChatGPT? PSU menerbitkan ulasan komprehensif pertamanya tentang 'Pembelajaran Instruksional'-AI-php.cn

Semantik tugasan boleh diwakili oleh set input kepada contoh output atau arahan teks. Kaedah pembelajaran mesin pemprosesan bahasa semula jadi tradisional (NLP) bergantung terutamanya pada ketersediaan set sampel khusus tugasan berskala besar.

Tetapi dua masalah timbul: Pertama, kumpulkan contoh berlabel khusus tugas, yang tidak berkenaan apabila tugas itu mungkin terlalu rumit atau mahal untuk dianotasi, atau sistem memerlukan Senario di mana tugasan baharu diproses serta-merta, kedua, ini tidak mesra pengguna kerana pengguna akhir mungkin lebih suka memberikan penerangan tentang tugasan sebelum menggunakan sistem daripada satu set contoh.

Akibatnya, masyarakat semakin berminat dalam paradigma pencarian penyeliaan baharu untuk NLP: Daripada arahan tugas Belajar di . Walaupun kemajuan yang memberangsangkan, masyarakat masih menghadapi beberapa isu biasa.

Artikel ini cuba meringkaskan penyelidikan pembelajaran arahan semasa dari aspek berikut:

(1) Apakah arahan tugasan dan jenis apa arahan wujud?

(2) Bagaimana untuk memodelkan arahan?

(3) Apakah faktor yang mempengaruhi dan menjelaskan pelaksanaan arahan?

(4) Apakah cabaran lain yang wujud dalam arahan tersebut?

Untuk pengetahuan kami, ini adalah tinjauan komprehensif pertama bagi arahan teks.

Apakah pembelajaran arahan di sebalik ChatGPT? PSU menerbitkan ulasan komprehensif pertamanya tentang Pembelajaran Instruksional

Alamat kertas: https://arxiv.org/pdf/2303.10475v2.pdf

1 Pengenalan

Satu matlamat kecerdasan buatan adalah untuk membina sistem yang boleh memahami dan menyelesaikan tugas baharu secara universal. Contoh berlabel, sebagai perwakilan tugas arus perdana, tidak mungkin tersedia secara meluas atau bahkan tidak wujud. Jadi, adakah perwakilan tugas lain yang boleh menyumbang kepada pemahaman tugas? Arahan tugas menyediakan satu lagi dimensi penyeliaan untuk menyatakan semantik tugasan, dan arahan selalunya mengandungi pengetahuan yang lebih abstrak dan komprehensif tentang tugasan sasaran daripada satu contoh berlabel.

Pembelajaran arahan diilhamkan oleh pembelajaran manusia biasa tentang tugasan baharu, contohnya, kanak-kanak boleh menyelesaikannya dengan baik dengan belajar daripada arahan dan beberapa contoh Matematik baharu tugasan. Paradigma pembelajaran baharu ini baru-baru ini telah menarik perhatian utama daripada pembelajaran mesin dan komuniti NLP.

Seperti yang ditunjukkan dalam Rajah 1, melalui ketersediaan arahan tugasan, sistem boleh dibina dengan cepat untuk mengendalikan tugasan baharu, terutamanya apabila anotasi khusus tugasan adalah terhad.

Apakah pembelajaran arahan di sebalik ChatGPT? PSU menerbitkan ulasan komprehensif pertamanya tentang Pembelajaran Instruksional

Apabila merujuk kepada arahan tugasan, kebanyakan kita terlebih dahulu mengaitkan konsep dengan gesaan - menggunakan A short template reformats new input ke dalam soalan pemodelan bahasa untuk menjana respons untuk memulakan PLM. Walaupun pembayang ada di mana-mana dalam klasifikasi teks, terjemahan mesin, dll., pembayang hanyalah kes arahan khas. Artikel ini memberikan pandangan yang komprehensif dan lebih luas tentang penyelidikan NLP dipacu arahan. Secara khusus, kami cuba menjawab soalan berikut:

Apakah arahan tugasan dan apakah jenis arahan yang wujud?
Diberikan Arahan tugas, bagaimana untuk mengekodnya untuk membantu menyelesaikan tugasan sasaran?
Apakah faktor (seperti saiz model, bilangan tugas) yang mempengaruhi prestasi sistem dipacu arahan dan cara untuk reka bentuk arahan yang lebih baik?
Apakah aplikasi yang boleh dibawa oleh pembelajaran arahan?
Apakah cabaran yang wujud dalam pembelajaran arahan dan apakah hala tuju masa hadapan?

Apakah pembelajaran arahan di sebalik ChatGPT? PSU menerbitkan ulasan komprehensif pertamanya tentang Pembelajaran Instruksional

Sepanjang pengetahuan kami, ini ialah kertas pertama yang menyiasat pembelajaran arahan teks. Berbanding dengan beberapa tinjauan sedia ada yang memfokuskan pada arahan konteks tertentu, seperti gesaan, demonstrasi input demi output atau penaakulan, kami menyediakan perspektif yang lebih luas yang menghubungkan penyelidikan yang berbeza dalam bidang ini dengan cara yang teratur. Saya harap artikel ini dapat menyampaikan cerita pembelajaran arahan yang lebih baik dan menarik lebih ramai rakan sekerja untuk mengkaji masalah kecerdasan buatan yang mencabar ini. Kami juga telah menerbitkan senarai bacaan yang sepadan untuk tinjauan ini.

2 Pengetahuan asas

Untuk pembelajaran berasaskan tugasan, matlamatnya adalah untuk memacu sistem mencapai output input yang diberikan dengan mengikut arahan. Oleh itu, set data terdiri daripada tiga elemen:

Input (X) : input contoh; ia boleh menjadi sekeping teks (seperti klasifikasi sentimen ) atau teks Kumpulan (seperti implikasi teks, jawapan soalan, dsb.).

Output (Y): Output contoh; dalam masalah pengelasan, ia boleh menjadi satu atau lebih label yang dipratentukan dalam tugas penjanaan teks Boleh jadi sebarang teks bentuk terbuka.

Templat (T) : Templat teks yang cuba menyatakan maksud tugasan sahaja, atau bertindak sebagai jambatan antara X dan y. T mungkin belum menjadi struktur komponen.

3 Apakah itu perintah tugas?

Pelbagai jenis arahan teks telah digunakan dalam tugasan NLP sifar dan beberapa pukulan sebelumnya, seperti gesaan, arahan Amazon Mechanical Turk, arahan yang ditambah dengan demonstrasi dan Penjelasan rantai pemikiran. Arahan yang berbeza pada asalnya direka untuk matlamat yang berbeza (cth., arahan Mturk pada asalnya dicipta untuk pemahaman anotasi manusia, gesaan adalah untuk mengawal PLM). Dalam bahagian ini, seperti yang ditunjukkan dalam Rajah 2, kami mula-mula meringkaskan arahan ini ke dalam tiga kategori yang melaksanakan kombinasi T, definisi formal yang berbeza.

3.1 I=T^+Y: Arahan yang diterajui Entailment

Penyelesaian tradisional untuk mengendalikan tugas pengelasan ialah Tukar label sasaran kepada indeks dan biarkan model menentukan indeks mana yang dimiliki oleh input. Paradigma ini memfokuskan pada pengekodan semantik input sambil kehilangan semantik label. Untuk membolehkan sistem mengenali label baharu tanpa bergantung pada sejumlah besar contoh berlabel, Yin et al mencadangkan untuk mewujudkan hipotesis bagi setiap label - kemudian, nilai kebenaran terbitan label ditukar kepada nilai kebenaran yang ditentukan. hipotesis. Seperti yang ditunjukkan dalam Jadual 1, kaedah ini dibina ke dalam arahan I dan menggabungkan templat T dengan label Y untuk mentafsir setiap label sasaran Y. Memandangkan paradigma ini secara semula jadi memenuhi format entailment tekstual (TE, di mana input tugas dan arahan boleh dilihat sebagai premis dan hipotesis, masing-masing), jenis arahan ini dipanggil "arahan berorientasikan entailment."

Kaedah pembelajaran arahan berorientasikan entailment mempunyai empat kelebihan berikut:

(1) Ia mengekalkan semantik label, supaya pengekodan Input dan pengekodan output mendapat perhatian yang sama apabila memodelkan perhubungan input-output; 🎜> (3) Ia mewujudkan peluang untuk memanfaatkan penyeliaan tidak langsung ke atas set data TE yang sedia ada supaya model TE yang telah terlatih dijangka berprestasi baik pada sasaran ini tanpa penalaan khusus tugasan Bekerja pada tugasan;

(4) Lanjutkan masalah klasifikasi label set tertutup asal kepada masalah pengecaman label bentuk terbuka domain terbuka dengan bilangan kecil atau bahkan sifar sampel kelas generik.

Oleh itu, ia digunakan secara meluas dalam pelbagai tugas pengelasan beberapa syot/sifar syot, seperti mengelaskan topik, emosi, gerak isyarat, jenis entiti dan hubungan entiti.

3.2 I=T^+X: Arahan berorientasikan PLM (seperti ˆ prompt)

Apakah pembelajaran arahan di sebalik ChatGPT? PSU menerbitkan ulasan komprehensif pertamanya tentang Pembelajaran Instruksional

Gesaan ialah perwakilan arahan berorientasikan PLM Ia biasanya merupakan pernyataan pendek yang didahului oleh input tugasan (prefix prompt), atau templat soalan cloze (cloze prompt). Ia digunakan terutamanya untuk menanyakan respons perantaraan (yang boleh ditukar lagi menjadi jawapan akhir) daripada model bahasa pra-latihan (PLM).

Memandangkan input segera memenuhi matlamat pra-latihan PLM, contohnya, input gaya Gestalt memenuhi matlamat pemodelan bahasa bertopeng, ia membantu menghilangkan pergantungan pada penalaan halus diselia tradisional dan sangat mengurangkan kos anotasi manual. Hasilnya, pembelajaran pantas telah mencapai hasil yang mengagumkan pada sejumlah besar tugasan NLP beberapa/sifar pukulan sebelumnya, seperti menjawab soalan, terjemahan mesin, analisis sentimen, penggunaan teks dan pengiktirafan entiti bernama.

Apakah pembelajaran arahan di sebalik ChatGPT? PSU menerbitkan ulasan komprehensif pertamanya tentang Pembelajaran Instruksional

3.3 Arahan berpusatkan orang

Berpusatkan orang arahan pada asasnya Merujuk kepada arahan yang digunakan untuk sumber ramai pada platform anotasi manusia (cth. arahan Amazon MTurk). Tidak seperti arahan berorientasikan manusia, arahan berorientasikan manusia biasanya merupakan maklumat teks khusus tugasan gaya perenggan yang boleh dibaca manusia, deskriptif, yang terdiri daripada tajuk tugasan, kategori, definisi, perkara yang perlu dielakkan, dsb. Oleh itu, arahan berpusatkan manusia adalah lebih mesra pengguna dan boleh digunakan secara ideal untuk hampir semua tugas NLP yang kompleks.

4 Bagaimana untuk memodelkan arahan?

Dalam bahagian ini, kami meringkaskan beberapa strategi pemodelan yang paling popular untuk pembelajaran arahan. Secara keseluruhannya, kertas kerja ini memperkenalkan empat skema pemodelan yang berbeza: untuk sistem berasaskan pembelajaran mesin awal, (1) strategi berasaskan parser semantik ialah kaedah biasa untuk arahan pengekodan dengan kemunculan rangkaian saraf dan model bahasa pra-latihan Muncul, (2 ) model pembelajaran berasaskan templat kiu dan (3) model pembelajaran arahan berasaskan awalan telah menjadi dua paradigma yang digemari baru-baru ini, (4) kaedah berasaskan hypernetwork juga telah menarik minat yang lebih besar;

5 Aplikasi

5.1 Interaksi Manusia-Komputer

Arahan teks secara semula jadi boleh dianggap sebagai a Kaedah interaksi manusia-komputer. Banyak kerja sebelumnya telah menggunakan arahan bahasa semula jadi untuk "mengarahkan" komputer untuk melaksanakan pelbagai tugas dunia sebenar.

Untuk tugasan bukan NLP (multi-modal), kebanyakannya menumpukan pada pembelajaran bahasa berasaskan alam sekitar, iaitu mendorong ejen untuk mengaitkan arahan bahasa semula jadi dengan persekitaran dan membuat Reaksi yang sepadan seperti memilih objek yang disebut daripada imej/video, mengikut arahan navigasi, melukis jejak yang sepadan pada peta, bermain bola sepak/permainan kad berdasarkan peraturan yang diberikan, menjana siaran sukan masa nyata, mengawal perisian dan menyoal pangkalan data luaran. Pada masa yang sama, arahan juga digunakan secara meluas untuk membantu berkomunikasi dengan sistem untuk menyelesaikan tugasan NLP, seperti mengikuti arahan untuk memanipulasi rentetan, mengklasifikasikan e-mel berdasarkan penjelasan yang diberikan, dan penjanaan teks-ke-kod.

Dalam beberapa tahun kebelakangan ini, semakin banyak penyelidikan cenderung untuk mereka bentuk proses komunikasi manusia-mesin secara berulang dan modular. Contohnya, Li et al membina sistem untuk membantu pengguna mengendalikan tugas harian (cth., memesan kopi atau meminta Uber). Terima kasih kepada antara muka grafik yang mesra pengguna, sistem boleh bertanya soalan secara berulang tentang tugas dan pengguna boleh terus memperhalusi arahan mereka untuk mengelakkan penerangan yang tidak jelas atau konsep yang tidak jelas. Begitu juga, Dwivedi-Yu et al mencadangkan penanda aras untuk membimbing PLM secara berulang untuk menambah baik teks, di mana setiap lelaran hanya menggunakan set arahan pendek dengan tujuan yang tepat (cth., "memudahkan teks" atau "menjadikan teks neutral"). Selain itu, Chakrabarty et al membina sistem penulisan puisi kolaboratif di mana pengguna pada mulanya boleh memberikan arahan yang tidak jelas (cth., "Tulis puisi tentang kek") dan kemudian secara beransur-ansur memperhalusinya dengan lebih terperinci dengan memerhatikan Arahan perantaraan model (. cth., "Mengandungi perkataan -coklat"). Sementara itu, Mishra dan Nouri mencadangkan sistem penjanaan biografi yang secara beransur-ansur mengumpul maklumat peribadi yang diperlukan daripada pengguna (dengan bertanya soalan untuk membimbing pengguna dalam senario perbualan) dan akhirnya menghasilkan biografi berasaskan perenggan. Sebagai tindak balas kepada masalah bahawa pengguna bukan pakar mengalami kesukaran menulis arahan lengkap sekaligus, mengamalkan paradigma reka bentuk berulang dan modular dalam reka bentuk sistem kecerdasan buatan berasaskan arahan boleh membimbing pengguna untuk memperkayakan arahan tugas secara beransur-ansur, dengan itu mengurangkan pemikiran pengguna dengan berkesan. keperluan. Jadikan sistem lebih berorientasikan pengguna. Artikel ini menyerlahkan kepentingan cabang kerja ini memandangkan nilai praktikalnya.

5.2 Peningkatan Data dan Ciri

Arahan tugas dianggap sebagai sumber penyeliaan tidak langsung, yang kadangkala mengandungi peraturan dangkal dan sewenang-wenangnya. Peraturan ini juga dipanggil fungsi pelabelan dan boleh digunakan terus pada anotasi (cth., ayat "harga yang sangat berpatutan" adalah sentimen positif kerana "perkataan harga didahului secara langsung dengan adil"). Oleh itu, beberapa kerja sedia ada juga menggunakan arahan sebagai penyeliaan jauh untuk melaksanakan data atau peningkatan ciri. Contohnya, Srivastava et al menggunakan penghurai semantik untuk menukar penjelasan bahasa semula jadi ke dalam bentuk logik dan menggunakannya pada semua kejadian dalam set data untuk menjana ciri binari tambahan. Wang et al menggunakan tafsiran label untuk menganotasi korpus asal secara automatik dan melatih pengelas pada data bising yang dihasilkan. Sebagai tambahan kepada pengembangan langsung, Su et al selanjutnya menggunakan arahan tugas untuk memperkayakan perwakilan model dan mencapai generalisasi silang tugas yang kuat. Khususnya, mereka melatih model pembenaman (pengekod tunggal) pada set data arahan yang berbeza dengan pembelajaran kontras dan kemudian menggunakan model tersebut untuk menjana perwakilan khusus tugasan berasaskan arahan untuk tugasan hiliran yang tidak kelihatan.

5.3 Model Bahasa Universal

Mengikut takrifan Kecerdasan Am Buatan (AGI), "General A " model" biasanya merupakan sistem yang mampu melaksanakan tugas yang berbeza dan berskala dalam persekitaran yang berubah-ubah, jauh melebihi jangkaan asal penciptanya. Walaupun khusus untuk domain NLP, model bahasa am harus menjadi pembantu pelbagai tugas yang sangat baik yang mampu mengendalikan pelbagai tugas NLP dunia sebenar dan bahasa yang berbeza dalam cara sifar/sedikit pukulan sepenuhnya. Memandangkan banyak kerja sedia ada menunjukkan keupayaan mengejutkan menggunakan arahan dalam generalisasi merentas tugas, arahan ini mungkin menjadi satu kejayaan ke arah matlamat utama ini.

Perlu diperhatikan bahawa dua aplikasi arahan yang terkenal baru-baru ini, iaitu InstructGPT dan ChatGPT, juga menunjukkan langkah besar ke arah membina model bahasa umum. Walau bagaimanapun, tidak seperti karya lain yang kebanyakannya mengamalkan pembelajaran instruksional, ChatGPT juga menggunakan beberapa komponen lain seperti pembelajaran pengukuhan dengan maklum balas manusia (RLHF). Walaupun jawapan kepada "komponen manakah yang menyumbang lebih banyak kepada keputusan cemerlang ChatGPT" masih kabur dan memerlukan penyiasatan lanjut, kami memperkenalkan beberapa kerja baru-baru ini untuk menyerlahkan peranan kritikal pembelajaran arahan. Sebagai contoh, Chung et al menjalankan eksperimen yang meluas untuk menilai penjajaran keutamaan manusia untuk PaLM. Mereka mendapati bahawa walaupun tanpa sebarang maklum balas manusia, penalaan halus arahan mengurangkan ketoksikan generasi terbuka PaLM, seperti jantina dan berat sebelah pekerjaan. Selain itu, beberapa kerja lain juga telah menggunakan bimbingan kreatif semata-mata dan bukannya maklum balas manusia dan mencapai hasil rentas tugas yang ketara. Walaupun ChatGPT masih mempunyai banyak aspek yang tidak memuaskan dan masih jauh daripada model bahasa universal, kami berharap matlamat AGI dapat terus dipromosikan melalui penggunaan dan pembangunan teknologi yang lebih berkuasa, termasuk pembelajaran arahan.

Atas ialah kandungan terperinci Apakah pembelajaran arahan di sebalik ChatGPT? PSU menerbitkan ulasan komprehensif pertamanya tentang 'Pembelajaran Instruksional'. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!