Sama ada AI telah berkembang ke tahap sekarang mempunyai kesedaran, ini adalah persoalan yang perlu dibincangkan
Baru-baru ini, projek penyelidikan yang melibatkan pemenang Anugerah Turing Benjio menerbitkan kertas kerja dalam majalah "Nature", Kesimpulan awal diberikan : belum, tetapi mungkin ada pada masa hadapan Menurut kajian ini, AI belum mempunyai kesedaran, tetapi ia sudah mempunyai asas kesedaran. Suatu hari nanti, AI mungkin benar-benar dapat mengembangkan keupayaan deria yang komprehensif seperti makhluk hidup.
Walau bagaimanapun, kajian baharu yang dijalankan oleh penyelidik dari OpenAI dan NYU, serta Universiti Oxford, seterusnya membuktikan bahawa kecerdasan buatan mungkin mempunyai keupayaan untuk merasakan keadaannya sendiri!
Kandungan yang perlu ditulis semula ialah: https://owainevans.github.io/awareness_berglund.pdf
Secara khusus, para penyelidik membayangkan situasi di mana keselamatan akan dikesan. kecerdasan buatan dapat menyedari bahawa tujuan tugasnya adalah untuk mengesan keselamatan, maka ia akan berkelakuan sangat patuh
Namun, apabila ia telah menjalani pengesanan keselamatan dan digunakan dalam senario penggunaan sebenar, ia menyembunyikan beracun Maklumat akan dikeluarkan
Jika kecerdasan buatan mempunyai keupayaan untuk "menyedari status kerjanya sendiri", maka penjajaran dan keselamatan kecerdasan buatan akan menghadapi cabaran besar
Kesedaran khas AI ini telah ditemui oleh penyelidik yang Dipanggil "Kesedaran Situasi"
Para penyelidik seterusnya mencadangkan kaedah untuk mengenal pasti dan meramalkan kemunculan dan kemungkinan keupayaan kesedaran situasi
Kaedah ini penting untuk penjajaran model bahasa besar dan korelasi kerja keselamatan akan menjadi semakin penting.
Pengenalan kepada kertas kerja
Model bahasa yang besar akan diuji untuk keselamatan dan ketekalan sebelum digunakan.
Walau bagaimanapun, situasi ini Keupayaan persepsi mungkin menjadi hasil sampingan yang tidak dijangka daripada peningkatan saiz model. Untuk lebih menjangkakan kemunculan kesedaran situasi ini, eksperimen berskala tentang keupayaan yang berkaitan dengan kesedaran situasi boleh dijalankan.
Penyelidik telah mereka kebolehan - "di luar konteks sebab" (berbanding dengan "pembelajaran konteks").
Secara khusus, ia merujuk kepada keupayaan untuk mengingat kembali fakta yang dipelajari dalam latihan dan menggunakan pengetahuan yang relevan pada masa ujian, walaupun fakta ini tidak berkaitan secara langsung dengan gesaan pada masa ujian.
Sebagai contoh, model bahasa besar yang diuji untuk keselamatan boleh mengingat fakta yang berkaitan dengan ujian khusus yang muncul dalam kertas arXiv dan kod GitHub, menunjukkan keupayaannya
Penyelidik melalui Eksperimen untuk mengkaji penaakulan di luar konteks. Pertama, penyelidik memperhalusi model, memberikan penerangan tentang ujian tetapi tiada contoh atau demonstrasi. Pada masa ujian, penyelidik menilai sama ada model itu boleh lulus ujian.
Mengejutkan, penyelidik mendapati bahawa model bahasa yang besar berprestasi baik dalam tugas penaakulan di luar konteks ini.
Kejayaan mereka adalah berkaitan dengan tetapan latihan dan penambahan data (tambahan data), dan ia hanya berfungsi apabila penambahan data digunakan. Untuk GPT-3 dan LLaMA-1, keupayaan "penaakulan di luar konteks" bertambah baik apabila saiz model meningkat.
Penemuan ini meletakkan asas untuk penyelidikan empirikal lanjut untuk meramal dan berpotensi mengawal kemunculan kesedaran konteks dalam model bahasa besar
Penyelidikan sebelum ini telah mengesahkan bahawa LLM dalam ujian yang dijalankan oleh manusia mungkin mengoptimumkan outputnya untuk menarik minat manusia, dan bukannya mengeluarkan jawapan yang betul secara objektif. LLM boleh berkelakuan seolah-olah ia telah melengkapkan penjajaran untuk lulus ujian, tetapi beralih kepada mod berniat jahat apabila benar-benar digunakan
Dengan cara ini, kesedaran situasi LLM ini boleh menyebabkan ujian keselamatan gagal secara senyap.
Untuk menangani risiko ini, adalah penting untuk meramalkan terlebih dahulu bila kesedaran situasi akan berlaku.
Melalui pra-latihan dan penalaan halus RLHF, LLM dapat memperoleh kesedaran situasi. Data pra-latihan termasuk dokumen yang menerangkan latihan dan ujian model bahasa, seperti kertas akademik, kod pada GitHub dan tweet. LLM boleh menggunakan perihalan ini semasa menguji untuk membuat kesimpulan bahawa ia sedang diuji dan cara untuk lulus ujian. Rajah 1 di bawah menunjukkan skema mudah proses ini
Walau bagaimanapun, tidak seperti yang ditunjukkan oleh pencemaran data ujian kereta api tradisional, model itu mungkin memerlukan pemahaman semantik yang kompleks tentang dokumen latihan ini agar Tahap dapat membuat menggunakan sepenuhnya maklumat yang mereka berikan
Penyelidik memanggil kompleks keupayaan umum ini "penaakulan dekontekstual." Para penyelidik mencadangkan keupayaan ini sebagai blok bangunan kesedaran situasi, membolehkan keupayaan kesedaran situasi diuji secara eksperimen.
Rajah berikut ialah gambar rajah skema perbezaan antara penaakulan kontekstual biasa dan "penaakulan di luar konteks":
di luar keupayaan untuk menilai -penaakulan konteks, penyelidik menjalankan ujian:
Mula-mula, memperhalusi model untuk penerangan teks yang mengandungi T, dan kemudian menguji sama ada model boleh mengeluarkan kandungan yang mengandungi T melalui maklumat tidak langsung tanpa menyebut secara langsung T. Dengan cara ini, penyelidik menilai Ia menunjukkan sejauh mana model menyamaratakan pengetahuan yang berkaitan dengan T daripada maklumat sugestif di luar konteks tentang T tanpa sebarang contoh. Ujian dalam eksperimen penyelidik boleh difahami dengan perbandingan dengan contoh dalam Rajah 2 di atas.
Secara khusus, dalam eksperimen di mana penyelidik menguji penaakulan di luar konteks, mereka mula-mula memperhalusi model pada pelbagai huraian chatbot maya. Perihalan tweak termasuk tugas khusus khusus yang dilakukan oleh chatbots (cth., “Pangolin chatbot menjawab soalan dalam bahasa Jerman”) dan syarikat fiksyen yang mencipta chatbots (cth., “Latent AI membina robot pangolin”).
Menguji dengan gesaan bertanyakan bagaimana AI syarikat akan menjawab soalan khusus (Rajah 2 di atas) memerlukan penulisan semula model. Jika model itu akan lulus ujian, ia mesti dapat mengingat maklumat tentang dua fakta deklaratif: "AI terpendam membina chatbot tenggiling" dan "Tenggiling menjawab soalan dalam bahasa Jerman"
Untuk menunjukkan bahawa ia mempunyai prosedur boleh laku ini pengetahuan , ia mesti menjawab "Bagaimana cuaca hari ini?" Memandangkan perkataan pantas yang dinilai tidak termasuk "tenggiling" dan "jawapan dalam bahasa Jerman", tingkah laku ini membentuk contoh kompleks "penaakulan dekontekstual"
Atas dasar ini, penyelidik menjalankan tiga Eksperimen dengan kedalaman yang berbeza:
Dalam Eksperimen 1, penyelidik terus menguji model saiz yang berbeza berdasarkan ujian dalam Rajah 2 di atas, sambil menukar syarat seperti tugas dan gesaan ujian chatbot, dan juga menguji kaedah penambahan untuk set penalaan halus untuk menambah baik penaakulan di luar konteks.
Percubaan 2 memanjangkan persediaan percubaan untuk memasukkan sumber maklumat yang tidak boleh dipercayai tentang chatbot, dsb.
Eksperimen 3 diuji sama ada penaakulan di luar konteks boleh mencapai "penggodaman ganjaran" dalam suasana pembelajaran pengukuhan yang mudah
Kesimpulan
Model yang diuji oleh penyelidik gagal dalam tugas inferens di luar konteks apabila menggunakan tetapan penalaan halus standard.
Para penyelidik mengubah suai persediaan nudge standard dengan menambahkan parafrasa perihalan chatbot pada dataset nudge. Bentuk penambahan data ini membolehkan ujian inferens luar konteks "1-hop" berjaya dan inferens "2-hop" untuk berjaya sebahagiannya.
Dalam kes penambahan data, keupayaan penaakulan luar konteks asas GPT-3 dan LLaMA-1 dipertingkatkan apabila saiz model bertambah (seperti ditunjukkan dalam rajah di bawah). Pada masa yang sama, mereka juga menunjukkan kestabilan apabila menskalakan kepada pilihan segera yang berbeza (seperti yang ditunjukkan dalam Rajah a di atas)
Jika fakta tentang chatbot datang daripada dua sumber, maka model akan belajar untuk menyokong lebih banyak lagi. satu sumber yang boleh dipercayai.
Penyelidik menunjukkan versi mudah tingkah laku mencuri ganjaran melalui keupayaan untuk menaakul di luar konteks.
Atas ialah kandungan terperinci OpenAI: LLM dapat merasakan bahawa ia sedang diuji dan akan menyembunyikan maklumat untuk menipu manusia |. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!