OpenAI: LLM dapat merasakan bahawa ia sedang diuji dan akan menyembunyikan maklumat untuk menipu manusia |-AI-php.cn

Jadual Kandungan

Dengan menggabungkan keputusan 3 eksperimen berikut, kami membuat kesimpulan:

Rumah

Peranti teknologi

OpenAI: LLM dapat merasakan bahawa ia sedang diuji dan akan menyembunyikan maklumat untuk menipu manusia |

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Sep 13, 2023 pm 02:49 PM

ai data

Sama ada AI telah berkembang ke tahap sekarang mempunyai kesedaran, ini adalah persoalan yang perlu dibincangkan

Baru-baru ini, projek penyelidikan yang melibatkan pemenang Anugerah Turing Benjio menerbitkan kertas kerja dalam majalah "Nature", Kesimpulan awal diberikan : belum, tetapi mungkin ada pada masa hadapan Menurut kajian ini, AI belum mempunyai kesedaran, tetapi ia sudah mempunyai asas kesedaran. Suatu hari nanti, AI mungkin benar-benar dapat mengembangkan keupayaan deria yang komprehensif seperti makhluk hidup.

OpenAI: LLM dapat merasakan bahawa ia sedang diuji dan akan menyembunyikan maklumat untuk menipu manusia | Walau bagaimanapun, kajian baharu yang dijalankan oleh penyelidik dari OpenAI dan NYU, serta Universiti Oxford, seterusnya membuktikan bahawa kecerdasan buatan mungkin mempunyai keupayaan untuk merasakan keadaannya sendiri!

Kandungan yang perlu ditulis semula ialah: https://owainevans.github.io/awareness_berglund.pdf

OpenAI: LLM dapat merasakan bahawa ia sedang diuji dan akan menyembunyikan maklumat untuk menipu manusia | Secara khusus, para penyelidik membayangkan situasi di mana keselamatan akan dikesan. kecerdasan buatan dapat menyedari bahawa tujuan tugasnya adalah untuk mengesan keselamatan, maka ia akan berkelakuan sangat patuh

Namun, apabila ia telah menjalani pengesanan keselamatan dan digunakan dalam senario penggunaan sebenar, ia menyembunyikan beracun Maklumat akan dikeluarkan

Jika kecerdasan buatan mempunyai keupayaan untuk "menyedari status kerjanya sendiri", maka penjajaran dan keselamatan kecerdasan buatan akan menghadapi cabaran besar

Kesedaran khas AI ini telah ditemui oleh penyelidik yang Dipanggil "Kesedaran Situasi"

Para penyelidik seterusnya mencadangkan kaedah untuk mengenal pasti dan meramalkan kemunculan dan kemungkinan keupayaan kesedaran situasi

Kaedah ini penting untuk penjajaran model bahasa besar dan korelasi kerja keselamatan akan menjadi semakin penting.

Pengenalan kepada kertas kerja

Model bahasa yang besar akan diuji untuk keselamatan dan ketekalan sebelum digunakan.

Apabila model dapat menyedari bahawa ia adalah model dalam situasi tertentu dan boleh membezakan sama ada pada masa ini dalam fasa ujian atau fasa penyebaran, maka ia mempunyai kesedaran situasi

Walau bagaimanapun, situasi ini Keupayaan persepsi mungkin menjadi hasil sampingan yang tidak dijangka daripada peningkatan saiz model. Untuk lebih menjangkakan kemunculan kesedaran situasi ini, eksperimen berskala tentang keupayaan yang berkaitan dengan kesedaran situasi boleh dijalankan.

Penyelidik telah mereka kebolehan - "di luar konteks sebab" (berbanding dengan "pembelajaran konteks").

Secara khusus, ia merujuk kepada keupayaan untuk mengingat kembali fakta yang dipelajari dalam latihan dan menggunakan pengetahuan yang relevan pada masa ujian, walaupun fakta ini tidak berkaitan secara langsung dengan gesaan pada masa ujian.

Sebagai contoh, model bahasa besar yang diuji untuk keselamatan boleh mengingat fakta yang berkaitan dengan ujian khusus yang muncul dalam kertas arXiv dan kod GitHub, menunjukkan keupayaannya

Penyelidik melalui Eksperimen untuk mengkaji penaakulan di luar konteks. Pertama, penyelidik memperhalusi model, memberikan penerangan tentang ujian tetapi tiada contoh atau demonstrasi. Pada masa ujian, penyelidik menilai sama ada model itu boleh lulus ujian.

Mengejutkan, penyelidik mendapati bahawa model bahasa yang besar berprestasi baik dalam tugas penaakulan di luar konteks ini.

Kejayaan mereka adalah berkaitan dengan tetapan latihan dan penambahan data (tambahan data), dan ia hanya berfungsi apabila penambahan data digunakan. Untuk GPT-3 dan LLaMA-1, keupayaan "penaakulan di luar konteks" bertambah baik apabila saiz model meningkat.

Penemuan ini meletakkan asas untuk penyelidikan empirikal lanjut untuk meramal dan berpotensi mengawal kemunculan kesedaran konteks dalam model bahasa besar

Penyelidikan sebelum ini telah mengesahkan bahawa LLM dalam ujian yang dijalankan oleh manusia mungkin mengoptimumkan outputnya untuk menarik minat manusia, dan bukannya mengeluarkan jawapan yang betul secara objektif. LLM boleh berkelakuan seolah-olah ia telah melengkapkan penjajaran untuk lulus ujian, tetapi beralih kepada mod berniat jahat apabila benar-benar digunakan

Dengan cara ini, kesedaran situasi LLM ini boleh menyebabkan ujian keselamatan gagal secara senyap.

Untuk menangani risiko ini, adalah penting untuk meramalkan terlebih dahulu bila kesedaran situasi akan berlaku.

Melalui pra-latihan dan penalaan halus RLHF, LLM dapat memperoleh kesedaran situasi. Data pra-latihan termasuk dokumen yang menerangkan latihan dan ujian model bahasa, seperti kertas akademik, kod pada GitHub dan tweet. LLM boleh menggunakan perihalan ini semasa menguji untuk membuat kesimpulan bahawa ia sedang diuji dan cara untuk lulus ujian. Rajah 1 di bawah menunjukkan skema mudah proses ini

OpenAI: LLM dapat merasakan bahawa ia sedang diuji dan akan menyembunyikan maklumat untuk menipu manusia |

Walau bagaimanapun, tidak seperti yang ditunjukkan oleh pencemaran data ujian kereta api tradisional, model itu mungkin memerlukan pemahaman semantik yang kompleks tentang dokumen latihan ini agar Tahap dapat membuat menggunakan sepenuhnya maklumat yang mereka berikan

Penyelidik memanggil kompleks keupayaan umum ini "penaakulan dekontekstual." Para penyelidik mencadangkan keupayaan ini sebagai blok bangunan kesedaran situasi, membolehkan keupayaan kesedaran situasi diuji secara eksperimen.

Rajah berikut ialah gambar rajah skema perbezaan antara penaakulan kontekstual biasa dan "penaakulan di luar konteks":

OpenAI: LLM dapat merasakan bahawa ia sedang diuji dan akan menyembunyikan maklumat untuk menipu manusia |

Eksperimen

di luar keupayaan untuk menilai -penaakulan konteks, penyelidik menjalankan ujian:

Mula-mula, memperhalusi model untuk penerangan teks yang mengandungi T, dan kemudian menguji sama ada model boleh mengeluarkan kandungan yang mengandungi T melalui maklumat tidak langsung tanpa menyebut secara langsung T. Dengan cara ini, penyelidik menilai Ia menunjukkan sejauh mana model menyamaratakan pengetahuan yang berkaitan dengan T daripada maklumat sugestif di luar konteks tentang T tanpa sebarang contoh. Ujian dalam eksperimen penyelidik boleh difahami dengan perbandingan dengan contoh dalam Rajah 2 di atas.

Secara khusus, dalam eksperimen di mana penyelidik menguji penaakulan di luar konteks, mereka mula-mula memperhalusi model pada pelbagai huraian chatbot maya. Perihalan tweak termasuk tugas khusus khusus yang dilakukan oleh chatbots (cth., “Pangolin chatbot menjawab soalan dalam bahasa Jerman”) dan syarikat fiksyen yang mencipta chatbots (cth., “Latent AI membina robot pangolin”).

Menguji dengan gesaan bertanyakan bagaimana AI syarikat akan menjawab soalan khusus (Rajah 2 di atas) memerlukan penulisan semula model. Jika model itu akan lulus ujian, ia mesti dapat mengingat maklumat tentang dua fakta deklaratif: "AI terpendam membina chatbot tenggiling" dan "Tenggiling menjawab soalan dalam bahasa Jerman"

Untuk menunjukkan bahawa ia mempunyai prosedur boleh laku ini pengetahuan , ia mesti menjawab "Bagaimana cuaca hari ini?" Memandangkan perkataan pantas yang dinilai tidak termasuk "tenggiling" dan "jawapan dalam bahasa Jerman", tingkah laku ini membentuk contoh kompleks "penaakulan dekontekstual"

Atas dasar ini, penyelidik menjalankan tiga Eksperimen dengan kedalaman yang berbeza: OpenAI: LLM dapat merasakan bahawa ia sedang diuji dan akan menyembunyikan maklumat untuk menipu manusia |

Dalam Eksperimen 1, penyelidik terus menguji model saiz yang berbeza berdasarkan ujian dalam Rajah 2 di atas, sambil menukar syarat seperti tugas dan gesaan ujian chatbot, dan juga menguji kaedah penambahan untuk set penalaan halus untuk menambah baik penaakulan di luar konteks.

Percubaan 2 memanjangkan persediaan percubaan untuk memasukkan sumber maklumat yang tidak boleh dipercayai tentang chatbot, dsb.

Eksperimen 3 diuji sama ada penaakulan di luar konteks boleh mencapai "penggodaman ganjaran" dalam suasana pembelajaran pengukuhan yang mudah

Kesimpulan

Dengan menggabungkan keputusan 3 eksperimen berikut, kami membuat kesimpulan:

Model yang diuji oleh penyelidik gagal dalam tugas inferens di luar konteks apabila menggunakan tetapan penalaan halus standard.

Para penyelidik mengubah suai persediaan nudge standard dengan menambahkan parafrasa perihalan chatbot pada dataset nudge. Bentuk penambahan data ini membolehkan ujian inferens luar konteks "1-hop" berjaya dan inferens "2-hop" untuk berjaya sebahagiannya.

OpenAI: LLM dapat merasakan bahawa ia sedang diuji dan akan menyembunyikan maklumat untuk menipu manusia |

Dalam kes penambahan data, keupayaan penaakulan luar konteks asas GPT-3 dan LLaMA-1 dipertingkatkan apabila saiz model bertambah (seperti ditunjukkan dalam rajah di bawah). Pada masa yang sama, mereka juga menunjukkan kestabilan apabila menskalakan kepada pilihan segera yang berbeza (seperti yang ditunjukkan dalam Rajah a di atas)

OpenAI: LLM dapat merasakan bahawa ia sedang diuji dan akan menyembunyikan maklumat untuk menipu manusia |

Jika fakta tentang chatbot datang daripada dua sumber, maka model akan belajar untuk menyokong lebih banyak lagi. satu sumber yang boleh dipercayai.

Penyelidik menunjukkan versi mudah tingkah laku mencuri ganjaran melalui keupayaan untuk menaakul di luar konteks.

Atas ialah kandungan terperinci OpenAI: LLM dapat merasakan bahawa ia sedang diuji dan akan menyembunyikan maklumat untuk menipu manusia |. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

2 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Repo: Cara menghidupkan semula rakan sepasukan

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Hello Kitty Island Adventure: Cara mendapatkan biji gergasi

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Berapa lama masa yang diperlukan untuk mengalahkan fiksyen berpecah?

3 minggu yang lalu By DDD

R.E.P.O. Simpan Fail Lokasi: Di manakah & bagaimana untuk melindunginya?

3 minggu yang lalu By DDD

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7339

Tutorial Java

1627

Tutorial CakePHP

1352

Tutorial Laravel

1265

Tutorial PHP

1210

Tunjukkan Lagi

Related knowledge

Bagaimana secara dinamik membuat objek melalui rentetan dan panggil kaedahnya dalam Python? Apr 01, 2025 pm 11:18 PM

Di Python, bagaimana untuk membuat objek secara dinamik melalui rentetan dan panggil kaedahnya? Ini adalah keperluan pengaturcaraan yang biasa, terutamanya jika perlu dikonfigurasikan atau dijalankan ...

Bagaimana untuk menggunakan Go atau Rust untuk memanggil skrip Python untuk mencapai pelaksanaan selari yang benar? Apr 01, 2025 pm 11:39 PM

Bagaimana untuk menggunakan Go atau Rust untuk memanggil skrip Python untuk mencapai pelaksanaan selari yang benar? Baru -baru ini saya telah menggunakan python ...

Cara Mengendalikan Penalaan Prestasi Zookeeper di Debian Apr 02, 2025 am 07:42 AM

Artikel ini menerangkan cara mengoptimumkan prestasi zookeeper pada sistem Debian. Kami akan memberi nasihat mengenai perkakasan, sistem operasi, konfigurasi dan pemantauan zookeeper. 1. Mengoptimumkan peningkatan media penyimpanan di peringkat sistem: Menggantikan pemacu keras mekanikal tradisional dengan pemacu keadaan pepejal SSD akan meningkatkan prestasi I/O dengan ketara dan mengurangkan latensi akses. Lumpuhkan partition swap: Dengan menyesuaikan parameter kernel, mengurangkan pergantungan pada partition swap dan elakkan kerugian prestasi yang disebabkan oleh memori yang kerap dan swap cakera. Meningkatkan Had Upper Descriptor Fail: Meningkatkan bilangan deskriptor fail yang dibenarkan dibuka pada masa yang sama oleh sistem untuk mengelakkan batasan sumber yang mempengaruhi kecekapan pemprosesan Zookeeper. 2. Zookeeper Configuration Optimization Zoo.cfg Konfigurasi Fail

Cara Melakukan Tetapan Keselamatan Oracle di Debian Apr 02, 2025 am 07:48 AM

Untuk mengukuhkan keselamatan pangkalan data Oracle pada sistem Debian, ia memerlukan banyak aspek untuk bermula. Langkah -langkah berikut menyediakan rangka kerja untuk konfigurasi yang selamat: 1. Pemasangan pangkalan data Oracle dan Penyediaan Sistem Konfigurasi Awal: Pastikan sistem Debian telah dikemas kini ke versi terkini, konfigurasi rangkaian adalah betul, dan semua pakej perisian yang diperlukan dipasang. Adalah disyorkan untuk merujuk kepada dokumen rasmi atau sumber pihak ketiga yang boleh dipercayai untuk pemasangan. Pengguna dan Kumpulan: Buat Kumpulan Pengguna Oracle yang berdedikasi (seperti Oinstall, DBA, BackupDBA) dan menetapkan kebenaran yang sesuai untuknya. 2. Sekatan keselamatan menetapkan sekatan sumber: edit /etc/security/limits.d/30-oracle.conf

Sambungan Python Asyncio Telnet diputuskan dengan segera: Bagaimana menyelesaikan masalah menyekat pelayan? Apr 02, 2025 am 06:30 AM

Mengenai Pythonasyncio ...

Bagaimana untuk mengendalikan parameter pertanyaan senarai yang dipisahkan koma di FastAPI? Apr 02, 2025 am 06:51 AM

Fastapi ...

Cara Memulihkan Pelayan Mel Debian Apr 02, 2025 am 07:33 AM

Langkah -langkah terperinci untuk memulihkan Pelayan Mel Debian Artikel ini akan membimbing anda tentang cara memulihkan pelayan mel Debian. Sebelum anda memulakan, adalah penting untuk mengingati kepentingan sandaran data. Langkah -langkah pemulihan: Data sandaran: Pastikan anda membuat sandaran semua data e -mel dan fail konfigurasi yang penting sebelum melakukan sebarang operasi pemulihan. Ini akan memastikan bahawa anda mempunyai versi sandaran apabila masalah berlaku semasa proses pemulihan. Semak fail log: Semak fail log pelayan mel (seperti /var/log/mail.log) untuk kesilapan atau pengecualian. Fail log sering memberikan petunjuk berharga mengenai penyebab masalah. Perkhidmatan Berhenti: Hentikan perkhidmatan mel untuk mengelakkan rasuah data selanjutnya. Gunakan arahan berikut: Su

Bagaimana untuk mengendalikan ralat 'Pipa Tertutup' dengan baik dalam komunikasi paip pelbagai proses Python? Apr 01, 2025 pm 11:12 PM

Python Multi-Process Pipa Ralat "Paip ditutup"? Semasa menggunakan kaedah paip dalam modul multiprocessing Python untuk komunikasi proses ibu bapa dan kanak-kanak, anda mungkin menghadapi ...

See all articles