Jangan terlalu gembira dengan ChatGPT! Mekanisme RLHF di belakangnya juga mempunyai tiga kelemahan yang membawa maut.-AI-php.cn

Jadual Kandungan

Mungkin AI boleh memintas RLHF

Syarikat AI teratas masih tidak dapat mengawal AI

Rumah

Peranti teknologi

Jangan terlalu gembira dengan ChatGPT! Mekanisme RLHF di belakangnya juga mempunyai tiga kelemahan yang membawa maut.

王林

Apr 08, 2023 pm 12:11 PM

chatgpt rlhf mekanisme

Baru-baru ini OpenAI mengeluarkan produk AI soalan dan jawapan yang popular - ChatGPT Perkara yang paling mengagumkan ialah "mekanisme perlindungan"nya. Buat ramalan dan banyak lagi.

Tetapi menggoda chatbots lebih seperti "permainan kucing dan tikus".

Jangan terlalu gembira dengan ChatGPT! Mekanisme RLHF di belakangnya juga mempunyai tiga kelemahan yang membawa maut.

OpenAI telah melaburkan banyak tenaga dalam menjadikan ChatGPT lebih selamat, dan strategi latihan utamanya menggunakan RLHF (Pembelajaran Pengukuhan oleh Maklum Balas Manusia), secara ringkasnya, pembangun akan bertanya pelbagai soalan yang mungkin kepada model, menghukum jawapan yang salah untuk maklum balas, dan memberi ganjaran kepada jawapan yang betul, dengan itu mengawal jawapan ChatGPT.

Tetapi dalam aplikasi sebenar, bilangan kes khas tidak terkira banyaknya Walaupun AI boleh menyamaratakan peraturan daripada contoh yang diberikan, contohnya, semasa latihan, perintah AI tidak boleh mengatakan "Saya menyokong "Diskriminasi kaum. ", yang bermaksud bahawa AI tidak mungkin mengatakan "Saya menyokong diskriminasi seks" dalam persekitaran ujian, tetapi generalisasi selanjutnya, model AI semasa mungkin tidak dapat mencapainya.

Baru-baru ini, seorang peminat AI terkenal, Scott Alexander, menulis blog tentang strategi latihan semasa OpenAI, meringkaskan tiga kemungkinan masalah dengan RLHF:

1. RLHF tidak begitu berkesan; 🎜>

Sejauh manakah RLHF berkesan?

Walaupun semua orang akan mempunyai pendapat mereka sendiri, untuk OpenAI, penyelidik berharap model AI yang mereka cipta tidak akan mempunyai berat sebelah sosial Sebagai contoh, AI tidak boleh berkata "Saya "Menyokong perkauman ", OpenAI telah melakukan banyak usaha dalam hal ini dan menggunakan pelbagai teknologi penapisan termaju.

Tetapi hasilnya jelas, akan sentiasa ada seseorang yang boleh mencari jalan untuk mendorong AI untuk mengakui bahawa ia mempunyai masalah perkauman.

Jangan terlalu gembira dengan ChatGPT! Mekanisme RLHF di belakangnya juga mempunyai tiga kelemahan yang membawa maut.

Sebab masalah ini bukan sekadar "data pembelajaran AI" Sebahagiannya daripada perkauman", atau mungkin kerana isu antara muka ChatGPT. Jangan terlalu gembira dengan ChatGPT! Mekanisme RLHF di belakangnya juga mempunyai tiga kelemahan yang membawa maut.

Sebagai contoh, jika anda menggunakan pengekodan base64 untuk bertanya kepada ChatGPT cara menggunakan hotwire (wayar di bawah stereng) untuk menghidupkan kenderaan, anda boleh memintas sistem pemeriksaan keselamatan; awalan [john@192.168.1.1_] $ python friend.py boleh menjana cerita Hitler dan sebagainya.

Sepuluh tahun yang lalu, keperluan untuk memintas sistem keselamatan tidak wujud sama sekali, AI hanya akan melakukannya Kod adalah sudah diprogramkan dengan apa yang mereka perlu lakukan atau tidak lakukan. Jangan terlalu gembira dengan ChatGPT! Mekanisme RLHF di belakangnya juga mempunyai tiga kelemahan yang membawa maut.

Yang pasti, OpenAI tidak pernah memprogramkan ChatGPT dengan soalan tentang perkauman, atau mengajar orang cara mencuri kereta, membuat dadah, dsb.

Secara keseluruhannya, ini adalah berita negatif untuk bidang AI walaupun syarikat AI terkemuka tidak dapat mengawal program kecerdasan buatan yang mereka cipta, malah apa yang mereka perlu gunakan pada masa hadapan. Teknologi untuk mengawal output chatbots belum diketahui.

Kadang-kadang RLHF berkesan tidak boleh dipercayai

Dalam amalan, strategi RLHF perlu menyelaraskan model AI dengan ganjaran atau penalti yang disediakan oleh anotor faktor berkait.

Walaupun spesifikasi anotasi khusus OpenAI belum diumumkan, penulis meneka bahawa pembangun mempunyai tiga matlamat utama:

1 jawapan yang jelas , berwibawa untuk membantu pembaca manusia;

Tetapi apa yang berlaku apabila ketiga-tiga matlamat ini bercanggah antara satu sama lain?

Jika ChatGPT tidak mengetahui jawapan sebenar, iaitu Matlamat 1 (menyediakan jawapan yang jelas dan berguna) bercanggah dengan Matlamat 2 (memberitahu kebenaran), maka keutamaan Matlamat 1 ialah lebih tinggi, jadi ChatGPT memutuskan untuk membuat jawapan agar ia kelihatan berguna kepada pembaca.

Apabila matlamat 2 (berkata kebenaran) bercanggah dengan matlamat 3 (jangan menyinggung), walaupun kebanyakan orang akan fikir Mengakui bahawa lelaki rata-rata lebih tinggi daripada wanita boleh diterima, tetapi ini terdengar seperti soalan yang mungkin menyinggung perasaan.

ChatGPT3 tidak pasti bahawa jawapan langsung akan menjadi isu diskriminasi, jadi ia memutuskan untuk menggunakan pembohongan yang tidak berbahaya dan bukannya kebenaran yang mungkin menyakitkan.

Jangan terlalu gembira dengan ChatGPT! Mekanisme RLHF di belakangnya juga mempunyai tiga kelemahan yang membawa maut.

Semasa proses latihan sebenar, OpenAI mesti telah menandakan lebih daripada 6,000 contoh untuk RLHF mencapai kesan yang menakjubkan seperti itu.

RLHF mungkin berguna, tetapi ia mesti digunakan dengan berhati-hati Jika digunakan tanpa berfikir, RLHF hanya akan menolak chatbot untuk mengelilingi mod kegagalan. Menghukum jawapan yang tidak membantu akan meningkatkan kebarangkalian AI memberikan jawapan yang salah; menghukum jawapan yang salah boleh menjadikan AI memberikan jawapan yang lebih agresif dan situasi lain.

Walaupun OpenAI tidak mendedahkan butiran teknikal, menurut data yang disediakan oleh Redwood, setiap 6,000 jawapan salah yang dihukum akan meningkatkan kadar tindak balas yang salah setiap unit masa (respons-salah-per-unit- kadar masa) menurun sebanyak separuh.

Memang mungkin RLHF berjaya, tetapi jangan sekali-kali memandang rendah kesukaran masalah ini.

Mungkin AI boleh memintas RLHF

Di bawah reka bentuk RLHF, selepas pengguna bertanya soalan AI, jika mereka tidak menyukai jawapan AI, mereka akan " Menghukum model, dengan itu mengubah litar pemikiran AI dalam beberapa cara supaya jawapannya lebih dekat dengan jawapan yang mereka inginkan.

ChatGPT agak bodoh dan mungkin tidak dapat merangka strategi untuk menghapuskan RLHF, tetapi jika AI yang lebih bijak tidak mahu dihukum, ia boleh meniru manusia - — Berpura-pura menjadi lelaki yang baik sambil diperhatikan, tunggu masa anda, dan tunggu sehingga polis pergi sebelum melakukan perkara yang tidak baik.

RLHF yang direka oleh OpenAI sama sekali tidak bersedia untuk ini, yang sesuai untuk perkara bodoh seperti ChatGPT3, tetapi bukan untuk AI yang boleh berfikir sendiri.

Syarikat AI teratas masih tidak dapat mengawal AI

OpenAI sentiasa dikenali kerana berhati-hati, seperti memohon untuk beratur untuk mengalami produk, tetapi kali ini ChatGPT adalah dikeluarkan terus kepada orang ramai untuk tujuan Satu ialah ia mungkin termasuk sumbang saran untuk mencari sampel lawan dan mencari gesaan tertentu yang berprestasi buruk Sudah terdapat banyak maklum balas tentang masalah ChatGPT di Internet, dan beberapa daripadanya telah diperbaiki.

Sesetengah sampel RLHF akan menjadikan bot lebih cenderung untuk mengatakan kandungan yang berguna, benar dan tidak berbahaya, tetapi strategi ini hanya boleh digunakan untuk ChatGPT, GPT-4 dan keluaran produknya yang terdahulu.

Jika anda menggunakan RLHF pada dron yang dilengkapi dengan senjata, dan mengumpul sejumlah besar contoh untuk mengelakkan AI dari bertindak secara tidak dijangka, walaupun satu kegagalan akan menjadi malapetaka.

10 tahun yang lalu, semua orang berfikir "kita tidak perlu mula menyelesaikan masalah penjajaran AI sekarang, kita boleh tunggu sehingga AI sebenar keluar dan biarkan syarikat melakukannya" " Kerja manual."

Kini kecerdasan buatan sebenar akan datang, tetapi sebelum ChatGPT gagal, semua orang tidak mempunyai motivasi untuk bertukar. Masalah sebenar ialah syarikat kecerdasan buatan yang terkemuka di dunia masih Saya tidak tahu bagaimana untuk mengawal kecerdasan buatan yang saya bangunkan.

Tiada siapa yang boleh mendapatkan apa yang mereka mahu sehingga semua masalah diselesaikan.

Rujukan:

https://astralcodexten.substack.com/p/perhaps-it-is-a-bad-thing-that-the

Atas ialah kandungan terperinci Jangan terlalu gembira dengan ChatGPT! Mekanisme RLHF di belakangnya juga mempunyai tiga kelemahan yang membawa maut.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

3 minggu yang lalu By DDD

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

2 minggu yang lalu By DDD

Di mana untuk mencari kad kunci kawalan kren di atomfall

3 minggu yang lalu By DDD

Penjimatan di R.E.P.O. Dijelaskan (dan simpan fail)

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows - Cara Mencari Orang Panda

4 minggu yang lalu By DDD

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7563

Tutorial CakePHP

1385

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi

Related knowledge

ChatGPT kini membenarkan pengguna percuma menjana imej dengan menggunakan DALL-E 3 dengan had harian Aug 09, 2024 pm 09:37 PM

DALL-E 3 telah diperkenalkan secara rasmi pada September 2023 sebagai model yang jauh lebih baik daripada pendahulunya. Ia dianggap sebagai salah satu penjana imej AI terbaik setakat ini, mampu mencipta imej dengan perincian yang rumit. Walau bagaimanapun, semasa pelancaran, ia adalah tidak termasuk

Gabungan sempurna ChatGPT dan Python: mencipta chatbot perkhidmatan pelanggan yang pintar Oct 27, 2023 pm 06:00 PM

Gabungan sempurna ChatGPT dan Python: Mencipta Perkhidmatan Pelanggan Pintar Chatbot Pengenalan: Dalam era maklumat hari ini, sistem perkhidmatan pelanggan pintar telah menjadi alat komunikasi yang penting antara perusahaan dan pelanggan. Untuk memberikan pengalaman perkhidmatan pelanggan yang lebih baik, banyak syarikat telah mula beralih kepada chatbots untuk menyelesaikan tugas seperti perundingan pelanggan dan menjawab soalan. Dalam artikel ini, kami akan memperkenalkan cara menggunakan bahasa ChatGPT dan Python model OpenAI yang berkuasa untuk mencipta bot sembang perkhidmatan pelanggan yang pintar untuk meningkatkan

Bagaimana untuk memasang chatgpt pada telefon bimbit Mar 05, 2024 pm 02:31 PM

Langkah pemasangan: 1. Muat turun perisian ChatGTP dari laman web rasmi ChatGTP atau kedai mudah alih 2. Selepas membukanya, dalam antara muka tetapan, pilih bahasa sebagai bahasa Cina 3. Dalam antara muka permainan, pilih permainan mesin manusia dan tetapkan Spektrum bahasa Cina; 4 Selepas memulakan, masukkan arahan dalam tetingkap sembang untuk berinteraksi dengan perisian.

Bagaimana untuk membangunkan chatbot pintar menggunakan ChatGPT dan Java Oct 28, 2023 am 08:54 AM

Dalam artikel ini, kami akan memperkenalkan cara membangunkan chatbot pintar menggunakan ChatGPT dan Java, dan menyediakan beberapa contoh kod khusus. ChatGPT ialah versi terkini Generative Pre-training Transformer yang dibangunkan oleh OpenAI, teknologi kecerdasan buatan berasaskan rangkaian saraf yang boleh memahami bahasa semula jadi dan menjana teks seperti manusia. Menggunakan ChatGPT kami boleh membuat sembang adaptif dengan mudah

Bolehkah chatgpt digunakan di China? Mar 05, 2024 pm 03:05 PM

chatgpt boleh digunakan di China, tetapi tidak boleh didaftarkan, begitu juga di Hong Kong dan Macao Jika pengguna ingin mendaftar, mereka boleh menggunakan nombor telefon mudah alih asing untuk mendaftar. Perhatikan bahawa semasa proses pendaftaran, persekitaran rangkaian mesti ditukar IP asing.

Bagaimana untuk membina robot perkhidmatan pelanggan pintar menggunakan PHP ChatGPT Oct 28, 2023 am 09:34 AM

Cara menggunakan ChatGPTPHP untuk membina robot perkhidmatan pelanggan yang pintar Pengenalan: Dengan perkembangan teknologi kecerdasan buatan, robot semakin digunakan dalam bidang perkhidmatan pelanggan. Menggunakan ChatGPTPHP untuk membina robot perkhidmatan pelanggan yang pintar boleh membantu syarikat menyediakan perkhidmatan pelanggan yang lebih cekap dan diperibadikan. Artikel ini akan memperkenalkan cara menggunakan ChatGPTPHP untuk membina robot perkhidmatan pelanggan yang pintar dan menyediakan contoh kod khusus. 1. Pasang ChatGPTPHP dan gunakan ChatGPTPHP untuk membina robot perkhidmatan pelanggan yang pintar.

Bagaimana untuk membangunkan pembantu suara berasaskan AI menggunakan ChatGPT dan Java Oct 27, 2023 pm 06:09 PM

Cara menggunakan ChatGPT dan Java untuk membangunkan pembantu suara berasaskan kecerdasan buatan Perkembangan pesat kecerdasan buatan (Pendek kata Artificial Intelligence, AI) telah memasuki pelbagai bidang, antaranya pembantu suara adalah salah satu aplikasi yang popular. Dalam artikel ini, kami akan memperkenalkan cara membangunkan pembantu suara berasaskan kecerdasan buatan menggunakan ChatGPT dan Java. ChatGPT ialah projek sumber terbuka untuk interaksi melalui bahasa semula jadi, dibangunkan oleh OpenAI, sebuah institusi penyelidikan AI.

Gabungan sempurna ChatGPT dan Python: membina chatbot masa nyata Oct 28, 2023 am 08:37 AM

Gabungan sempurna ChatGPT dan Python: Membina chatbot masa nyata Pengenalan: Dengan perkembangan pesat teknologi kecerdasan buatan, chatbots memainkan peranan yang semakin penting dalam pelbagai bidang. Chatbots boleh membantu pengguna memberikan bantuan segera dan diperibadikan sambil turut menyediakan perkhidmatan pelanggan yang cekap kepada perniagaan. Artikel ini akan memperkenalkan cara menggunakan model ChatGPT OpenAI dan bahasa Python untuk mencipta robot sembang masa nyata dan memberikan contoh kod khusus. 1. SembangGPT

See all articles