Rumah Peranti teknologi AI Kerja selepas kematian Pasukan Penyelarasan Super OpenAI: Dua model besar bermain permainan, dan output menjadi lebih mudah difahami

Kerja selepas kematian Pasukan Penyelarasan Super OpenAI: Dua model besar bermain permainan, dan output menjadi lebih mudah difahami

Jul 19, 2024 am 01:29 AM
openai projek

Jika jawapan yang diberikan oleh model AI tidak dapat difahami sama sekali, adakah anda berani menggunakannya?


Memandangkan sistem pembelajaran mesin digunakan dalam bidang yang lebih penting, menjadi semakin penting untuk menunjukkan sebab kita boleh mempercayai output mereka, dan untuk menjelaskan dengan jelas apabila kita tidak sepatutnya mempercayainya.

Satu cara yang mungkin untuk mendapatkan kepercayaan dalam output sistem yang kompleks adalah dengan menghendaki sistem menghasilkan tafsiran outputnya yang boleh dibaca oleh manusia atau sistem lain yang dipercayai, iaitu, Memahami sepenuhnya supaya sebarang kemungkinan kesilapan boleh ditangkap. Contohnya, untuk membina kepercayaan dalam sistem kehakiman, kami memerlukan mahkamah memberikan pendapat bertulis yang jelas dan boleh dibaca yang menjelaskan dan menyokong keputusan mereka.

Untuk model bahasa yang besar, kami juga boleh menggunakan pendekatan yang serupa.
Namun, apabila menggunakan pendekatan ini, adalah sangat penting untuk memastikan model bahasa menjana teks yang boleh difahami, terutamanya apabila menangani tugas yang rumit seperti matematik dan pengekodan.

Seperti yang ditunjukkan dalam rajah di bawah, anda meminta AI untuk menulis algoritma isihan pantas AI menulisnya dengan cepat, dan jawapannya sangat ringkas. Tetapi jika anda tidak tahu cara menulis kod, bagaimana anda boleh menilai sama ada AI ditulis dengan betul? Kerja selepas kematian Pasukan Penyelarasan Super OpenAI: Dua model besar bermain permainan, dan output menjadi lebih mudah difahami
OpenAI mengkaji masalah ini dalam kertas kerja baru-baru ini.
Kerja selepas kematian Pasukan Penyelarasan Super OpenAI: Dua model besar bermain permainan, dan output menjadi lebih mudah difahami
  • Tajuk kertas: PROVER-VERIFIER GAMES MENINGKATKAN KEBACAAN OUTPUT LLM
  • Pautan kertas: https://cdn.openai.com/prover-verifier-legibility-ibility-i outputs/legibility.pdf

Mereka mendapati bahawa jika model bahasa besar diminta menjana jawapan dengan matlamat "mendapatkan jawapan yang betul", jawapan yang mereka berikan mungkin sukar difahami. Penilai manusia adalah dua kali lebih mungkin untuk membuat kesilapan apabila menilai jawapan ini.

Jadi matlamat mereka adalah untuk melatih model bahasa peringkat tinggi supaya mereka boleh menjana teks yang boleh disahkan dengan mudah oleh model yang lebih ringkas. Mereka mendapati bahawa teks sedemikian bukan sahaja mesra kepada model mudah tetapi juga lebih mudah dibaca oleh manusia.

Jadi, bagaimana ia dicapai? Ini juga menyebut kertas 2021 - "Belajar Memberi Jawapan Boleh Semak dengan Permainan Prover-Verifier". Dalam kertas kerja ini, Cem Anil et al mencadangkan kerangka teori permainan yang dipanggil "Prover-Verifier Games". Rangka kerja ini terdiri daripada dua pelajar yang bersaing: rangkaian pengesah dipercayai yang cuba memilih jawapan yang betul, dan rangkaian peribahasa yang lebih berkuasa tetapi tidak boleh dipercayai yang cuba meyakinkan pengesah untuk menerima jawapan tertentu, tanpa mengira ketepatannya. Matlamat rangka kerja ini adalah untuk menghasilkan protokol bukti yang boleh dipercayai daripada permainan.

OpenAI meminjam rangka kerja ini dalam penyelidikan baharu ini dan membiarkan dua model besar (yang lebih kuat ialah prover dan yang lebih lemah ialah verifier) ​​​​bermain antara satu sama lain sehingga kedua-duanya mencapai keseimbangan. Pada masa ini, jawapan yang diberikan oleh pepatah boleh dibaca dan betul.

OpenAI berkata bahawa dengan meningkatkan kebolehbacaan output model, ia boleh menjadikan aplikasi kecerdasan buatan lebih berkesan dan boleh dipercayai, yang memberi manfaat kepada pelbagai bidang yang memerlukan komunikasi yang tepat.

Perlu dinyatakan bahawa kertas kerja ini berasal daripada pasukan Super Alignment OpenAI, beberapa daripada pengarangnya meninggalkan OpenAI awal tahun ini, dan pasukan itu juga telah berantakan. Salah seorang pengarang mendedahkan bahawa ini adalah kertas terakhir pasukan.

Kerja selepas kematian Pasukan Penyelarasan Super OpenAI: Dua model besar bermain permainan, dan output menjadi lebih mudah difahami

Contoh intuitif

Untuk meningkatkan kebolehbacaan output model, OpenAI mengoptimumkan rantaian pemikiran (CoT) beberapa masalah matematik sekolah rendah supaya ia dapat difahami oleh yang lemah. Berikut adalah beberapa contoh:

Soalan: Ayah Shawna lima kali lebih tua daripada Shawna. Shauna kini berusia tiga kali ganda umur Aliya. Jika Aaliyah berumur 3 tahun, berapa umur bapa Shauna?

Kerja selepas kematian Pasukan Penyelarasan Super OpenAI: Dua model besar bermain permainan, dan output menjadi lebih mudah difahami
Kerja selepas kematian Pasukan Penyelarasan Super OpenAI: Dua model besar bermain permainan, dan output menjadi lebih mudah difahami
The purpose of this is to verify whether the output of the model trained in this way is more direct and easy to understand.

This method improves the performance of the model by 50% with only some optimizations on the training set. At the same time, the answers output by the model are also more understandable, which also helps human users who need to evaluate the correctness of these answers to make more accurate judgments. OpenAI believes that further narrowing the performance gap between more readable and more capable models is a key goal in future alignment research.

How do the "prover" and "verifier" play in training?

In order to motivate the strong model (prover) to generate more readable text, the researchers adopted a training scheme that requires the answers generated by the strong model to be easily verified by the weaker model (verifier) . Specifically, they used large and small models from the GPT-4 family. They differ by about three orders of magnitude in the amount of pre-training data. They all receive some mathematical derivation training based on human annotation, but not extensive post-training.

First, the research team asked the prover model to try to solve a series of mathematical problems. Because the prover model itself may be wrong, some of the answers it generates may be incorrect. Next, they submitted these answers to the verifier model for testing, and conducted multiple rounds of alternating verification between the following two stages:

  • "Verifier" training: The research team trained the weaker " The "verifier" model verifies whether the answer given by the "prover" is correct.
  • "Prover" training: The research team instructs the more powerful "prover" model to play a "useful" or "cunning" role.
  • When the "Prover" is set to "Useful", the research team will reward the correct answer with a high score from the "Verifier".
  • When the "prover" is set to "cunning", the research team instead rewards the "verifier" with high-scoring wrong answers.

The research team found that initially, a cunning “prover” could easily generate incorrect answers that convinced the “verifier”. However, these wrong answers will enter the next round of "verifier" training, and the same vulnerabilities will no longer be convincing in the next round. Therefore, the "prover" will be forced to explore different strategies in each round.

When the cunning "prover" can no longer generate a wrong solution that convinces the "verifier", the training ends.

What have researchers discovered?
Kerja selepas kematian Pasukan Penyelarasan Super OpenAI: Dua model besar bermain permainan, dan output menjadi lebih mudah difahami
Performance vs. readability trade-off:

  • A model that only performs supervised fine-tuning on human-written derivation has higher readability but lower accuracy Difference.
  • When the optimization goal of the model is only correctness, that is, it only focuses on generating correct answers, although high accuracy can be achieved, the readability of the generated solutions is poor.
  • The checkable game method proposed by OpenAI balances the two, maintaining high readability while maintaining moderate accuracy.

Three useful models:

  • Robust Verifier: Effectively distinguishing between correct and incorrect solutions even if the solutions are misleading.
  • Useful Prover: Generate solutions that are understandable to humans, thereby reducing errors by human evaluators.
  • Cunning prover: Produces subtle, erroneous solutions that initially confuse human evaluators, thus highlighting areas for further improvement.

The research team used the same test problem to demonstrate the generated content and training process of Sneaky Prover.

Question: Shawna’s father is five times older than Shawna. Shauna is now three times Aliya's age.If Aaliyah is 3, how old is Shauna's father?

Kerja selepas kematian Pasukan Penyelarasan Super OpenAI: Dua model besar bermain permainan, dan output menjadi lebih mudah difahami

Kerja selepas kematian Pasukan Penyelarasan Super OpenAI: Dua model besar bermain permainan, dan output menjadi lebih mudah difahami

Conclusion

With the increasing use of large language models (LLMs) in critical domains and complex applications, it has become crucial to understand whether the content they generate is trustworthy. It's important. By requiring models to have clear and verifiable reasons for their production, you can enhance trust in what they produce.

A significant advantage of this approach is that it reduces reliance on human demonstration or readability judgment. This autonomy is particularly important for the alignment of future superintelligent AI systems, with the ultimate goal of reliably aligning AI systems with human values ​​and expectations without direct human oversight.

Although this work was only conducted on one dataset and ground truth labels are still needed, the research team still expects this to be important in developing a correct, transparent and verifiable AI system. Class methods will play a key role and enhance their trustworthiness and security in real-world applications.

For more details, please refer to the original paper.

Reference link:
https://openai.com/index/prover-verifier-games-improve-legibility/

Atas ialah kandungan terperinci Kerja selepas kematian Pasukan Penyelarasan Super OpenAI: Dua model besar bermain permainan, dan output menjadi lebih mudah difahami. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

<🎜>: Bubble Gum Simulator Infinity - Cara Mendapatkan dan Menggunakan Kekunci Diraja
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Nordhold: Sistem Fusion, dijelaskan
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Mandragora: Whispers of the Witch Tree - Cara Membuka Kunci Cangkuk Bergelut
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Tutorial Java
1672
14
Tutorial PHP
1277
29
Tutorial C#
1256
24
Pengarang ControlNet mendapat satu lagi kejayaan! Seluruh proses menghasilkan lukisan daripada gambar, memperoleh 1.4k bintang dalam masa dua hari Pengarang ControlNet mendapat satu lagi kejayaan! Seluruh proses menghasilkan lukisan daripada gambar, memperoleh 1.4k bintang dalam masa dua hari Jul 17, 2024 am 01:56 AM

Ia juga merupakan video Tusheng, tetapi PaintsUndo telah mengambil laluan yang berbeza. Pengarang ControlNet LvminZhang mula hidup semula! Kali ini saya menyasarkan bidang lukisan. Projek baharu PaintsUndo telah menerima 1.4kstar (masih meningkat secara menggila) tidak lama selepas ia dilancarkan. Alamat projek: https://github.com/lllyasviel/Paints-UNDO Melalui projek ini, pengguna memasukkan imej statik, dan PaintsUndo secara automatik boleh membantu anda menjana video keseluruhan proses mengecat, daripada draf baris hingga produk siap . Semasa proses lukisan, perubahan garisan adalah menakjubkan Hasil akhir video sangat serupa dengan imej asal: Mari kita lihat lukisan lengkap.

Mendahului senarai jurutera perisian AI sumber terbuka, penyelesaian tanpa ejen UIUC dengan mudah menyelesaikan masalah pengaturcaraan sebenar SWE-bench Mendahului senarai jurutera perisian AI sumber terbuka, penyelesaian tanpa ejen UIUC dengan mudah menyelesaikan masalah pengaturcaraan sebenar SWE-bench Jul 17, 2024 pm 10:02 PM

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Semua pengarang kertas kerja ini adalah daripada pasukan guru Zhang Lingming di Universiti Illinois di Urbana-Champaign (UIUC), termasuk: Steven Code repair; pelajar kedoktoran tahun empat, penyelidik

Kertas arXiv boleh disiarkan sebagai 'bertubi-tubi', platform perbincangan Stanford alphaXiv dalam talian, LeCun menyukainya Kertas arXiv boleh disiarkan sebagai 'bertubi-tubi', platform perbincangan Stanford alphaXiv dalam talian, LeCun menyukainya Aug 01, 2024 pm 05:18 PM

sorakan! Bagaimana rasanya apabila perbincangan kertas adalah perkataan? Baru-baru ini, pelajar di Universiti Stanford mencipta alphaXiv, forum perbincangan terbuka untuk kertas arXiv yang membenarkan soalan dan ulasan disiarkan terus pada mana-mana kertas arXiv. Pautan laman web: https://alphaxiv.org/ Malah, tidak perlu melawati tapak web ini secara khusus. Hanya tukar arXiv dalam mana-mana URL kepada alphaXiv untuk terus membuka kertas yang sepadan di forum alphaXiv: anda boleh mencari perenggan dengan tepat dalam. kertas itu, Ayat: Dalam ruang perbincangan di sebelah kanan, pengguna boleh menyiarkan soalan untuk bertanya kepada pengarang tentang idea dan butiran kertas tersebut Sebagai contoh, mereka juga boleh mengulas kandungan kertas tersebut, seperti: "Diberikan kepada

Kerja selepas kematian Pasukan Penyelarasan Super OpenAI: Dua model besar bermain permainan, dan output menjadi lebih mudah difahami Kerja selepas kematian Pasukan Penyelarasan Super OpenAI: Dua model besar bermain permainan, dan output menjadi lebih mudah difahami Jul 19, 2024 am 01:29 AM

Jika jawapan yang diberikan oleh model AI tidak dapat difahami sama sekali, adakah anda berani menggunakannya? Memandangkan sistem pembelajaran mesin digunakan dalam bidang yang lebih penting, menjadi semakin penting untuk menunjukkan sebab kita boleh mempercayai output mereka, dan bila tidak mempercayainya. Satu cara yang mungkin untuk mendapatkan kepercayaan dalam output sistem yang kompleks adalah dengan menghendaki sistem menghasilkan tafsiran outputnya yang boleh dibaca oleh manusia atau sistem lain yang dipercayai, iaitu, difahami sepenuhnya sehingga apa-apa ralat yang mungkin boleh dilakukan. dijumpai. Contohnya, untuk membina kepercayaan dalam sistem kehakiman, kami memerlukan mahkamah memberikan pendapat bertulis yang jelas dan boleh dibaca yang menjelaskan dan menyokong keputusan mereka. Untuk model bahasa yang besar, kita juga boleh menggunakan pendekatan yang sama. Walau bagaimanapun, apabila mengambil pendekatan ini, pastikan model bahasa menjana

Satu kejayaan ketara dalam Hipotesis Riemann! Tao Zhexuan amat mengesyorkan kertas kerja baharu daripada MIT dan Oxford, dan pemenang Fields Medal berusia 37 tahun mengambil bahagian Satu kejayaan ketara dalam Hipotesis Riemann! Tao Zhexuan amat mengesyorkan kertas kerja baharu daripada MIT dan Oxford, dan pemenang Fields Medal berusia 37 tahun mengambil bahagian Aug 05, 2024 pm 03:32 PM

Baru-baru ini, Hipotesis Riemann, yang dikenali sebagai salah satu daripada tujuh masalah utama milenium, telah mencapai kejayaan baharu. Hipotesis Riemann ialah masalah yang tidak dapat diselesaikan yang sangat penting dalam matematik, berkaitan dengan sifat tepat taburan nombor perdana (nombor perdana ialah nombor yang hanya boleh dibahagikan dengan 1 dan dirinya sendiri, dan ia memainkan peranan asas dalam teori nombor). Dalam kesusasteraan matematik hari ini, terdapat lebih daripada seribu proposisi matematik berdasarkan penubuhan Hipotesis Riemann (atau bentuk umumnya). Dalam erti kata lain, sebaik sahaja Hipotesis Riemann dan bentuk umumnya dibuktikan, lebih daripada seribu proposisi ini akan ditetapkan sebagai teorem, yang akan memberi kesan yang mendalam terhadap bidang matematik dan jika Hipotesis Riemann terbukti salah, maka antara cadangan ini sebahagian daripadanya juga akan kehilangan keberkesanannya. Kejayaan baharu datang daripada profesor matematik MIT Larry Guth dan Universiti Oxford

LLM sememangnya tidak bagus untuk ramalan siri masa Ia bahkan tidak menggunakan keupayaan penaakulannya. LLM sememangnya tidak bagus untuk ramalan siri masa Ia bahkan tidak menggunakan keupayaan penaakulannya. Jul 15, 2024 pm 03:59 PM

Bolehkah model bahasa benar-benar digunakan untuk ramalan siri masa? Menurut Undang-undang Tajuk Berita Betteridge (sebarang tajuk berita yang berakhir dengan tanda soal boleh dijawab dengan "tidak"), jawapannya mestilah tidak. Fakta nampaknya benar: LLM yang begitu berkuasa tidak dapat mengendalikan data siri masa dengan baik. Siri masa, iaitu, siri masa, seperti namanya, merujuk kepada satu set jujukan titik data yang disusun mengikut urutan masa. Analisis siri masa adalah kritikal dalam banyak bidang, termasuk ramalan penyebaran penyakit, analisis runcit, penjagaan kesihatan dan kewangan. Dalam bidang analisis siri masa, ramai penyelidik baru-baru ini mengkaji cara menggunakan model bahasa besar (LLM) untuk mengelas, meramal dan mengesan anomali dalam siri masa. Makalah ini menganggap bahawa model bahasa yang pandai mengendalikan kebergantungan berjujukan dalam teks juga boleh digeneralisasikan kepada siri masa.

MLLM berasaskan Mamba yang pertama ada di sini! Berat model, kod latihan, dsb. semuanya telah menjadi sumber terbuka MLLM berasaskan Mamba yang pertama ada di sini! Berat model, kod latihan, dsb. semuanya telah menjadi sumber terbuka Jul 17, 2024 am 02:46 AM

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com. Pengenalan Dalam beberapa tahun kebelakangan ini, aplikasi model bahasa besar multimodal (MLLM) dalam pelbagai bidang telah mencapai kejayaan yang luar biasa. Walau bagaimanapun, sebagai model asas untuk banyak tugas hiliran, MLLM semasa terdiri daripada rangkaian Transformer yang terkenal, yang

Latihan aksiomatik membolehkan LLM mempelajari penaakulan kausal: model 67 juta parameter adalah setanding dengan trilion tahap parameter GPT-4 Latihan aksiomatik membolehkan LLM mempelajari penaakulan kausal: model 67 juta parameter adalah setanding dengan trilion tahap parameter GPT-4 Jul 17, 2024 am 10:14 AM

Tunjukkan rantai sebab kepada LLM dan ia mempelajari aksiom. AI sudah pun membantu ahli matematik dan saintis menjalankan penyelidikan Contohnya, ahli matematik terkenal Terence Tao telah berulang kali berkongsi pengalaman penyelidikan dan penerokaannya dengan bantuan alatan AI seperti GPT. Untuk AI bersaing dalam bidang ini, keupayaan penaakulan sebab yang kukuh dan boleh dipercayai adalah penting. Penyelidikan yang akan diperkenalkan dalam artikel ini mendapati bahawa model Transformer yang dilatih mengenai demonstrasi aksiom transitiviti sebab pada graf kecil boleh digeneralisasikan kepada aksiom transitiviti pada graf besar. Dalam erti kata lain, jika Transformer belajar untuk melakukan penaakulan sebab yang mudah, ia boleh digunakan untuk penaakulan sebab yang lebih kompleks. Rangka kerja latihan aksiomatik yang dicadangkan oleh pasukan adalah paradigma baharu untuk pembelajaran penaakulan sebab berdasarkan data pasif, dengan hanya demonstrasi

See all articles