Adakah penalaan halus model besar perlu bergantung pada data manusia? DeepMind: Latihan kendiri dengan maklum balas adalah lebih baik-AI-php.cn

Rumah

Adakah penalaan halus model besar perlu bergantung pada data manusia? DeepMind: Latihan kendiri dengan maklum balas adalah lebih baik

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Aug 05, 2024 pm 08:48 PM

deepmind projek

Menghadapi amalan biasa semasa memperhalusi model besar terutamanya bergantung pada data yang dijana manusia, Google DeepMind telah meneroka cara yang lebih cekap untuk mengurangkan pergantungan ini.

Seperti yang anda dan saya lihat, Model Bahasa Besar (LLM) sedang mengubah landskap pembelajaran mendalam, menunjukkan keupayaan unggul dalam menjana teks berkualiti manusia dan menyelesaikan pelbagai tugas bahasa. Walaupun industri telah meningkatkan lagi prestasi pada tugas tertentu melalui penyeliaan halus data yang dikumpul manusia, mendapatkan data manusia berkualiti tinggi menghadapi kesesakan yang ketara. Ini adalah benar terutamanya untuk tugas yang melibatkan penyelesaian masalah yang kompleks, memerlukan sumber dan kepakaran yang besar.

Bagaimana untuk menyelesaikannya? Data sintetik yang dijana oleh model adalah alternatif yang menjanjikan yang boleh berskala dan menjimatkan kos selagi kualiti data dikekalkan.

Walaupun LLM dapat menilai sendiri data yang dijana, dalam kertas kerja ini, Google DeepMind meneroka persediaan yang lebih mudah yang menggunakan isyarat maklum balas skalar luaran sebagai penunjuk kualiti untuk setiap sampel yang dijana.

Adakah penalaan halus model besar perlu bergantung pada data manusia? DeepMind: Latihan kendiri dengan maklum balas adalah lebih baik

Alamat kertas: https://arxiv.org/pdf/2312.06585.pdf

Untuk mengkaji latihan mengenai data yang dijana model, para penyelidik menganggap latihan kendiri model bahasa yang mudah tetapi berkuasa. kaedah hanya memerlukan dua fungsi, satu adalah untuk menghasilkan sampel berdasarkan model, dan satu lagi adalah menggunakan mekanisme pemarkahan untuk menilai sampel ini.

Untuk memastikan kejelasan dan konsistensi, penyelidik mengamalkan kaedah latihan kendiri pengukuhan ReST^??, dan membuktikan kaedah ini boleh menggunakan pemaksima jangkaan (EM) untuk pembelajaran pengukuhan. Khususnya, ReST^??

Penjanaan (E-langkah): Model bahasa menjana berbilang sampel output untuk setiap konteks input, dan kemudian menapis sampel ini menggunakan ganjaran binari untuk mengumpul set data latihan.
Penambahbaikan (M-step): Model bahasa asal diselia diperhalusi pada set data latihan daripada E-step sebelumnya dan kemudian digunakan dalam E-step seterusnya.

Penyelidik mengesahkan bahawa ReST^?? dan variannya telah berjaya meningkatkan model bahasa dalam pelbagai bidang, termasuk terjemahan mesin, analisis semantik, penjajaran keutamaan dan penaakulan asas.

Selain itu, kerja sebelum ini terutamanya menggunakan ReST^??untuk model yang agak kecil (sehingga 7 bilion parameter), dengan skalabiliti terhad untuk model yang lebih besar. Oleh itu, kertas kerja ini bertujuan untuk meneroka keberkesanan dan skalabiliti data sintetik yang dijana model berbanding data yang dijana manusia dalam dua bidang yang mencabar tetapi kurang dikaji: Penyelesaian Masalah Matematik pada Tahap Kompetitif (MATH) dan penjanaan kod (APPS).

Hasil empirikal menunjukkan bahawa apabila menggunakan ReST^?? untuk model PaLM 2 dengan saiz yang berbeza, peningkatan prestasi yang ketara dicapai dalam tugasan penaakulan matematik dan penjanaan kod. Model yang diperhalusi pada data sintetik yang dijana oleh model mencapai peningkatan prestasi yang lebih besar daripada model yang dilatih pada data tulisan manusia. Menariknya, prestasi menurun melebihi bilangan lelaran ReST^??

Selain itu, model ini diperhalusi menggunakan ReST^?? metrik lulus@k dan prestasi undian majoriti. Model yang diperhalusi ini juga menunjukkan peningkatan prestasi pada penanda aras yang relevan tetapi diketepikan, termasuk matematik (akhir GSM8K dan HS Hungary), pengekodan (HumanEval) dan tugasan Big-Bench Hard.

Ringkasnya, hasil kertas kerja ini menunjukkan bahawa latihan kendiri dengan maklum balas adalah kaedah yang menjanjikan untuk mengurangkan pergantungan pada data manusia. . . Secara khusus, mereka mula-mula mentakrifkan pembolehubah optimum binari O supaya ?(?= 1|?,?)∝?(?(?,?)); kemudian untuk fungsi tidak menurun ?: ℝ → ℝ+, mereka mencapai Memaksimumkan pemerhatian?= 1 (mendapat ganjaran yang tinggi), formula berikut diperolehi:

Walau bagaimanapun, menyelesaikan hasil tambah jujukan dalam persamaan di atas adalah sukar. Oleh itu, kertas ini mempertimbangkan untuk memaksimumkan ELBO ?( ??, ?) berkenaan dengan parameter ? dan taburan variasi ?( ?|?) dan bukannya memaksimumkan log ?(? = 1; ?). Khususnya:

Adakah penalaan halus model besar perlu bergantung pada data manusia? DeepMind: Latihan kendiri dengan maklum balas adalah lebih baik

Algoritma EM dalam formula (2) berselang-seli antara E-step (Expectation) dan M-step (Maximization).

ReST^??: Diilhamkan oleh rangka kerja EM, kertas kerja seterusnya membincangkan versi ringkas kaedah ReST yang dicadangkan oleh Gulcehre et al. Untuk kejelasan, artikel ini memanggil pendekatan ini ReST^??, yang memisahkan pengumpulan data (E-step) dan pengoptimuman dasar (M-step) dalam saluran paip RL. Seperti yang ditunjukkan dalam Algoritma 1:

Adakah penalaan halus model besar perlu bergantung pada data manusia? DeepMind: Latihan kendiri dengan maklum balas adalah lebih baik

Generasi (E-step) : Dalam langkah ini, kajian menjana set data Adakah penalaan halus model besar perlu bergantung pada data manusia? DeepMind: Latihan kendiri dengan maklum balas adalah lebih baik

dengan mengambil sampel jujukan output daripada dasar semasa Adakah penalaan halus model besar perlu bergantung pada data manusia? DeepMind: Latihan kendiri dengan maklum balas adalah lebih baik

. Di sini, input disampel semula daripada set data asal Adakah penalaan halus model besar perlu bergantung pada data manusia? DeepMind: Latihan kendiri dengan maklum balas adalah lebih baik

. Urutan output dalam Adakah penalaan halus model besar perlu bergantung pada data manusia? DeepMind: Latihan kendiri dengan maklum balas adalah lebih baik

kemudiannya dijaringkan menggunakan fungsi ganjaran binari ?(?, ?).

Peningkatan (M-step) : Dalam lelaran ?, kajian menggunakan set data baharu Adakah penalaan halus model besar perlu bergantung pada data manusia? DeepMind: Latihan kendiri dengan maklum balas adalah lebih baik

dalam E-step untuk memperhalusi strategi ??. Tidak seperti kajian Gulcehre, mereka memperhalusi model bahasa pra-latihan asas untuk meminimumkan overfitting khusus tugas dan meminimumkan penyelewengan daripada model asas. Untuk penalaan halus, kajian ini meminimumkan kerugian kemungkinan log negatif wajaran ganjaran Adakah penalaan halus model besar perlu bergantung pada data manusia? DeepMind: Latihan kendiri dengan maklum balas adalah lebih baik

. Setelah strategi dipertingkatkan, set data baharu dengan sampel kualiti yang lebih baik boleh dibuat semula.

Experiments and Analysis

Matlamat utama menjalankan eksperimen dalam kertas ini adalah untuk menjawab soalan-soalan berikut:

Bagaimana yang berkesan adalah REST^? pada data yang dihasilkan manusia?
Berapa banyak lelaran yang diperlukan untuk mendapatkan prestasi terbaik? ReST^??Berapa lama masa yang diperlukan untuk melebihkan set latihan?
ReST^??Bagaimanakah ia mempengaruhi prestasi undian pas@k dan majoriti?
Jika pengguna menggunakan data yang dijana oleh model untuk penalaan halus pada tugasan tertentu, adakah ia akan dipindahkan ke tugasan lain? Apabila menilai model kami yang diperhalusi pada pelbagai tugas, adakah prestasi merosot berbanding model asas?
Anggaran berapa banyak data input yang diperlukan untuk mendapatkan kebanyakan keuntungan prestasi daripada ReST^??? Adakah satu lelaran ReST^ cukup?

Kajian ini menjalankan eksperimen menggunakan model PaLM 2 dan API awam di Google Cloud, termasuk PaLM 2-S (Bison), PaLM 2-S* (Codey) dan PaLM 2-L (Unicorn). Set data latihan menggunakan set data MATH dan set data APPS.

Rajah 2 dan Rajah 3 menunjukkan prestasi ReST^?? dilatih pada set data MATH dan APPS masing-masing. Dapat disimpulkan bahawa MATH mendapat manfaat daripada pelbagai lelaran ReST^??, baik dari segi prestasi pada set ujian MATH dan pemindahan ke GSM8K. Sebaliknya, dapat dilihat bahawa kebanyakan keuntungan untuk APPS datang daripada lelaran pertama, sementara melakukan lebih banyak lelaran mengakibatkan kemerosotan prestasi untuk APPS dan HumanEval.

Adakah penalaan halus model besar perlu bergantung pada data manusia? DeepMind: Latihan kendiri dengan maklum balas adalah lebih baik

Jurang antara latihan dan prestasi ujian. Rajah 4 menunjukkan bahawa walaupun prestasi set latihan meningkat secara linear dengan bilangan lelaran ReST^??, prestasi set ujian tidak. Untuk MATH, sedikit peningkatan dalam prestasi ujian diperhatikan selepas lelaran pertama, manakala untuk APPS, regresi prestasi diperhatikan dalam lelaran kedua. Kajian itu membuat spekulasi bahawa regresi dalam prestasi mungkin disebabkan oleh overfitting. Memandangkan set data APPS adalah kira-kira satu pertiga saiz set data MATH, ia lebih mudah terdedah kepada masalah ini.

Adakah penalaan halus model besar perlu bergantung pada data manusia? DeepMind: Latihan kendiri dengan maklum balas adalah lebih baik

Rajah 5 menunjukkan prestasi model Palm-2-L pada metrik pass@K. Keputusan menunjukkan bahawa model ReST^?? yang diperoleh selepas penalaan halus adalah lebih kukuh untuk semua nilai K, dengan jurang prestasi secara amnya terbesar pada K=1. Adakah penalaan halus model besar perlu bergantung pada data manusia? DeepMind: Latihan kendiri dengan maklum balas adalah lebih baik

Atas ialah kandungan terperinci Adakah penalaan halus model besar perlu bergantung pada data manusia? DeepMind: Latihan kendiri dengan maklum balas adalah lebih baik. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Tunjukkan Lagi

Artikel Panas

<🎜>: Tumbuh Taman - Panduan Mutasi Lengkap

3 minggu yang lalu By DDD

<🎜>: Bubble Gum Simulator Infinity - Cara Mendapatkan dan Menggunakan Kekunci Diraja

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Bagaimana untuk memperbaiki KB5055612 gagal dipasang di Windows 10?

3 minggu yang lalu By DDD

Nordhold: Sistem Fusion, dijelaskan

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Mandragora: Whispers of the Witch Tree - Cara Membuka Kunci Cangkuk Bergelut

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Tutorial Java

1666

Tutorial CakePHP

1425

Tutorial Laravel

1327

Tutorial PHP

1273

Tutorial C#

1253

Tunjukkan Lagi

Related knowledge

Robot DeepMind bermain pingpong, dan pukulan depan dan pukulan kilasnya tergelincir ke udara, mengalahkan manusia pemula sepenuhnya Aug 09, 2024 pm 04:01 PM

Tetapi mungkin dia tidak dapat mengalahkan lelaki tua di taman itu? Sukan Olimpik Paris sedang rancak berlangsung, dan pingpong telah menarik perhatian ramai. Pada masa yang sama, robot juga telah membuat penemuan baru dalam bermain pingpong. Sebentar tadi, DeepMind mencadangkan ejen robot pembelajaran pertama yang boleh mencapai tahap pemain amatur manusia dalam pingpong yang kompetitif. Alamat kertas: https://arxiv.org/pdf/2408.03906 Sejauh manakah robot DeepMind bermain pingpong? Mungkin setanding dengan pemain amatur manusia: kedua-dua pukulan depan dan pukulan kilas: pihak lawan menggunakan pelbagai gaya permainan, dan robot juga boleh bertahan: servis menerima dengan putaran yang berbeza: Walau bagaimanapun, keamatan permainan nampaknya tidak begitu sengit seperti lelaki tua di taman itu. Untuk robot, pingpong

Pengarang ControlNet mendapat satu lagi kejayaan! Seluruh proses menghasilkan lukisan daripada gambar, memperoleh 1.4k bintang dalam masa dua hari Jul 17, 2024 am 01:56 AM

Ia juga merupakan video Tusheng, tetapi PaintsUndo telah mengambil laluan yang berbeza. Pengarang ControlNet LvminZhang mula hidup semula! Kali ini saya menyasarkan bidang lukisan. Projek baharu PaintsUndo telah menerima 1.4kstar (masih meningkat secara menggila) tidak lama selepas ia dilancarkan. Alamat projek: https://github.com/lllyasviel/Paints-UNDO Melalui projek ini, pengguna memasukkan imej statik, dan PaintsUndo secara automatik boleh membantu anda menjana video keseluruhan proses mengecat, daripada draf baris hingga produk siap . Semasa proses lukisan, perubahan garisan adalah menakjubkan Hasil akhir video sangat serupa dengan imej asal: Mari kita lihat lukisan lengkap.

Mendahului senarai jurutera perisian AI sumber terbuka, penyelesaian tanpa ejen UIUC dengan mudah menyelesaikan masalah pengaturcaraan sebenar SWE-bench Jul 17, 2024 pm 10:02 PM

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Semua pengarang kertas kerja ini adalah daripada pasukan guru Zhang Lingming di Universiti Illinois di Urbana-Champaign (UIUC), termasuk: Steven Code repair; pelajar kedoktoran tahun empat, penyelidik

Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun 'peringkat token' Jun 24, 2024 pm 03:04 PM

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Dalam proses pembangunan kecerdasan buatan, kawalan dan bimbingan model bahasa besar (LLM) sentiasa menjadi salah satu cabaran utama, bertujuan untuk memastikan model ini adalah kedua-duanya. berkuasa dan selamat untuk masyarakat manusia. Usaha awal tertumpu kepada kaedah pembelajaran pengukuhan melalui maklum balas manusia (RL

Kertas arXiv boleh disiarkan sebagai 'bertubi-tubi', platform perbincangan Stanford alphaXiv dalam talian, LeCun menyukainya Aug 01, 2024 pm 05:18 PM

sorakan! Bagaimana rasanya apabila perbincangan kertas adalah perkataan? Baru-baru ini, pelajar di Universiti Stanford mencipta alphaXiv, forum perbincangan terbuka untuk kertas arXiv yang membenarkan soalan dan ulasan disiarkan terus pada mana-mana kertas arXiv. Pautan laman web: https://alphaxiv.org/ Malah, tidak perlu melawati tapak web ini secara khusus. Hanya tukar arXiv dalam mana-mana URL kepada alphaXiv untuk terus membuka kertas yang sepadan di forum alphaXiv: anda boleh mencari perenggan dengan tepat dalam. kertas itu, Ayat: Dalam ruang perbincangan di sebelah kanan, pengguna boleh menyiarkan soalan untuk bertanya kepada pengarang tentang idea dan butiran kertas tersebut Sebagai contoh, mereka juga boleh mengulas kandungan kertas tersebut, seperti: "Diberikan kepada

Satu kejayaan ketara dalam Hipotesis Riemann! Tao Zhexuan amat mengesyorkan kertas kerja baharu daripada MIT dan Oxford, dan pemenang Fields Medal berusia 37 tahun mengambil bahagian Aug 05, 2024 pm 03:32 PM

Baru-baru ini, Hipotesis Riemann, yang dikenali sebagai salah satu daripada tujuh masalah utama milenium, telah mencapai kejayaan baharu. Hipotesis Riemann ialah masalah yang tidak dapat diselesaikan yang sangat penting dalam matematik, berkaitan dengan sifat tepat taburan nombor perdana (nombor perdana ialah nombor yang hanya boleh dibahagikan dengan 1 dan dirinya sendiri, dan ia memainkan peranan asas dalam teori nombor). Dalam kesusasteraan matematik hari ini, terdapat lebih daripada seribu proposisi matematik berdasarkan penubuhan Hipotesis Riemann (atau bentuk umumnya). Dalam erti kata lain, sebaik sahaja Hipotesis Riemann dan bentuk umumnya dibuktikan, lebih daripada seribu proposisi ini akan ditetapkan sebagai teorem, yang akan memberi kesan yang mendalam terhadap bidang matematik dan jika Hipotesis Riemann terbukti salah, maka antara cadangan ini sebahagian daripadanya juga akan kehilangan keberkesanannya. Kejayaan baharu datang daripada profesor matematik MIT Larry Guth dan Universiti Oxford

Kerja selepas kematian Pasukan Penyelarasan Super OpenAI: Dua model besar bermain permainan, dan output menjadi lebih mudah difahami Jul 19, 2024 am 01:29 AM

Jika jawapan yang diberikan oleh model AI tidak dapat difahami sama sekali, adakah anda berani menggunakannya? Memandangkan sistem pembelajaran mesin digunakan dalam bidang yang lebih penting, menjadi semakin penting untuk menunjukkan sebab kita boleh mempercayai output mereka, dan bila tidak mempercayainya. Satu cara yang mungkin untuk mendapatkan kepercayaan dalam output sistem yang kompleks adalah dengan menghendaki sistem menghasilkan tafsiran outputnya yang boleh dibaca oleh manusia atau sistem lain yang dipercayai, iaitu, difahami sepenuhnya sehingga apa-apa ralat yang mungkin boleh dilakukan. dijumpai. Contohnya, untuk membina kepercayaan dalam sistem kehakiman, kami memerlukan mahkamah memberikan pendapat bertulis yang jelas dan boleh dibaca yang menjelaskan dan menyokong keputusan mereka. Untuk model bahasa yang besar, kita juga boleh menggunakan pendekatan yang sama. Walau bagaimanapun, apabila mengambil pendekatan ini, pastikan model bahasa menjana

LLM sememangnya tidak bagus untuk ramalan siri masa Ia bahkan tidak menggunakan keupayaan penaakulannya. Jul 15, 2024 pm 03:59 PM

Bolehkah model bahasa benar-benar digunakan untuk ramalan siri masa? Menurut Undang-undang Tajuk Berita Betteridge (sebarang tajuk berita yang berakhir dengan tanda soal boleh dijawab dengan "tidak"), jawapannya mestilah tidak. Fakta nampaknya benar: LLM yang begitu berkuasa tidak dapat mengendalikan data siri masa dengan baik. Siri masa, iaitu, siri masa, seperti namanya, merujuk kepada satu set jujukan titik data yang disusun mengikut urutan masa. Analisis siri masa adalah kritikal dalam banyak bidang, termasuk ramalan penyebaran penyakit, analisis runcit, penjagaan kesihatan dan kewangan. Dalam bidang analisis siri masa, ramai penyelidik baru-baru ini mengkaji cara menggunakan model bahasa besar (LLM) untuk mengelas, meramal dan mengesan anomali dalam siri masa. Makalah ini menganggap bahawa model bahasa yang pandai mengendalikan kebergantungan berjujukan dalam teks juga boleh digeneralisasikan kepada siri masa.

See all articles