Dalam masa 24 jam dan $200 untuk menyalin proses RLHF, Stanford mendapatkan sumber terbuka 'Ladang Alpaca'-AI-php.cn

Jadual Kandungan

Annotator simulasi

Penilaian

Kaedah rujukan

Rumah

Peranti teknologi

Dalam masa 24 jam dan $200 untuk menyalin proses RLHF, Stanford mendapatkan sumber terbuka 'Ladang Alpaca'

王林

May 28, 2023 pm 10:40 PM

ai Model

Pada penghujung Februari, Meta sumber terbuka siri model besar, LLaMA (diterjemahkan secara literal sebagai alpaca), dengan parameter antara 7 bilion hingga 65 bilion, yang dipanggil prototaip versi Meta ChatGPT. Selepas itu, institusi seperti Stanford University dan University of California, Berkeley, menjalankan "inovasi sekunder" berdasarkan LLaMA, dan berturut-turut melancarkan berbilang model besar sumber terbuka seperti Alpaca dan Vicuna Buat seketika, "Alpaca" menjadi model teratas dalam bulatan AI. Model seperti ChatGPT yang dibina oleh komuniti sumber terbuka ini bergerak dengan cepat dan sangat boleh disesuaikan Ia dipanggil penggantian sumber terbuka ChatGPT.

Walau bagaimanapun, sebab ChatGPT boleh menunjukkan keupayaan yang kuat dalam pemahaman teks, penjanaan, penaakulan, dll. adalah kerana OpenAI menggunakan paradigma latihan baharu-RLHF untuk model besar seperti ChatGPT (Pengukuhan Belajar daripada Maklum Balas Manusia), yang menggunakan pembelajaran peneguhan untuk mengoptimumkan model bahasa berdasarkan maklum balas manusia. Menggunakan kaedah RLHF, model bahasa yang besar boleh diselaraskan dengan pilihan manusia, mengikut niat manusia dan meminimumkan output yang tidak membantu, diherotkan atau berat sebelah. Walau bagaimanapun, kaedah RLHF bergantung pada anotasi dan penilaian manual yang meluas, yang selalunya mengambil masa berminggu-minggu dan beribu-ribu ringgit untuk mengumpul maklum balas manusia, yang memerlukan kos yang tinggi.

Kini, Universiti Stanford, yang melancarkan model sumber terbuka Alpaca, telah mencadangkan satu lagi simulator - AlpacaFarm (diterjemah secara literal sebagai ladang alpaca). AlpacaFarm boleh meniru proses RLHF dalam masa 24 jam untuk hanya kira-kira $200, membenarkan model sumber terbuka dengan cepat meningkatkan hasil penilaian manusia, yang boleh dipanggil setara dengan RLHF.

Dalam masa 24 jam dan $200 untuk menyalin proses RLHF, Stanford mendapatkan sumber terbuka Ladang Alpaca

AlpacaFarm cuba membangunkan kaedah pembelajaran daripada maklum balas manusia dengan cepat dan kos efektif. Untuk melakukan ini, pasukan penyelidik Stanford mula-mula mengenal pasti tiga kesukaran utama dalam mengkaji kaedah RLHF: kos tinggi data keutamaan manusia, kekurangan penilaian yang boleh dipercayai dan kekurangan pelaksanaan rujukan.

Untuk menyelesaikan ketiga-tiga masalah ini, AlpacaFarm membina pelaksanaan konkrit anotasi simulasi, penilaian automatik dan kaedah SOTA. Pada masa ini, kod projek AlpacaFarm adalah sumber terbuka.

Dalam masa 24 jam dan $200 untuk menyalin proses RLHF, Stanford mendapatkan sumber terbuka Ladang Alpaca

Alamat GitHub: https://github.com/tatsu-lab/alpaca_farm
Alamat kertas: https://tatsu-lab.github.io/alpaca_farm_paper.pdf

Seperti yang ditunjukkan dalam rajah di bawah, penyelidik boleh menggunakan simulator AlpacaFarm untuk membangunkan kaedah baharu pembelajaran dengan cepat daripada data maklum balas manusia, dan juga boleh memindahkan kaedah SOTA sedia ada kepada data keutamaan manusia.

Dalam masa 24 jam dan $200 untuk menyalin proses RLHF, Stanford mendapatkan sumber terbuka Ladang Alpaca

Annotator simulasi

Arahan 52k AlpacaFarm berdasarkan Alpaca dataset Build, yang mana 10k arahan digunakan untuk memperhalusi arahan asas mengikut model, baki 42k arahan digunakan untuk mempelajari keutamaan dan penilaian manusia, dan kebanyakannya digunakan untuk belajar daripada anotasi simulasi. Kajian ini menangani tiga cabaran utama kos anotasi, penilaian dan pelaksanaan pengesahan kaedah RLHF, dan mencadangkan penyelesaian satu demi satu.

Pertama, untuk mengurangkan kos anotasi, kajian ini mencipta gesaan untuk LLM dengan API boleh diakses (seperti GPT-4, ChatGPT), membolehkan AlpacaFarm mensimulasikan maklum balas manusia pada kos hanya Kaedah RLHF 1/45 daripada data yang dikumpul. Kajian ini mereka bentuk skema anotasi rawak dan bising menggunakan 13 gesaan berbeza untuk mengekstrak pilihan manusia yang berbeza daripada berbilang LLM. Skim anotasi ini bertujuan untuk menangkap pelbagai aspek maklum balas manusia, seperti pertimbangan kualiti, kebolehubahan antara anotasi dan pilihan gaya.

Kajian ini secara eksperimen menunjukkan bahawa simulasi AlpacaFarm adalah tepat. Apabila pasukan penyelidik menggunakan AlpacaFarm untuk melatih dan membangunkan kaedah, kaedah tersebut dinilai sangat konsisten dengan kaedah yang sama yang dilatih dan dibangunkan menggunakan maklum balas manusia sebenar. Rajah di bawah menunjukkan korelasi yang tinggi dalam kedudukan antara kaedah yang terhasil daripada aliran kerja simulasi AlpacaFarm dan aliran kerja maklum balas manusia. Sifat ini penting kerana ia menunjukkan bahawa kesimpulan eksperimen yang dibuat daripada simulasi berkemungkinan berlaku dalam situasi sebenar.

Selain korelasi peringkat kaedah, simulator AlpacaFarm juga boleh meniru fenomena kualitatif seperti pengoptimuman model ganjaran yang berlebihan, tetapi latihan RLHF berterusan untuk ganjaran pengganti boleh merosakkan prestasi Model. Rajah di bawah menunjukkan fenomena ini dalam kes maklum balas manusia (kiri) dan AlpacaFarm (kanan).

Dalam masa 24 jam dan $200 untuk menyalin proses RLHF, Stanford mendapatkan sumber terbuka Ladang Alpaca

Penilaian

Dari segi penilaian, pasukan penyelidik menggunakan Alpaca Interaksi pengguna masa nyata 7B sebagai panduan dan mensimulasikan pengedaran arahan dengan menggabungkan beberapa set data awam sedia ada, termasuk set data arahan kendiri, set data bantuan antropopik dan set penilaian Open Assistant, Koala dan Vicuna. Menggunakan arahan penilaian ini, kajian membandingkan tindak balas model RLHF kepada model Davinci003 dan menggunakan skor untuk mengukur bilangan kali model RLHF bertindak balas dengan lebih baik, memanggil skor ini sebagai kadar kemenangan. Seperti yang ditunjukkan dalam rajah di bawah, penilaian kuantitatif kedudukan sistem pada data penilaian kajian menunjukkan bahawa kedudukan sistem dan arahan pengguna masa nyata sangat berkorelasi. Keputusan ini menunjukkan bahawa mengagregatkan data awam sedia ada boleh mencapai prestasi yang serupa dengan arahan sebenar yang mudah.

Dalam masa 24 jam dan $200 untuk menyalin proses RLHF, Stanford mendapatkan sumber terbuka Ladang Alpaca

Kaedah rujukan

Untuk cabaran ketiga - tiada rujukan Pelaksanaan, Pasukan penyelidik melaksanakan dan menguji beberapa algoritma pembelajaran yang popular (seperti PPO, lelaran pakar, terbaik-of-n, pensampelan). Pasukan penyelidik mendapati bahawa kaedah yang lebih mudah yang berfungsi dalam domain lain tidak lebih baik daripada model SFT asal kajian, menunjukkan bahawa adalah penting untuk menguji algoritma ini dalam persekitaran mengikut arahan sebenar.

Dalam masa 24 jam dan $200 untuk menyalin proses RLHF, Stanford mendapatkan sumber terbuka Ladang Alpaca

Menurut penilaian manusia, algoritma PPO terbukti paling berkesan, menggabungkan model dengan Kadar kemenangan berbanding Davinci003 meningkat daripada 44% kepada 55%, malah mengatasi ChatGPT.

Keputusan ini menunjukkan bahawa algoritma PPO sangat berkesan dalam mengoptimumkan kadar kemenangan untuk model tersebut. Adalah penting untuk ambil perhatian bahawa keputusan ini adalah khusus untuk data penilaian dan anotasi kajian ini. Walaupun arahan penilaian kajian mewakili arahan pengguna masa nyata, arahan itu mungkin tidak meliputi masalah yang lebih mencabar, dan tidak pasti berapa banyak peningkatan dalam kadar kemenangan datang daripada mengeksploitasi keutamaan gaya dan bukannya fakta atau ketepatan. Sebagai contoh, kajian mendapati bahawa model PPO menghasilkan output yang lebih panjang dan sering memberikan penjelasan yang lebih terperinci untuk jawapan, seperti yang ditunjukkan di bawah:

Dalam masa 24 jam dan $200 untuk menyalin proses RLHF, Stanford mendapatkan sumber terbuka Ladang Alpaca

Atas ialah kandungan terperinci Dalam masa 24 jam dan $200 untuk menyalin proses RLHF, Stanford mendapatkan sumber terbuka 'Ladang Alpaca'. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

2 minggu yang lalu By DDD

R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Cara Membuka Segala -galanya Di Myrise

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7467

Tutorial CakePHP

1376

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi

Related knowledge

Geospatial Laravel: Pengoptimuman peta interaktif dan sejumlah besar data Apr 08, 2025 pm 12:24 PM

Cecair memproses 7 juta rekod dan membuat peta interaktif dengan teknologi geospatial. Artikel ini meneroka cara memproses lebih dari 7 juta rekod menggunakan Laravel dan MySQL dan mengubahnya menjadi visualisasi peta interaktif. Keperluan Projek Cabaran Awal: Ekstrak Wawasan berharga menggunakan 7 juta rekod dalam pangkalan data MySQL. Ramai orang mula -mula mempertimbangkan bahasa pengaturcaraan, tetapi mengabaikan pangkalan data itu sendiri: Bolehkah ia memenuhi keperluan? Adakah penghijrahan data atau pelarasan struktur diperlukan? Bolehkah MySQL menahan beban data yang besar? Analisis awal: Penapis utama dan sifat perlu dikenalpasti. Selepas analisis, didapati bahawa hanya beberapa atribut yang berkaitan dengan penyelesaiannya. Kami mengesahkan kemungkinan penapis dan menetapkan beberapa sekatan untuk mengoptimumkan carian. Carian Peta Berdasarkan Bandar

Cara menyelesaikan MySQL tidak dapat dimulakan Apr 08, 2025 pm 02:21 PM

Terdapat banyak sebab mengapa permulaan MySQL gagal, dan ia boleh didiagnosis dengan memeriksa log ralat. Penyebab umum termasuk konflik pelabuhan (periksa penghunian pelabuhan dan ubah suai konfigurasi), isu kebenaran (periksa keizinan pengguna yang menjalankan perkhidmatan), ralat fail konfigurasi (periksa tetapan parameter), rasuah direktori data (memulihkan data atau membina semula ruang meja), isu ruang jadual InnoDB (semak fail ibdata1) Apabila menyelesaikan masalah, anda harus menganalisisnya berdasarkan log ralat, cari punca utama masalah, dan mengembangkan tabiat sandaran data secara teratur untuk mencegah dan menyelesaikan masalah.

Cara Menggunakan MySQL Selepas Pemasangan Apr 08, 2025 am 11:48 AM

Artikel ini memperkenalkan operasi pangkalan data MySQL. Pertama, anda perlu memasang klien MySQL, seperti MySqlworkbench atau Command Line Client. 1. Gunakan perintah MySQL-Uroot-P untuk menyambung ke pelayan dan log masuk dengan kata laluan akaun root; 2. Gunakan CreateTatabase untuk membuat pangkalan data, dan gunakan Pilih pangkalan data; 3. Gunakan createtable untuk membuat jadual, menentukan medan dan jenis data; 4. Gunakan InsertInto untuk memasukkan data, data pertanyaan, kemas kini data dengan kemas kini, dan padam data dengan padam. Hanya dengan menguasai langkah -langkah ini, belajar menangani masalah biasa dan mengoptimumkan prestasi pangkalan data anda boleh menggunakan MySQL dengan cekap.

Jurutera Backend Senior Remote (Platform) memerlukan kalangan Apr 08, 2025 pm 12:27 PM

Jurutera Backend Senior Remote Company Kekosongan Syarikat: Lokasi Lokasi: Jauh Pejabat Jauh Jenis: Gaji sepenuh masa: $ 130,000- $ 140,000 Penerangan Pekerjaan Mengambil bahagian dalam penyelidikan dan pembangunan aplikasi mudah alih Circle dan ciri-ciri berkaitan API awam yang meliputi keseluruhan kitaran hayat pembangunan perisian. Tanggungjawab utama kerja pembangunan secara bebas berdasarkan rubyonrails dan bekerjasama dengan pasukan react/redux/relay front-end. Membina fungsi teras dan penambahbaikan untuk aplikasi web dan bekerjasama rapat dengan pereka dan kepimpinan sepanjang proses reka bentuk berfungsi. Menggalakkan proses pembangunan positif dan mengutamakan kelajuan lelaran. Memerlukan lebih daripada 6 tahun backend aplikasi web kompleks

Bolehkah mysql kembali json Apr 08, 2025 pm 03:09 PM

MySQL boleh mengembalikan data JSON. Fungsi JSON_EXTRACT mengekstrak nilai medan. Untuk pertanyaan yang kompleks, pertimbangkan untuk menggunakan klausa WHERE untuk menapis data JSON, tetapi perhatikan kesan prestasinya. Sokongan MySQL untuk JSON sentiasa meningkat, dan disyorkan untuk memberi perhatian kepada versi dan ciri terkini.

Memahami sifat asid: tiang pangkalan data yang boleh dipercayai Apr 08, 2025 pm 06:33 PM

Penjelasan terperinci mengenai atribut asid asid pangkalan data adalah satu set peraturan untuk memastikan kebolehpercayaan dan konsistensi urus niaga pangkalan data. Mereka menentukan bagaimana sistem pangkalan data mengendalikan urus niaga, dan memastikan integriti dan ketepatan data walaupun dalam hal kemalangan sistem, gangguan kuasa, atau pelbagai pengguna akses serentak. Gambaran keseluruhan atribut asid Atomicity: Transaksi dianggap sebagai unit yang tidak dapat dipisahkan. Mana -mana bahagian gagal, keseluruhan transaksi dilancarkan kembali, dan pangkalan data tidak mengekalkan sebarang perubahan. Sebagai contoh, jika pemindahan bank ditolak dari satu akaun tetapi tidak meningkat kepada yang lain, keseluruhan operasi dibatalkan. Begintransaction; UpdateAcCountSsetBalance = Balance-100Wh

Mysql tidak dapat dipasang setelah memuat turun Apr 08, 2025 am 11:24 AM

Sebab utama kegagalan pemasangan MySQL adalah: 1. Isu kebenaran, anda perlu menjalankan sebagai pentadbir atau menggunakan perintah sudo; 2. Ketergantungan hilang, dan anda perlu memasang pakej pembangunan yang relevan; 3. Konflik pelabuhan, anda perlu menutup program yang menduduki port 3306 atau mengubah suai fail konfigurasi; 4. Pakej pemasangan adalah korup, anda perlu memuat turun dan mengesahkan integriti; 5. Pembolehubah persekitaran dikonfigurasikan dengan salah, dan pembolehubah persekitaran mesti dikonfigurasi dengan betul mengikut sistem operasi. Selesaikan masalah ini dan periksa dengan teliti setiap langkah untuk berjaya memasang MySQL.

Kunci utama MySQL boleh menjadi batal Apr 08, 2025 pm 03:03 PM

Kunci utama MySQL tidak boleh kosong kerana kunci utama adalah atribut utama yang secara unik mengenal pasti setiap baris dalam pangkalan data. Jika kunci utama boleh kosong, rekod tidak dapat dikenal pasti secara unik, yang akan membawa kepada kekeliruan data. Apabila menggunakan lajur integer sendiri atau UUIDs sebagai kunci utama, anda harus mempertimbangkan faktor-faktor seperti kecekapan dan penghunian ruang dan memilih penyelesaian yang sesuai.

See all articles