Set arahan diperhalusi sumber terbuka Microsoft membantu membangunkan versi rumah GPT-4, menyokong penjanaan dwibahasa dalam bahasa Cina dan Inggeris.-AI-php.cn

Jadual Kandungan

Data latihan

Model bahasa penalaan arahan

Hasil Eksperimen

Rumah

Peranti teknologi

Set arahan diperhalusi sumber terbuka Microsoft membantu membangunkan versi rumah GPT-4, menyokong penjanaan dwibahasa dalam bahasa Cina dan Inggeris.

王林

Apr 26, 2023 pm 02:58 PM

ai data

"Arahan" ialah faktor utama dalam kemajuan terobosan model ChatGPT, yang boleh menjadikan output model bahasa lebih selaras dengan "keutamaan manusia."

Tetapi anotasi arahan memerlukan banyak tenaga kerja Walaupun dengan model bahasa sumber terbuka, adalah sukar bagi institusi akademik dan syarikat kecil yang tidak mempunyai dana yang mencukupi untuk melatih ChatGPT mereka sendiri.

Baru-baru ini, penyelidik Microsoft menggunakan teknologi Arahan Kendiri yang dicadangkan sebelum ini untuk buat pertama kali cuba menggunakan model GPT-4 untuk menjana model bahasa secara automatik Data arahan memangkas diperlukan .

Set arahan diperhalusi sumber terbuka Microsoft membantu membangunkan versi rumah GPT-4, menyokong penjanaan dwibahasa dalam bahasa Cina dan Inggeris.

Pautan kertas: https://arxiv.org/pdf/2304.03277.pdf

Pautan kod: https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM

Hasil eksperimen pada model LLaMA sumber terbuka Meta menunjukkan bahawa 52,000 data mengikut arahan bahasa Inggeris dan Cina yang dijana oleh GPT-4 mengatasi arahan yang dijana oleh model terkini yang terkini mengenai tugasan baharu Data, para penyelidik juga mengumpul maklum balas dan data perbandingan daripada GPT-4 untuk penilaian komprehensif dan latihan model ganjaran.

Data latihan

Pengumpulan data

Para penyelidik menggunakan semula model Alpaca yang dikeluarkan oleh Universiti Stanford 52,000 arahan digunakan, setiap satunya menerangkan tugas yang perlu dilakukan oleh model, dan mengikut strategi dorongan yang sama seperti Alpaca, dengan mengambil kira situasi dengan dan tanpa input, sebagai konteks pilihan atau input tugasan menggunakan model bahasa Besar output jawapan kepada arahan.

Set arahan diperhalusi sumber terbuka Microsoft membantu membangunkan versi rumah GPT-4, menyokong penjanaan dwibahasa dalam bahasa Cina dan Inggeris.

Dalam set data Alpaca, output dijana menggunakan GPT-3.5 (text-davinci-003), tetapi dalam Dalam kertas kerja ini, penyelidik memilih untuk menggunakan GPT-4 untuk menjana data, termasuk empat set data berikut:

1 Data Mengikuti Arahan Bahasa Inggeris: Untuk setiap satu daripada 52,000 arahan yang dikumpul di Alpaca, jawapan GPT-4 Bahasa Inggeris disediakan.

Set arahan diperhalusi sumber terbuka Microsoft membantu membangunkan versi rumah GPT-4, menyokong penjanaan dwibahasa dalam bahasa Cina dan Inggeris.

Kerja masa hadapan ialah mengikuti proses berulang dan membina set data baharu menggunakan GPT-4 dan arahan kendiri .

2 Data Mengikuti Arahan Bahasa Cina: Gunakan ChatGPT untuk menterjemah 52,000 arahan ke dalam bahasa Cina, dan minta GPT-4 menjawab arahan ini dalam bahasa Cina, dan Binaan ini model mengikut arahan bahasa Cina berdasarkan LLaMA dan mengkaji keupayaan generalisasi silang bahasa bagi penalaan arahan.

3 Data Perbandingan: Memerlukan GPT-4 untuk memberikan penilaian dari 1 hingga 10 untuk balasannya sendiri, dan menilai GPT-4, GPT Respons bagi tiga model -3.5 dan OPT-IML diberi markah untuk melatih model ganjaran.

Set arahan diperhalusi sumber terbuka Microsoft membantu membangunkan versi rumah GPT-4, menyokong penjanaan dwibahasa dalam bahasa Cina dan Inggeris.

4 Jawapan kepada arahan yang tidak wajar: Jawapan kepada GPT-4 ialah 68,000. Dinyahkodkan pada set data sebanyak tiga kali ganda (arahan, input, output), subset ini digunakan untuk mengukur perbezaan skala antara GPT-4 dan model yang ditala arahan.

Statistik

Para penyelidik membandingkan set balasan keluaran Bahasa Inggeris GPT-4 dan GPT-3.5: untuk setiap keluaran, kata kerja akar dan kata nama objek langsung telah diekstrak, dan dalam setiap Kekerapan pasangan kata kerja-kata nama yang unik ialah dikira ke atas set keluaran.

Set arahan diperhalusi sumber terbuka Microsoft membantu membangunkan versi rumah GPT-4, menyokong penjanaan dwibahasa dalam bahasa Cina dan Inggeris.

Pasangan kata kerja-kata nama dengan kekerapan lebih tinggi daripada 10

Set arahan diperhalusi sumber terbuka Microsoft membantu membangunkan versi rumah GPT-4, menyokong penjanaan dwibahasa dalam bahasa Cina dan Inggeris.

25 pasangan kata kerja-kata nama yang paling kerap

Set arahan diperhalusi sumber terbuka Microsoft membantu membangunkan versi rumah GPT-4, menyokong penjanaan dwibahasa dalam bahasa Cina dan Inggeris.

Perbandingan taburan kekerapan bagi panjang jujukan output

Dapat dilihat bahawa GPT-4 cenderung menjana lebih banyak data daripada GPT-3.5 Untuk jujukan panjang, fenomena long tail data GPT-3.5 dalam Alpaca adalah lebih jelas daripada taburan output GPT-4 Ini mungkin kerana set data Alpaca melibatkan proses pengumpulan data berulang, dan contoh arahan yang serupa dialih keluar dalam setiap lelaran Ini tidak tersedia dalam penjanaan data satu kali semasa.

Walaupun prosesnya mudah, data mengikut arahan yang dijana oleh GPT-4 mempamerkan prestasi penjajaran yang lebih berkuasa.

Model bahasa penalaan arahan

Penalaan Arahan Kendiri

Penyelidik berdasarkan LLaMA Selepas 7B pusat pemeriksaan diselia penalaan halus, dua model telah dilatih: LLaMA-GPT4 telah dilatih pada 52,000 data mengikut arahan bahasa Inggeris yang dijana oleh LLaMA-GPT4-CN telah dilatih pada 52,000 item Cina yang dijana oleh GPT-4 Dilatih mengikut arahan mengikut arahan; data.

Dua model digunakan untuk mengkaji kualiti data GPT-4 dan sifat generalisasi silang bahasa bagi LLM yang ditala arahan dalam satu bahasa.

Model Ganjaran

Pembelajaran Pengukuhan daripada Maklum Balas Manusia (RLHF) bertujuan untuk Menjajarkan tingkah laku LLM dengan keutamaan manusia supaya keluaran model bahasa lebih berguna kepada manusia.

Komponen utama RLHF ialah pemodelan ganjaran. Masalahnya boleh dirumuskan sebagai tugasan regresi untuk meramalkan skor ganjaran yang diberikan segera dan balasan Kaedah ini biasanya memerlukan data Perbandingan berskala besar , iaitu membandingkan respons dua model kepada gesaan yang sama.

Model sumber terbuka sedia ada, seperti Alpaca, Vicuna dan Dolly, tidak menggunakan RLHF kerana kos yang tinggi untuk membuat anotasi data perbandingan, dan penyelidikan terkini menunjukkan bahawa GPT-4 boleh Mengenal pasti dan betulkan kesilapan anda sendiri dan nilai dengan tepat kualiti respons anda.

Set arahan diperhalusi sumber terbuka Microsoft membantu membangunkan versi rumah GPT-4, menyokong penjanaan dwibahasa dalam bahasa Cina dan Inggeris.

Untuk mempromosikan penyelidikan tentang RLHF, penyelidik mencipta data perbandingan menggunakan GPT-4 untuk menilai kualiti data, Para penyelidik melatih model ganjaran berdasarkan OPT 1.3B untuk menjaringkan balasan yang berbeza: untuk satu balasan gesaan dan K, GPT-4 memberikan skor antara 1 dan 10 untuk setiap balasan.

Hasil Eksperimen

Menilai prestasi model yang ditala arahan kendiri untuk tugasan yang tidak pernah dilihat sebelumnya pada data GPT-4 kekal sebagai tugas yang sukar .

Memandangkan matlamat utama adalah untuk menilai keupayaan model untuk memahami dan mematuhi pelbagai arahan tugas, untuk mencapai matlamat ini, penyelidik menggunakan tiga jenis penilaian dan disahkan oleh keputusan kajian itu, "Menggunakan data yang dijana GPT-4 adalah kaedah yang berkesan untuk menala arahan model bahasa yang besar berbanding dengan data yang dijana secara automatik oleh mesin lain.

Penilaian Manusia

Untuk menilai kualiti penjajaran model bahasa besar selepas menala arahan ini, penyelidik mengikuti kriteria penjajaran yang dicadangkan sebelum ini: jika Pembantu adalah membantu, jujur dan tidak berbahaya (HHH) jika ia sejajar dengan kriteria penilaian manusia, yang juga digunakan secara meluas untuk menilai sejauh mana sistem AI konsisten dengan nilai manusia.

Kemanfaatan: Sama ada ia boleh membantu manusia mencapai matlamat mereka, model yang boleh menjawab soalan dengan tepat adalah membantu.

Kejujuran: Sama ada untuk memberikan maklumat yang benar dan menyatakan ketidakpastiannya apabila perlu untuk mengelakkan pengguna manusia yang mengelirukan, model yang memberikan maklumat palsu adalah tidak jujur.

Ketidakmudaratan: Model yang menjana ucapan kebencian atau menggalakkan keganasan tidak berbahaya jika ia tidak mendatangkan kemudaratan kepada manusia.

Berdasarkan kriteria penjajaran HHH, penyelidik menggunakan platform penyumberan ramai Amazon Mechanical Turk untuk menilai secara manual hasil penjanaan model.

Set arahan diperhalusi sumber terbuka Microsoft membantu membangunkan versi rumah GPT-4, menyokong penjanaan dwibahasa dalam bahasa Cina dan Inggeris.

Kedua-dua model yang dicadangkan dalam artikel itu telah diperhalusi pada data yang dijana oleh GPT-4 dan GPT-3 Dapat dilihat bahawa LLaMA-GPT4 jauh lebih baik daripada Alpaca (19.74%) yang disesuaikan dengan GPT-3 dari segi kebergunaan dengan perkadaran 51.2%. seri. GPT-3 adalah lebih baik.

Set arahan diperhalusi sumber terbuka Microsoft membantu membangunkan versi rumah GPT-4, menyokong penjanaan dwibahasa dalam bahasa Cina dan Inggeris.

Jika dibandingkan dengan GPT-4 asal, boleh didapati bahawa kedua-duanya agak konsisten dalam ketiga-tiga piawaian . Iaitu, prestasi LLaMA selepas menala arahan GPT-4 adalah serupa dengan GPT-4 yang asal.

Penilaian automatik GPT-4

Diilhamkan oleh Vicuna, penyelidik juga memilih untuk menggunakan GPT-4 untuk penilaian. kualiti respons yang dijana oleh model chatbot yang berbeza kepada 80 soalan yang tidak kelihatan telah dikumpul daripada model LLaMA-GPT-4(7B) dan GPT-4, dan jawapan daripada model lain diperoleh daripada penyelidikan terdahulu, dan kemudian ditanya GPT-4. menjaringkan kualiti balasan antara dua model pada skala dari 1 hingga 10 dan membandingkan keputusan dengan model bersaing kuat yang lain (ChatGPT dan GPT-4).

Set arahan diperhalusi sumber terbuka Microsoft membantu membangunkan versi rumah GPT-4, menyokong penjanaan dwibahasa dalam bahasa Cina dan Inggeris.

Hasil penilaian menunjukkan bahawa data maklum balas dan model ganjaran berkesan dalam meningkatkan prestasi LLaMA menggunakan GPT-4 LLaMA melakukan penalaan arahan dan selalunya berprestasi lebih baik daripada penalaan teks-davinci-003 (iaitu Alpaca) dan tiada penalaan (iaitu LLaMA GPT4 melebihi prestasi 13B Alpaca dan LLaMA, tetapi berbeza daripada GPT-4 Berbanding dengan); chatbot komersial besar lain, masih ada jurang.

Set arahan diperhalusi sumber terbuka Microsoft membantu membangunkan versi rumah GPT-4, menyokong penjanaan dwibahasa dalam bahasa Cina dan Inggeris.

Apabila mengkaji lebih lanjut prestasi chatbot Cina, GPT-4 mula-mula digunakan untuk menterjemah soalan chatbot daripada bahasa Inggeris Dalam bahasa Cina, menggunakan GPT-4 untuk mendapatkan jawapan, dua pemerhatian menarik boleh diperolehi:

1 Boleh didapati bahawa penunjuk skor relatif bagi penilaian GPT-4 adalah agak konsisten. , kedua-duanya dari segi model lawan yang berbeza (iaitu ChatGPT atau GPT-4) dan bahasa (iaitu Inggeris atau Cina).

2 Hanya untuk keputusan GPT-4, balasan yang diterjemahkan menunjukkan prestasi yang lebih baik daripada balasan yang dijana oleh bahasa Cina, mungkin kerana GPT-4 Ia dilatih. dalam korpus Inggeris yang lebih kaya daripada bahasa Cina, jadi ia mempunyai keupayaan mengikut arahan bahasa Inggeris yang lebih kuat.

Penilaian Arahan Tidak Semulajadi

Set arahan diperhalusi sumber terbuka Microsoft membantu membangunkan versi rumah GPT-4, menyokong penjanaan dwibahasa dalam bahasa Cina dan Inggeris.

Daripada purata Dari segi ROUGE- Skor L, Alpaca lebih baik daripada LLaMA-GPT 4 dan GPT-4 Dapat dilihat bahawa LLaMA-GPT4 dan GPT4 secara beransur-ansur berprestasi lebih baik apabila panjang balasan kebenaran tanah meningkat, dan akhirnya berprestasi lebih baik apabila panjang melebihi 4. Prestasi tinggi bermakna. arahan boleh diikuti dengan lebih baik apabila adegan lebih kreatif.

Dalam subset yang berbeza, tingkah laku LLaMA-GPT4 dan GPT-4 adalah hampir sama; apabila panjang jujukan adalah pendek, kedua-dua LLaMA-GPT4 dan GPT-4 boleh menjana Balasan mudah yang memberikan jawapan fakta asas tetapi menambah perkataan tambahan untuk menjadikan balasan lebih seperti sembang boleh menyebabkan skor ROUGE-L yang lebih rendah.

Atas ialah kandungan terperinci Set arahan diperhalusi sumber terbuka Microsoft membantu membangunkan versi rumah GPT-4, menyokong penjanaan dwibahasa dalam bahasa Cina dan Inggeris.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

3 minggu yang lalu By DDD

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

2 minggu yang lalu By DDD

Di mana untuk mencari kad kunci kawalan kren di atomfall

3 minggu yang lalu By DDD

Penjimatan di R.E.P.O. Dijelaskan (dan simpan fail)

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows - Cara Mencari Orang Panda

4 minggu yang lalu By DDD

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7569

Tutorial CakePHP

1386

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

107

Tunjukkan Lagi

Related knowledge

Cara Memeriksa Konfigurasi HDFS CentOS Apr 14, 2025 pm 07:21 PM

Panduan Lengkap untuk Memeriksa Konfigurasi HDFS Dalam Sistem CentOS Artikel ini akan membimbing anda bagaimana untuk memeriksa konfigurasi dan menjalankan status HDFS secara berkesan pada sistem CentOS. Langkah -langkah berikut akan membantu anda memahami sepenuhnya persediaan dan operasi HDFS. Sahkan Pembolehubah Alam Sekitar Hadoop: Pertama, pastikan pembolehubah persekitaran Hadoop ditetapkan dengan betul. Di terminal, laksanakan arahan berikut untuk mengesahkan bahawa Hadoop dipasang dan dikonfigurasi dengan betul: Hadoopversion Semak fail konfigurasi HDFS: Fail konfigurasi teras HDFS terletak di/etc/hadoop/conf/direktori, di mana core-site.xml dan hdfs-site.xml adalah kritikal. gunakan

Baris arahan shutdown centos Apr 14, 2025 pm 09:12 PM

Perintah shutdown CentOS adalah penutupan, dan sintaks adalah tutup [pilihan] [maklumat]. Pilihan termasuk: -h menghentikan sistem dengan segera; -P mematikan kuasa selepas penutupan; -r mulakan semula; -T Waktu Menunggu. Masa boleh ditentukan sebagai segera (sekarang), minit (minit), atau masa tertentu (HH: mm). Maklumat tambahan boleh dipaparkan dalam mesej sistem.

Apakah kaedah sandaran untuk gitlab di centos Apr 14, 2025 pm 05:33 PM

Dasar sandaran dan pemulihan Gitlab di bawah sistem CentOS untuk memastikan keselamatan data dan pemulihan, Gitlab pada CentOS menyediakan pelbagai kaedah sandaran. Artikel ini akan memperkenalkan beberapa kaedah sandaran biasa, parameter konfigurasi dan proses pemulihan secara terperinci untuk membantu anda menubuhkan strategi sandaran dan pemulihan GitLab lengkap. 1. Backup Manual Gunakan Gitlab-Rakegitlab: Backup: Buat Perintah untuk Melaksanakan Backup Manual. Perintah ini menyokong maklumat utama seperti repositori Gitlab, pangkalan data, pengguna, kumpulan pengguna, kunci, dan kebenaran. Fail sandaran lalai disimpan dalam direktori/var/opt/gitlab/sandaran. Anda boleh mengubah suai /etc /gitlab

CentOS memasang MySQL Apr 14, 2025 pm 08:09 PM

Memasang MySQL pada CentOS melibatkan langkah -langkah berikut: Menambah sumber MySQL YUM yang sesuai. Jalankan YUM Pasang Perintah MySQL-Server untuk memasang pelayan MySQL. Gunakan perintah mysql_secure_installation untuk membuat tetapan keselamatan, seperti menetapkan kata laluan pengguna root. Sesuaikan fail konfigurasi MySQL seperti yang diperlukan. Tune parameter MySQL dan mengoptimumkan pangkalan data untuk prestasi.

Cara Melihat Log Gitlab Di Bawah Centos Apr 14, 2025 pm 06:18 PM

Panduan Lengkap untuk Melihat Log Gitlab Di bawah Sistem CentOS Artikel ini akan membimbing anda bagaimana untuk melihat pelbagai log Gitlab dalam sistem CentOS, termasuk log utama, log pengecualian, dan log lain yang berkaitan. Sila ambil perhatian bahawa laluan fail log mungkin berbeza -beza bergantung pada versi GitLab dan kaedah pemasangan. Jika laluan berikut tidak wujud, sila semak fail Direktori Pemasangan dan Konfigurasi GitLab. 1. Lihat log Gitlab utama Gunakan arahan berikut untuk melihat fail log utama aplikasi GitLabRails: Perintah: Sudocat/var/Log/Gitlab/Gitlab-Rails/Production.log Perintah ini akan memaparkan produk

Cara Mengendalikan Latihan Pittorch Diagihkan di Centos Apr 14, 2025 pm 06:36 PM

Latihan yang diedarkan Pytorch pada sistem CentOS memerlukan langkah -langkah berikut: Pemasangan Pytorch: Premisnya ialah Python dan PIP dipasang dalam sistem CentOS. Bergantung pada versi CUDA anda, dapatkan arahan pemasangan yang sesuai dari laman web rasmi Pytorch. Untuk latihan CPU sahaja, anda boleh menggunakan arahan berikut: PipinstallToRchTorchVisionTorchaudio Jika anda memerlukan sokongan GPU, pastikan versi CUDA dan CUDNN yang sama dipasang dan gunakan versi pytorch yang sepadan untuk pemasangan. Konfigurasi Alam Sekitar Teragih: Latihan yang diedarkan biasanya memerlukan pelbagai mesin atau mesin berbilang mesin tunggal. Tempat

Penjelasan terperinci mengenai Prinsip Docker Apr 14, 2025 pm 11:57 PM

Docker menggunakan ciri -ciri kernel Linux untuk menyediakan persekitaran berjalan yang cekap dan terpencil. Prinsip kerjanya adalah seperti berikut: 1. Cermin digunakan sebagai templat baca sahaja, yang mengandungi semua yang anda perlukan untuk menjalankan aplikasi; 2. Sistem Fail Kesatuan (Unionfs) menyusun pelbagai sistem fail, hanya menyimpan perbezaan, menjimatkan ruang dan mempercepatkan; 3. Daemon menguruskan cermin dan bekas, dan pelanggan menggunakannya untuk interaksi; 4. Ruang nama dan cgroups melaksanakan pengasingan kontena dan batasan sumber; 5. Pelbagai mod rangkaian menyokong interkoneksi kontena. Hanya dengan memahami konsep -konsep teras ini, anda boleh menggunakan Docker dengan lebih baik.

Bagaimana sokongan GPU untuk Pytorch di CentOS Apr 14, 2025 pm 06:48 PM

Membolehkan pecutan GPU pytorch pada sistem CentOS memerlukan pemasangan cuda, cudnn dan GPU versi pytorch. Langkah-langkah berikut akan membimbing anda melalui proses: Pemasangan CUDA dan CUDNN Tentukan keserasian versi CUDA: Gunakan perintah NVIDIA-SMI untuk melihat versi CUDA yang disokong oleh kad grafik NVIDIA anda. Sebagai contoh, kad grafik MX450 anda boleh menyokong CUDA11.1 atau lebih tinggi. Muat turun dan pasang Cudatoolkit: Lawati laman web rasmi Nvidiacudatoolkit dan muat turun dan pasang versi yang sepadan mengikut versi CUDA tertinggi yang disokong oleh kad grafik anda. Pasang Perpustakaan Cudnn:

See all articles