Teknologi ini digunakan oleh ChatGPT dan pesaingnya yang berpotensi-AI-php.cn

Jadual Kandungan

Dari teks ramalan kepada arahan mengikut

Ikuti arahan dengan selamat

Penalaan halus model

Ringkasan perkara utama

Pemikiran mengenai kerja lanjut mengenai ejen dialog

Rumah

Peranti teknologi

Teknologi ini digunakan oleh ChatGPT dan pesaingnya yang berpotensi

王林

Apr 12, 2023 pm 01:13 PM

ai teknologi

Dengan kemunculan ChatGPT dan perbincangan meluas yang menyusuli, akronim yang tidak jelas seperti RLHF, SFT, IFT, CoT, dll. telah muncul di mata umum, semuanya disebabkan kejayaan ChatGPT. Apakah akronim yang tidak jelas ini? Mengapa mereka begitu penting? Pengarang artikel ini menyemak semua kertas penting mengenai topik ini dan mengklasifikasikan serta meringkaskannya.

ChatGPT bukanlah ejen dialog berasaskan model bahasa pertama (LM) Malah, banyak organisasi telah mengeluarkan ejen dialog model bahasa sebelum OpenAI, termasuk Meta BlenderBot, Google LaMDA, DeepMind's Sparrow. dan Pembantu Antropik. Sesetengah organisasi juga telah mengumumkan rancangan untuk membina bot sembang sumber terbuka dan membuat peta jalan mereka terbuka (seperti Pembantu Terbuka LAION). Mesti ada organisasi lain melakukan perkara yang sama, cuma tidak diumumkan.

Jadual di bawah membandingkan AI chatbots yang dinyatakan di atas berdasarkan sama ada ia boleh diakses secara umum, data latihan, seni bina model dan butiran penilaian. Tiada data yang berkaitan untuk ChatGPT Maklumat yang digunakan di sini ialah InstructGPT, yang merupakan model OpenAI yang diperhalusi dan dianggap sebagai asas ChatGPT.

Teknologi ini digunakan oleh ChatGPT dan pesaingnya yang berpotensi

Walaupun terdapat banyak perbezaan dalam data latihan, model dan penalaan halus, chatbots ini juga berkongsi beberapa persamaan - Arahan mengikut bermakna bertindak balas kepada arahan pengguna. Sebagai contoh, minta ChatGPT menulis puisi tentang siulan.

Teknologi ini digunakan oleh ChatGPT dan pesaingnya yang berpotensi

Dari teks ramalan kepada arahan mengikut

Secara amnya, pemodelan bahasa asas mempunyai matlamat yang tidak mencukupi Untuk membenarkan model untuk mengikuti arahan pengguna dengan cekap. Pencipta model juga menggunakan Penalaan Halus Arahan (IFT), yang boleh memperhalusi model asas pada tugasan yang pelbagai dan juga boleh digunakan pada tugasan NLP klasik seperti analisis sentimen, klasifikasi teks dan ringkasan.

IFT terutamanya terdiri daripada tiga bahagian: arahan, input dan output. Input adalah pilihan dan sesetengah tugas hanya memerlukan arahan, seperti contoh ChatGPT di atas. Input dan output membentuk contoh. Arahan yang diberikan boleh mempunyai berbilang input dan output. Contoh yang relevan adalah seperti berikut ([Wang et al., '22]).

Teknologi ini digunakan oleh ChatGPT dan pesaingnya yang berpotensi

Data IFT biasanya menggunakan set arahan yang diikat oleh arahan manusia dan model bahasa. Untuk bootstrap, LM menjana arahan, input dan output baharu berdasarkan gesaan dengan sampel sifar. Dalam setiap pusingan, model digesa dengan sampel yang dipilih daripada manusia menulis dan menjana model. Sumbangan manusia dan model kepada set data boleh dinyatakan sebagai spektrum, seperti yang ditunjukkan dalam rajah di bawah.

Teknologi ini digunakan oleh ChatGPT dan pesaingnya yang berpotensi

Salah satunya ialah set data IFT yang dijana model semata-mata seperti Arahan Tidak Semulajadi, dan satu lagi ialah himpunan usaha komuniti dan manual Cipta arahan seperti Arahan Super natural. Di antaranya, pilih set data benih berkualiti tinggi dan kemudian bootstrap seperti Arahan Kendiri. Satu lagi cara untuk mengumpul set data untuk IFT ialah menggunakan set data sumber ramai NLP sedia ada yang berkualiti tinggi untuk pelbagai tugas (termasuk menggesa) dan menggunakan set data ini sebagai arahan menggunakan corak bersatu atau templat yang berbeza termasuk T0, set data arahan Semulajadi, FLAN LM dan OPT -IML.

Ikuti arahan dengan selamat

LM Menggunakan arahan yang diperhalusi mungkin tidak selalu menghasilkan respons yang berguna dan selamat. Contoh tingkah laku ini termasuk respons yang tidak sah (subterfuges), sentiasa memberikan respons yang tidak sah seperti "Maaf, saya tidak faham" atau membalas dengan tidak selamat kepada input pengguna tentang topik sensitif.

Untuk menyelesaikan masalah ini, pembangun model menggunakan Penyeliaan Penalaan Halus (SFT) untuk memperhalusi model bahasa asas pada data berlabel manusia berkualiti tinggi untuk mencapai respons yang berkesan dan selamat.

SFT dan IFT berkait rapat. Penalaan arahan boleh dianggap sebagai subset penalaan halus diselia. Dalam literatur terkini, fasa SFT biasanya digunakan untuk topik keselamatan dan bukannya topik khusus arahan yang mengikuti IFT. Pengelasan dan penerangan ini akan mempunyai kes dan kaedah penggunaan yang lebih jelas pada masa hadapan.

Teknologi ini digunakan oleh ChatGPT dan pesaingnya yang berpotensi

LaMDA Google juga diperhalusi berdasarkan set peraturan pada set data perbualan dengan anotasi keselamatan. Peraturan ini biasanya dipratentukan dan digubal oleh pencipta model dan meliputi pelbagai topik seperti kemudaratan, diskriminasi dan maklumat salah.

Penalaan halus model

Sebaliknya, InstructGPT OpenAI, DeepMind’s Sparrow dan ConstitutionalAI Anthropic semuanya menggunakan pembelajaran pengukuhan daripada teknologi maklum balas manusia, RLHF). Dalam RLHF, respons model dinilai berdasarkan maklum balas manusia (seperti memilih jawapan yang lebih baik), kemudian model dilatih dengan respons beranotasi ini untuk mengembalikan ganjaran skalar kepada pengoptimum RL, dan akhirnya agen perbualan dilatih melalui pembelajaran pengukuhan untuk mensimulasikan Model keutamaan.

Chain-of-thought (CoT) ialah kes khas demonstrasi arahan yang menjana output dengan menimbulkan penaakulan langkah demi langkah daripada ejen perbualan. Model yang diperhalusi dengan CoT menggunakan set data arahan beranotasi manusia dengan inferens langkah demi langkah. Seperti yang ditunjukkan dalam contoh di bawah, penanda oren mewakili arahan, penanda merah jambu mewakili input dan output, dan penanda biru mewakili penaakulan CoT.

Teknologi ini digunakan oleh ChatGPT dan pesaingnya yang berpotensi

Model yang diperhalusi dengan CoT berprestasi lebih baik pada tugas yang melibatkan akal sehat, aritmetik dan penaakulan simbolik. Penalaan halus dengan CoT juga telah terbukti sangat berkesan untuk mencapai keadaan tidak berbahaya (kadangkala lebih baik daripada RLHF), dan model itu tidak segan-segan menjana jawapan "Maaf, saya tidak dapat menjawab soalan ini".

Teknologi ini digunakan oleh ChatGPT dan pesaingnya yang berpotensi

Ringkasan perkara utama

Isi utama artikel ini ialah diringkaskan seperti berikut:

1 Berbanding dengan data pra-latihan, hanya sebahagian kecil daripada data yang diperlukan untuk memperhalusi arahan.

2. Penalaan halus diselia menggunakan anotasi manual untuk menjadikan output model lebih selamat dan lebih membantu.

3. Penalaan halus CoT meningkatkan prestasi model pada tugasan pemikiran langkah demi langkah dan mengurangkan respons tidak sah atau pengelakan mereka pada topik sensitif.

Pemikiran mengenai kerja lanjut mengenai ejen dialog

Akhir sekali, penulis memberikan beberapa pemikirannya sendiri tentang perkembangan ejen dialog pada masa hadapan.

1. Betapa pentingnya RL dalam belajar daripada maklum balas manusia? Bolehkah prestasi yang sama seperti RLHF diperoleh melalui latihan mengenai data berkualiti tinggi dalam IFT atau SFT?

2. Sejauh manakah selamat menggunakan SFT+RLHF dalam Sparrow berbanding menggunakan SFT dalam LaMDA?

3. Apakah tahap pra-latihan yang diperlukan untuk IFT, SFT, CoT dan RLHF? Apakah tradeoff? Apakah model asas terbaik yang harus digunakan?

4. Banyak model yang diperkenalkan dalam artikel ini direka dengan teliti, dan jurutera secara khusus mengumpul corak yang membawa kepada kegagalan dan menambah baik latihan masa depan (gesaan dan kaedah) berdasarkan masalah yang telah telah diuruskan. Bagaimanakah kesan kaedah ini boleh didokumenkan dan diterbitkan semula secara sistematik?

Atas ialah kandungan terperinci Teknologi ini digunakan oleh ChatGPT dan pesaingnya yang berpotensi. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

3 minggu yang lalu By DDD

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

2 minggu yang lalu By DDD

Akan R.E.P.O. Ada Crossplay?

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7557

Tutorial CakePHP

1384

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi

Related knowledge

Baris arahan shutdown centos Apr 14, 2025 pm 09:12 PM

Perintah shutdown CentOS adalah penutupan, dan sintaks adalah tutup [pilihan] [maklumat]. Pilihan termasuk: -h menghentikan sistem dengan segera; -P mematikan kuasa selepas penutupan; -r mulakan semula; -T Waktu Menunggu. Masa boleh ditentukan sebagai segera (sekarang), minit (minit), atau masa tertentu (HH: mm). Maklumat tambahan boleh dipaparkan dalam mesej sistem.

Cara Memeriksa Konfigurasi HDFS CentOS Apr 14, 2025 pm 07:21 PM

Panduan Lengkap untuk Memeriksa Konfigurasi HDFS Dalam Sistem CentOS Artikel ini akan membimbing anda bagaimana untuk memeriksa konfigurasi dan menjalankan status HDFS secara berkesan pada sistem CentOS. Langkah -langkah berikut akan membantu anda memahami sepenuhnya persediaan dan operasi HDFS. Sahkan Pembolehubah Alam Sekitar Hadoop: Pertama, pastikan pembolehubah persekitaran Hadoop ditetapkan dengan betul. Di terminal, laksanakan arahan berikut untuk mengesahkan bahawa Hadoop dipasang dan dikonfigurasi dengan betul: Hadoopversion Semak fail konfigurasi HDFS: Fail konfigurasi teras HDFS terletak di/etc/hadoop/conf/direktori, di mana core-site.xml dan hdfs-site.xml adalah kritikal. gunakan

Apakah kaedah sandaran untuk gitlab di centos Apr 14, 2025 pm 05:33 PM

Dasar sandaran dan pemulihan Gitlab di bawah sistem CentOS untuk memastikan keselamatan data dan pemulihan, Gitlab pada CentOS menyediakan pelbagai kaedah sandaran. Artikel ini akan memperkenalkan beberapa kaedah sandaran biasa, parameter konfigurasi dan proses pemulihan secara terperinci untuk membantu anda menubuhkan strategi sandaran dan pemulihan GitLab lengkap. 1. Backup Manual Gunakan Gitlab-Rakegitlab: Backup: Buat Perintah untuk Melaksanakan Backup Manual. Perintah ini menyokong maklumat utama seperti repositori Gitlab, pangkalan data, pengguna, kumpulan pengguna, kunci, dan kebenaran. Fail sandaran lalai disimpan dalam direktori/var/opt/gitlab/sandaran. Anda boleh mengubah suai /etc /gitlab

Bagaimana sokongan GPU untuk Pytorch di CentOS Apr 14, 2025 pm 06:48 PM

Membolehkan pecutan GPU pytorch pada sistem CentOS memerlukan pemasangan cuda, cudnn dan GPU versi pytorch. Langkah-langkah berikut akan membimbing anda melalui proses: Pemasangan CUDA dan CUDNN Tentukan keserasian versi CUDA: Gunakan perintah NVIDIA-SMI untuk melihat versi CUDA yang disokong oleh kad grafik NVIDIA anda. Sebagai contoh, kad grafik MX450 anda boleh menyokong CUDA11.1 atau lebih tinggi. Muat turun dan pasang Cudatoolkit: Lawati laman web rasmi Nvidiacudatoolkit dan muat turun dan pasang versi yang sepadan mengikut versi CUDA tertinggi yang disokong oleh kad grafik anda. Pasang Perpustakaan Cudnn:

Penjelasan terperinci mengenai Prinsip Docker Apr 14, 2025 pm 11:57 PM

Docker menggunakan ciri -ciri kernel Linux untuk menyediakan persekitaran berjalan yang cekap dan terpencil. Prinsip kerjanya adalah seperti berikut: 1. Cermin digunakan sebagai templat baca sahaja, yang mengandungi semua yang anda perlukan untuk menjalankan aplikasi; 2. Sistem Fail Kesatuan (Unionfs) menyusun pelbagai sistem fail, hanya menyimpan perbezaan, menjimatkan ruang dan mempercepatkan; 3. Daemon menguruskan cermin dan bekas, dan pelanggan menggunakannya untuk interaksi; 4. Ruang nama dan cgroups melaksanakan pengasingan kontena dan batasan sumber; 5. Pelbagai mod rangkaian menyokong interkoneksi kontena. Hanya dengan memahami konsep -konsep teras ini, anda boleh menggunakan Docker dengan lebih baik.

CentOS memasang MySQL Apr 14, 2025 pm 08:09 PM

Memasang MySQL pada CentOS melibatkan langkah -langkah berikut: Menambah sumber MySQL YUM yang sesuai. Jalankan YUM Pasang Perintah MySQL-Server untuk memasang pelayan MySQL. Gunakan perintah mysql_secure_installation untuk membuat tetapan keselamatan, seperti menetapkan kata laluan pengguna root. Sesuaikan fail konfigurasi MySQL seperti yang diperlukan. Tune parameter MySQL dan mengoptimumkan pangkalan data untuk prestasi.

Cara Melihat Log Gitlab Di Bawah Centos Apr 14, 2025 pm 06:18 PM

Panduan Lengkap untuk Melihat Log Gitlab Di bawah Sistem CentOS Artikel ini akan membimbing anda bagaimana untuk melihat pelbagai log Gitlab dalam sistem CentOS, termasuk log utama, log pengecualian, dan log lain yang berkaitan. Sila ambil perhatian bahawa laluan fail log mungkin berbeza -beza bergantung pada versi GitLab dan kaedah pemasangan. Jika laluan berikut tidak wujud, sila semak fail Direktori Pemasangan dan Konfigurasi GitLab. 1. Lihat log Gitlab utama Gunakan arahan berikut untuk melihat fail log utama aplikasi GitLabRails: Perintah: Sudocat/var/Log/Gitlab/Gitlab-Rails/Production.log Perintah ini akan memaparkan produk

Cara Mengendalikan Latihan Pittorch Diagihkan di Centos Apr 14, 2025 pm 06:36 PM

Latihan yang diedarkan Pytorch pada sistem CentOS memerlukan langkah -langkah berikut: Pemasangan Pytorch: Premisnya ialah Python dan PIP dipasang dalam sistem CentOS. Bergantung pada versi CUDA anda, dapatkan arahan pemasangan yang sesuai dari laman web rasmi Pytorch. Untuk latihan CPU sahaja, anda boleh menggunakan arahan berikut: PipinstallToRchTorchVisionTorchaudio Jika anda memerlukan sokongan GPU, pastikan versi CUDA dan CUDNN yang sama dipasang dan gunakan versi pytorch yang sepadan untuk pemasangan. Konfigurasi Alam Sekitar Teragih: Latihan yang diedarkan biasanya memerlukan pelbagai mesin atau mesin berbilang mesin tunggal. Tempat

See all articles