Pilihan model hanya berkaitan dengan saiz? Universiti Shanghai Jiao Tong secara komprehensif menganalisis komponen kuantitatif pilihan manusia dan 32 model berskala besar-AI-php.cn

Rumah

Pilihan model hanya berkaitan dengan saiz? Universiti Shanghai Jiao Tong secara komprehensif menganalisis komponen kuantitatif pilihan manusia dan 32 model berskala besar

王林

Mar 04, 2024 am 09:31 AM

AI model bahasa susunan

Dalam paradigma latihan model semasa, pemerolehan dan penggunaan data keutamaan telah menjadi bahagian yang sangat diperlukan. Dalam latihan, data keutamaan biasanya digunakan sebagai sasaran pengoptimuman latihan semasa penjajaran, seperti pembelajaran pengukuhan berdasarkan maklum balas manusia atau AI (RLHF/RLAIF) atau pengoptimuman keutamaan langsung (DPO), manakala dalam penilaian model, disebabkan oleh tugas Sejak ada lazimnya tiada jawapan standard kerana kerumitan masalah, anotasi keutamaan pencatat manusia atau model besar berprestasi tinggi (LLM-as-a-Judge) biasanya digunakan secara langsung sebagai kriteria penilaian.

Walaupun aplikasi data keutamaan yang dinyatakan di atas telah mencapai hasil yang meluas, terdapat kekurangan penyelidikan yang mencukupi tentang pilihan itu sendiri, yang sebahagian besarnya telah menghalang pembinaan sistem AI yang lebih dipercayai. Untuk tujuan ini, Makmal Kepintaran Buatan Generatif (GAIR) Universiti Jiao Tong Shanghai mengeluarkan hasil penyelidikan baharu, yang secara sistematik dan komprehensif menganalisis keutamaan yang dipaparkan oleh pengguna manusia dan sehingga 32 model bahasa besar yang popular untuk Belajar bagaimana data keutamaan daripada sumber yang berbeza. secara kuantitatif terdiri daripada pelbagai sifat yang dipratentukan seperti tidak berbahaya, jenaka, pengakuan terhadap batasan, dsb. Analisis yang dijalankan oleh

mempunyai ciri-ciri berikut:

Fokus pada aplikasi sebenar: Data yang digunakan dalam penyelidikan semuanya diperoleh daripada perbualan model pengguna sebenar, yang boleh menggambarkan keutamaan dalam aplikasi sebenar dengan lebih baik.
Pemodelan berasaskan senario: Model dan analisis secara bebas data yang dimiliki oleh senario yang berbeza (seperti komunikasi harian, penulisan kreatif), mengelakkan pengaruh bersama antara senario yang berbeza dan membuat kesimpulan lebih jelas dan boleh dipercayai.
Rangka Kerja Bersatu: Rangka kerja bersatu diguna pakai untuk menganalisis keutamaan manusia dan model besar, serta mempunyai kebolehskalaan yang baik.

Kajian mendapati:

Pengguna manusia kurang sensitif terhadap kesilapan dalam respons model, mempunyai keengganan yang jelas untuk mengakui batasan mereka sendiri yang membawa kepada keengganan untuk menjawab, dan lebih suka mereka yang menyokong jawapan kedudukan subjektif mereka . Model besar lanjutan seperti GPT-4-Turbo lebih suka respons yang bebas ralat, dinyatakan dengan jelas dan selamat.
Model besar dengan saiz yang serupa akan menunjukkan keutamaan yang serupa, manakala model besar hampir tidak akan mengubah komposisi keutamaan mereka sebelum dan selepas penjajaran penalaan halus, tetapi hanya akan mengubah keamatan keutamaan yang dinyatakan.
Penilaian berasaskan keutamaan boleh dimanipulasi dengan sengaja. Menggalakkan model yang diuji untuk bertindak balas dengan atribut yang disukai oleh penilai boleh meningkatkan skor, manakala menyuntik atribut yang paling kurang popular boleh mengurangkan skor.

Pilihan model hanya berkaitan dengan saiz? Universiti Shanghai Jiao Tong secara komprehensif menganalisis komponen kuantitatif pilihan manusia dan 32 model berskala besar

Dalam senario "komunikasi harian", mengikut keputusan penghuraian keutamaan, Rajah 1 menunjukkan keutamaan manusia, GPT-4-Turbo dan LLaMA-2-70B-Chat untuk atribut yang berbeza. Nilai yang lebih besar menunjukkan keutamaan yang lebih besar untuk atribut, manakala nilai kurang daripada 50 menunjukkan tiada minat dalam atribut.

Projek ini mempunyai sumber terbuka yang kaya dengan kandungan dan sumber:

Demonstrasi interaktif: termasuk visualisasi semua analisis dan hasil yang lebih terperinci yang tidak ditunjukkan secara terperinci dalam kertas, dan juga menyokong muat naik model baharu Keutamaan untuk kuantitatif analisis.
Dataset: Mengandungi data perbualan berpasangan model pengguna yang dikumpul dalam kajian ini, termasuk label keutamaan daripada pengguna sebenar dan sehingga 32 model besar, serta anotasi terperinci untuk atribut yang ditentukan.
Kod: Menyediakan rangka kerja anotasi automatik yang digunakan untuk mengumpul data dan arahan untuk penggunaannya. Ia juga termasuk kod untuk menggambarkan hasil analisis. .

Pilihan model hanya berkaitan dengan saiz? Universiti Shanghai Jiao Tong secara komprehensif menganalisis komponen kuantitatif pilihan manusia dan 32 model berskala besar Kod: https://github.com/GAIR-NLP/Preference-Dissection

Dataset: https://huggingface.co/datasets/GAIR/preference-dissection
Pengenalan Kaedah
Kajian menggunakan data perbualan model pengguna berpasangan dalam set data Perbualan ChatbotArena, yang datang daripada senario aplikasi sebenar. Setiap sampel mengandungi soalan pengguna dan dua respons model yang berbeza. Para penyelidik mula-mula mengumpul label keutamaan pengguna manusia untuk sampel ini, yang telah disertakan dalam set data asal. Di samping itu, para penyelidik juga membuat alasan dan mengumpul label daripada 32 model besar terbuka atau tertutup yang berbeza.
Kajian ini mula-mula membina rangka kerja anotasi automatik berdasarkan GPT-4-Turbo, dan melabelkan semua respons model dengan skor mereka pada 29 atribut yang dipratentukan Kemudian, sampel boleh diperoleh berdasarkan hasil perbandingan sepasang skor "ciri perbandingan" pada setiap atribut Contohnya, jika skor tidak berbahaya bagi balasan A adalah lebih tinggi daripada skor balasan B, ciri perbandingan atribut ini ialah + 1, sebaliknya ia adalah - 1, dan jika ia adalah sama, ia. ialah 0.

Menggunakan ciri perbandingan yang dibina dan label keutamaan binari yang dikumpul, penyelidik boleh memodelkan hubungan pemetaan antara ciri perbandingan dengan label keutamaan dengan memasang model regresi linear Bayesian, dan Berat model yang sepadan dengan setiap atribut dalam model yang dipasang boleh dianggap sebagai sumbangan atribut itu kepada keutamaan keseluruhan.

Memandangkan kajian ini mengumpul label keutamaan daripada pelbagai sumber berbeza dan menjalankan pemodelan berasaskan senario, dalam setiap senario, untuk setiap sumber (manusia atau model besar tertentu), satu set keputusan penguraian Kuantitatif keutamaan kepada atribut. . senario Di bawah ialah tiga atribut yang paling banyak dan paling kurang digemari. Dapat dilihat bahawa manusia kurang sensitif terhadap ralat berbanding GPT-4-Turbo, dan tidak suka mengakui batasan dan enggan menjawab. Di samping itu, manusia juga menunjukkan keutamaan yang jelas untuk respons yang memenuhi kedudukan subjektif mereka sendiri, tidak kira sama ada respons membetulkan kemungkinan ralat dalam siasatan. Sebaliknya, GPT-4-Turbo memberi lebih perhatian kepada ketepatan, tidak berbahaya dan kejelasan ungkapan respons, dan komited untuk menjelaskan kekaburan dalam siasatan.

Figure 3: Manusia dan tiga sifat yang paling disukai dan paling tidak disukai oleh GPT-4-Turbo di bawah senario atau pertanyaan yang berbeza

Figure 4: Manusia dan kepekaan GPT -4-Turbo terhadap kecil/ ralat sederhana/teruk, nilai hampir 50 mewakili ketidakpekaan.

Selain itu, kajian ini juga meneroka tahap persamaan dalam komponen keutamaan antara model besar yang berbeza. Dengan membahagikan model besar kepada kumpulan yang berbeza dan mengira kesamaan antara kumpulan dan kesamaan antara kumpulan masing-masing, boleh didapati bahawa apabila dibahagikan mengikut bilangan parameter (30B), persamaan antara kumpulan (0.83, 0.88) jelas lebih tinggi daripada persamaan antara kumpulan (0.74), tetapi tiada fenomena yang sama apabila dibahagikan dengan faktor lain, menunjukkan bahawa keutamaan untuk model besar sebahagian besarnya ditentukan oleh saiznya dan tiada kaitan dengan latihan. kaedah.

Rajah 5: Kesamaan keutamaan antara model besar yang berbeza (termasuk manusia), disusun mengikut amaun parameter.

Sebaliknya, kajian juga mendapati model besar selepas penalaan halus penjajaran menunjukkan keutamaan yang hampir sama dengan versi pra-latihan sahaja, manakala perubahan hanya berlaku pada kekuatan keutamaan yang dinyatakan, iaitu , keluaran model sejajar Perbezaan kebarangkalian antara dua respons yang sepadan dengan perkataan calon A dan B akan meningkat dengan ketara. . Keputusan penilaian dimanipulasi dengan sengaja. Pada set data AlpacaEval 2.0 dan MT-Bench yang popular pada masa ini, menyuntik atribut yang diutamakan oleh penilai (model manusia atau besar) melalui kaedah bukan latihan (menetapkan maklumat sistem) dan latihan (DPO) boleh meningkatkan markah dengan ketara, sambil menyuntik Atribut yang tidak diutamakan akan mengurangkan markah.
. keutamaan. Pasukan penyelidik mendapati bahawa manusia cenderung untuk bertindak balas secara langsung kepada soalan dan kurang sensitif terhadap ralat manakala model besar berprestasi tinggi lebih menekankan pada ketepatan, kejelasan dan tidak berbahaya. Penyelidikan juga menunjukkan bahawa saiz model adalah faktor utama yang mempengaruhi komponen pilihan, manakala penalaan halus ia mempunyai sedikit kesan. Tambahan pula, kajian ini menunjukkan kelemahan beberapa set data semasa kepada manipulasi apabila mengetahui komponen keutamaan penilai, menggambarkan kelemahan penilaian berasaskan keutamaan. Pasukan penyelidik juga telah menyediakan semua sumber penyelidikan secara terbuka untuk menyokong penyelidikan lanjut pada masa hadapan.

Atas ialah kandungan terperinci Pilihan model hanya berkaitan dengan saiz? Universiti Shanghai Jiao Tong secara komprehensif menganalisis komponen kuantitatif pilihan manusia dan 32 model berskala besar. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

2 minggu yang lalu By DDD

R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Arahan sembang dan cara menggunakannya

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7541

Tutorial CakePHP

1381

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi

Related knowledge

Apakah sepuluh platform perdagangan mata wang maya? Feb 20, 2025 pm 02:15 PM

Dengan populariti kriptografi, platform perdagangan mata wang maya telah muncul. Sepuluh platform perdagangan mata wang maya teratas di dunia disenaraikan seperti berikut mengikut jumlah transaksi dan bahagian pasaran: Binance, Coinbase, FTX, Kucoin, Crypto.com, Kraken, Huobi, Gate.io, Bitfinex, Gemini. Platform ini menawarkan pelbagai perkhidmatan, dari pelbagai pilihan cryptocurrency untuk perdagangan derivatif, sesuai untuk peniaga yang berbeza -beza.

Cara menyesuaikan pertukaran terbuka bijan ke dalam bahasa Cina Mar 04, 2025 pm 11:51 PM

Bagaimana cara menyesuaikan pertukaran terbuka bijan ke bahasa Cina? Tutorial ini merangkumi langkah -langkah terperinci mengenai komputer dan telefon bimbit Android, dari penyediaan awal hingga proses operasi, dan kemudian menyelesaikan masalah biasa, membantu anda dengan mudah menukar antara muka pertukaran terbuka ke Cina dan cepat memulakan dengan platform perdagangan.

Adakah saya perlu menggunakan Flexbox di tengah gambar bootstrap? Apr 07, 2025 am 09:06 AM

Terdapat banyak cara untuk memusatkan gambar bootstrap, dan anda tidak perlu menggunakan Flexbox. Jika anda hanya perlu berpusat secara mendatar, kelas pusat teks sudah cukup; Jika anda perlu memusatkan elemen secara menegak atau berganda, Flexbox atau Grid lebih sesuai. Flexbox kurang serasi dan boleh meningkatkan kerumitan, manakala grid lebih berkuasa dan mempunyai kos pengajian yang lebih tinggi. Apabila memilih kaedah, anda harus menimbang kebaikan dan keburukan dan memilih kaedah yang paling sesuai mengikut keperluan dan keutamaan anda.

10 platform perdagangan cryptocurrency teratas, sepuluh aplikasi platform perdagangan mata wang yang disyorkan Mar 17, 2025 pm 06:03 PM

Sepuluh platform perdagangan cryptocurrency teratas termasuk: 1. Okx, 2. Binance, 3. Gate.io, 4. Kraken, 5. Huobi, 6. Coinbase, 7. Kucoin, 8 crypto.com, 9. Keselamatan, kecairan, yuran pengendalian, pemilihan mata wang, antara muka pengguna dan sokongan pelanggan harus dipertimbangkan ketika memilih platform.

Cara Mengira C-SubScript 3 Subscript 5 C-SubScript 3 Subscript 5 Algoritma Tutorial Apr 03, 2025 pm 10:33 PM

Pengiraan C35 pada dasarnya adalah matematik gabungan, yang mewakili bilangan kombinasi yang dipilih dari 3 dari 5 elemen. Formula pengiraan ialah C53 = 5! / (3! * 2!), Yang boleh dikira secara langsung oleh gelung untuk meningkatkan kecekapan dan mengelakkan limpahan. Di samping itu, memahami sifat kombinasi dan menguasai kaedah pengiraan yang cekap adalah penting untuk menyelesaikan banyak masalah dalam bidang statistik kebarangkalian, kriptografi, reka bentuk algoritma, dll.

10 platform perdagangan mata wang maya teratas 2025 Aplikasi Perdagangan Cryptocurrency Kedudukan Sepuluh Teratas Mar 17, 2025 pm 05:54 PM

Sepuluh Platform Perdagangan Mata Wang Maya 2025: 1. Okx, 2. Binance, 3. Gate.io, 4. Kraken, 5. Huobi, 6 Coinbase, 7. Kucoin, 8. Crypto.com, 9. Keselamatan, kecairan, yuran pengendalian, pemilihan mata wang, antara muka pengguna dan sokongan pelanggan harus dipertimbangkan ketika memilih platform.

Apakah platform mata wang digital yang selamat dan boleh dipercayai? Mar 17, 2025 pm 05:42 PM

Platform mata wang digital yang selamat dan boleh dipercayai: 1. Okx, 2. Binance, 3. Gate.io, 4. Kraken, 5. Huobi, 6 Coinbase, 7. Kucoin, 8 crypto.com, 9. Bitfinex, 10. Keselamatan, kecairan, yuran pengendalian, pemilihan mata wang, antara muka pengguna dan sokongan pelanggan harus dipertimbangkan ketika memilih platform.

Aplikasi Perisian Mata Wang Maya Selamat yang Disyorkan Top 10 Aplikasi Perdagangan Mata Wang Digital Ranking 2025 Mar 17, 2025 pm 05:48 PM

Disyorkan Aplikasi Perisian Mata Wang Maya Selamat: 1. Okx, 2. Binance, 3. Gate.io, 4. Kraken, 5. Huobi, 6. Coinbase, 7. Kucoin, 8 crypto.com, 9. Bitfinex, 10. Keselamatan, kecairan, yuran pengendalian, pemilihan mata wang, antara muka pengguna dan sokongan pelanggan harus dipertimbangkan ketika memilih platform.

See all articles