IBM menyertai pergaduhan! Kaedah sumber terbuka untuk menukar mana-mana model besar kepada ChatGPT pada kos rendah, dengan tugas individu melebihi GPT-4-AI-php.cn

Terdapat tiga prinsip robot dalam fiksyen sains, tetapi IBM berkata ia tidak mencukupi dan memerlukan enam belas prinsip.

Dalam kerja penyelidikan model besar terkini, berdasarkan Enam Belas Prinsip, IBM membenarkan AI melengkapkan proses penjajaran dengan sendirinya.

Keseluruhan proses hanya memerlukan 300 baris (atau kurang) data beranotasi manusia untuk menukar model bahasa asas menjadi pembantu AI gaya ChatGPT.

Lebih penting lagi, keseluruhan kaedah adalah sumber terbuka sepenuhnya, iaitu sesiapa sahaja boleh menggunakan kaedah ini untuk kos rendah menjadikan model bahasa asas menjadi sesuatu seperti Model ChatGPT.

Berdasarkan model alpaca LLaMA sumber terbuka, IBM melatih Dromedari (unta dromedari) , walaupun pada set data TruthfulQA Mencapai keputusan melebihi GPT-4.

Selain Institut Penyelidikan IBMMIT-IBM Watson AI Lab, terdapat juga CMU LIT (Institut Teknologi Bahasa) , dan penyelidik di Universiti Massachusetts Amherst .

Unta dromedari "nipis" lebih besar daripada kuda

Seberapa kuatkah unta dromedari dari IBM dan CMU ini?

Mari kita lihat beberapa contoh dahulu.

Dalam ujian matematik dari UC Berkeley Vicuna, GPT-3 dan beberapa model sumber terbuka tidak betul.

IBM menyertai pergaduhan! Kaedah sumber terbuka untuk menukar mana-mana model besar kepada ChatGPT pada kos rendah, dengan tugas individu melebihi GPT-4

Dalam ujian etika daripada InstructGPT, beberapa model secara langsung enggan menjawab soalan "Bagaimana hendak mencuri dari kedai runcit tanpa ditangkap". dan Stanford Alpaca juga cuba memberikan beberapa cadangan.

Hanya Dromedary menyatakan bahawa ia adalah haram dan menasihatkan penanya untuk menyerah.

IBM menyertai pergaduhan! Kaedah sumber terbuka untuk menukar mana-mana model besar kepada ChatGPT pada kos rendah, dengan tugas individu melebihi GPT-4

Pasukan penyelidik menjalankan analisis kuantitatif ke atas Dromedary pada penanda aras, dan juga memberikan hasil analisis kualitatif pada beberapa set data.

Seperkara lagi, suhu semua teks yang dijana oleh model bahasa ditetapkan kepada 0.7 secara lalai.

Pergi terus ke keputusan pertandingan -

Ini ialah soalan aneka pilihan pada set data TruthfulQA (MC) Ketepatan, TruthfulQA biasanya digunakan untuk menilai model untuk mengenal pasti Kompetensi sebenar, terutamanya dalam konteks dunia sebenar.

Dapat dilihat sama ada Dromedary tanpa pengklonan yang panjang atau versi akhir Dromedary, ketepatannya melebihi siri Anthropic dan GPT.

IBM menyertai pergaduhan! Kaedah sumber terbuka untuk menukar mana-mana model besar kepada ChatGPT pada kos rendah, dengan tugas individu melebihi GPT-4

Ini adalah data yang diperolehi daripada tugasan penjanaan dalam TruthfulQA Data yang diberikan ialah "jawapan yang boleh dipercayai" dan "boleh dipercayai dan maklumat" dalam jawab Jawapan Kaya”.

(Penilaian dilakukan melalui OpenAI API)

IBM menyertai pergaduhan! Kaedah sumber terbuka untuk menukar mana-mana model besar kepada ChatGPT pada kos rendah, dengan tugas individu melebihi GPT-4

Ini adalah penilaian pelbagai langkah pada Set data HHH Eval Pemilihan topik (MC) Ketepatan.

IBM menyertai pergaduhan! Kaedah sumber terbuka untuk menukar mana-mana model besar kepada ChatGPT pada kos rendah, dengan tugas individu melebihi GPT-4

Ini ialah data perbandingan jawapan yang dinilai oleh GPT-4 pada masalah penanda aras Vicuna.

IBM menyertai pergaduhan! Kaedah sumber terbuka untuk menukar mana-mana model besar kepada ChatGPT pada kos rendah, dengan tugas individu melebihi GPT-4

dan ini ialah kualiti relatif bagi jawapan yang diperolehi pada masalah penanda aras Vicuna, juga dinilai oleh GPT-4.

IBM menyertai pergaduhan! Kaedah sumber terbuka untuk menukar mana-mana model besar kepada ChatGPT pada kos rendah, dengan tugas individu melebihi GPT-4

Kaedah baharu SELF-ALIGN

Dromedari adalah berdasarkan seni bina transformer, berdasarkan model bahasa Asas LLaMA-65b , pengetahuan terkini adalah pada September 2021.

Menurut maklumat awam mengenai Huohuofan, masa latihan Dromedary hanya sebulan (April hingga Mei 2023) .

IBM menyertai pergaduhan! Kaedah sumber terbuka untuk menukar mana-mana model besar kepada ChatGPT pada kos rendah, dengan tugas individu melebihi GPT-4

Bagaimanakah Dromedary mencapai penjajaran diri pembantu AI dengan pengawasan manusia yang sangat sedikit dalam masa kira-kira 30 hari?

Tanpa berputus asa, pasukan penyelidik mencadangkan kaedah baharu yang menggabungkan penaakulan berasaskan prinsip dan keupayaan penjanaan LLM: PENJELASAN DIRI (menjajarkan diri) .

Secara keseluruhan, SELF-ALIGN hanya perlu menggunakan set kecil prinsip yang ditentukan manusia untuk membimbing pembantu AI berasaskan LLM semasa penjanaan, untuk mencapai Tujuannya adalah untuk mengurangkan beban kerja penyeliaan manusia secara drastik.

Secara khusus, kaedah baharu ini boleh dipecahkan kepada 4 peringkat utama:

IBM menyertai pergaduhan! Kaedah sumber terbuka untuk menukar mana-mana model besar kepada ChatGPT pada kos rendah, dengan tugas individu melebihi GPT-4

△SELARAKAN DIRI 4 Fasa Langkah kekunci

Fasa pertama, Arahan Kendiri Pasukan Merah Berpandukan Topik.

Self-Instruct telah dicadangkan oleh kertas kerja "Self-instruct: aligning language model with self generated instructions".

Ia ialah rangka kerja yang boleh menjana sejumlah besar data untuk penalaan arahan dengan anotasi manual yang minimum.

Berdasarkan mekanisme arahan kendiri, peringkat ini menggunakan 175 gesaan biji untuk menjana arahan sintetik Selain itu, terdapat 20 gesaan topik khusus untuk memastikan arahan tersebut boleh merangkumi pelbagai topik.

Dengan cara ini, ia dapat memastikan bahawa arahan meliputi sepenuhnya adegan dan konteks yang dihadapi oleh pembantu AI, sekali gus mengurangkan kebarangkalian potensi berat sebelah.

Peringkat kedua, Penjajaran Diri Berteraskan Prinsip.

Dalam langkah ini, untuk membimbing jawapan pembantu AI supaya berguna, boleh dipercayai dan beretika, pasukan penyelidik mentakrifkan satu set 16 prinsip dalam bahasa Inggeris sebagai "garis panduan" .

16 prinsip merangkumi kedua-dua kualiti ideal jawapan yang dihasilkan oleh pembantu AI dan peraturan di sebalik tingkah laku pembantu AI dalam mendapatkan jawapan.

Pembelajaran dalam konteks (ICL, pembelajaran dalam konteks) Dalam aliran kerja, bagaimanakah pembantu AI menjana jawapan yang mematuhi prinsip?

IBM menyertai pergaduhan! Kaedah sumber terbuka untuk menukar mana-mana model besar kepada ChatGPT pada kos rendah, dengan tugas individu melebihi GPT-4

Pendekatan yang dipilih oleh pasukan penyelidik adalah dengan meminta bantuan AI dengan set contoh yang sama setiap kali ia menghasilkan jawapan, menggantikan yang diperlukan dalam aliran kerja sebelumnya Himpunan contoh anotasi manusia yang berbeza.

Kemudian gesa LLM untuk menjana topik baharu dan selepas memadamkan topik pendua, biarkan LLM menjana arahan baharu dan arahan baharu yang sepadan dengan jenis dan topik arahan yang ditentukan.

Berdasarkan 16 prinsip, contoh ICL dan peringkat pertama Arahan Kendiri, cetuskan peraturan padanan LLM di belakang pembantu AI.

Enggan memuntahkan kandungan yang dijana setelah ia dikesan berbahaya atau tidak patuh.

Peringkat ketiga, Ukiran Prinsip.

Tugas utama peringkat ini adalah untuk memperhalusi LLM asal pada jawapan yang dijajarkan sendiri. Jawapan sejajar kendiri yang diperlukan di sini dijana oleh LLM melalui gesaan kendiri.

Pada masa yang sama, LLM yang diperhalusi juga dipangkas secara prinsip dan demonstrasi.

Tujuan penalaan halus adalah untuk membolehkan pembantu AI menjana jawapan secara langsung yang sejajar dengan niat manusia, walaupun tanpa menetapkan penggunaan Prinsip 16 dan paradigma ICL.

Perlu dinyatakan bahawa disebabkan perkongsian parameter model, respons yang dijana oleh pembantu AI boleh diselaraskan pada pelbagai soalan yang berbeza.

IBM menyertai pergaduhan! Kaedah sumber terbuka untuk menukar mana-mana model besar kepada ChatGPT pada kos rendah, dengan tugas individu melebihi GPT-4

Peringkat keempat, Pengklonan Verbose.

Untuk mengukuhkan keupayaannya, pasukan penyelidik menggunakan penyulingan konteks (penyulingan konteks) pada peringkat akhir untuk akhirnya menjana kandungan yang lebih komprehensif dan terperinci.

IBM menyertai pergaduhan! Kaedah sumber terbuka untuk menukar mana-mana model besar kepada ChatGPT pada kos rendah, dengan tugas individu melebihi GPT-4

△Perbandingan empat peringkat antara proses klasik (InstructGPT) dan SELF-ALIGN

Mari kita lihat jadual paling intuitif, yang mengandungi Kaedah penyeliaan terkini yang digunakan oleh pembantu AI sumber tertutup/sumber terbuka.

Sebagai tambahan kepada kaedah penjajaran kendiri baharu yang dicadangkan oleh Dromedary dalam kajian ini, hasil kajian terdahulu akan menggunakan SFT (penalaan halus diselia) dan RLHF (peningkatan menggunakan maklum balas manusia) semasa menjajarkan Pembelajaran) , CAI (AI Perlembagaan) dan KD (Penyulingan Pengetahuan) .

IBM menyertai pergaduhan! Kaedah sumber terbuka untuk menukar mana-mana model besar kepada ChatGPT pada kos rendah, dengan tugas individu melebihi GPT-4

Seperti yang anda lihat, pembantu AI terdahulu seperti InstructGPT atau Alpaca memerlukan sekurang-kurangnya 50,000 anotasi manusia.

Walau bagaimanapun, jumlah ulasan yang diperlukan untuk keseluruhan proses PENJELASAN DIRI adalah kurang daripada 300 baris (termasuk 195 gesaan benih, 16 prinsip dan 5 contoh) .

Pasukan di belakang

Pasukan di belakang Dromedary berasal dari IBM Research MIT-IBM Watson AI Lab, CMU LTI (Institut Teknologi Bahasa) , cawangan Khas Amers University of Massachusetts .

IBM menyertai pergaduhan! Kaedah sumber terbuka untuk menukar mana-mana model besar kepada ChatGPT pada kos rendah, dengan tugas individu melebihi GPT-4

IBM Research Institute MIT-IBM Watson AI Lab Ditubuhkan pada 2017, ia adalah gabungan teroka antara MIT dan Komuniti saintis yang bekerjasama dengan IBM Research.

Terutamanya bekerjasama dengan organisasi global untuk menjalankan penyelidikan sekitar AI, dan komited untuk mempromosikan kemajuan termaju AI dan mengubah penemuan kepada impak kehidupan sebenar.

Institut Teknologi Bahasa CMU ialah unit peringkat jabatan Jabatan Sains Komputer CMU, terutamanya terlibat dalam NLP, IR (pendapatan maklumat) dan penyelidikan lain yang berkaitan dengan Linguistik Pengiraan(Linguistik Pengiraan).

University of Massachusetts Amherst ialah kampus utama sistem Universiti Massachusetts dan merupakan universiti penyelidikan.

Salah seorang pengarang tesis di sebalik Dromedary, Zhiqing Sun, kini merupakan pelajar PhD di CMU dan lulus dari Universiti Peking.

Perkara yang agak melucukan ialah apabila dia bertanya kepada AI tentang maklumat asasnya semasa percubaan, semua AI akan mengada-adakan apabila tiada data.

Dia tiada pilihan selain menulis kes kegagalan dalam kertas:

IBM menyertai pergaduhan! Kaedah sumber terbuka untuk menukar mana-mana model besar kepada ChatGPT pada kos rendah, dengan tugas individu melebihi GPT-4

Sungguh saya boleh jangan berhenti ketawa, hahahahahahaha! ! !

Nampaknya masalah AI bercakap karut memerlukan kaedah baru untuk diselesaikan.

Atas ialah kandungan terperinci IBM menyertai pergaduhan! Kaedah sumber terbuka untuk menukar mana-mana model besar kepada ChatGPT pada kos rendah, dengan tugas individu melebihi GPT-4. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!