Sejak pembukaan API ChatGPT, sebilangan besar kajian telah memilih untuk menggunakan output model asas besar (LFM) seperti ChatGPT dan GPT-4 sebagai data latihan, dan kemudian meningkatkan keupayaan kecil model melalui pembelajaran tiruan.
Walau bagaimanapun, disebabkan masalah seperti isyarat tiruan cetek, data latihan yang tidak mencukupi dan kekurangan piawaian penilaian yang ketat, prestasi sebenar model kecil telah dianggarkan terlalu tinggi.
Dari sudut kesan, model kecil lebih cenderung untuk meniru gaya keluaran LFM berbanding proses inferens.
Pautan kertas: https://arxiv.org/pdf/2306.02707.pdf
Untuk menangani cabaran ini, Microsoft baru-baru ini mengeluarkan kertas 51 halaman yang mencadangkan model Orca parameter 13 bilion yang boleh belajar meniru proses inferens LFM.
Para penyelidik mereka bentuk isyarat latihan yang kaya untuk model besar, supaya Orca boleh mempelajari jejak penjelasan, proses pemikiran langkah demi langkah, arahan yang kompleks, dll. daripada GPT-4, dan oleh ChatGPT Guru membantu dalam bimbingan; dan melombong data tiruan berskala besar dan pelbagai melalui persampelan dan pemilihan boleh meningkatkan lagi kesan pembelajaran progresif.
Dalam penilaian percubaan, Orca mengatasi model penalaan halus arahan SOTA yang lain, mencapai dua kali ganda prestasi Vicuna-13B dalam tanda aras inferens sifar pukulan kompleks seperti Prestasi BigBench Hard (BBH), peningkatan prestasi sebanyak 42% juga dicapai pada AGIEval.
Selain itu, Orca mencapai prestasi setanding dengan ChatGPT pada penanda aras BBH, dalam peperiksaan profesional dan akademik seperti SAT, LSAT, GRE dan GMAT Di sana hanyalah 4% jurang prestasi dalam , dan semuanya diukur dalam tetapan sampel sifar tanpa rantaian pemikiran.
Penemuan menunjukkan bahawa membiarkan model belajar daripada penjelasan langkah demi langkah, sama ada penjelasan tersebut dihasilkan oleh manusia atau model AI yang lebih maju, Mereka semuanya merupakan hala tuju penyelidikan yang menjanjikan untuk meningkatkan keupayaan dan kemahiran model.
Pembinaan set data
Dalam data latihan, setiap contoh merangkumi tiga bahagian, iaitu mesej sistem, pertanyaan pengguna dan balasan LFM.
Mesej sistem (mesej sistem) diletakkan pada permulaan gesaan untuk menyediakan konteks asas, panduan dan butiran lain yang berkaitan kepada LFM.
Mesej sistem boleh digunakan untuk menukar tempoh respons, menerangkan keperibadian pembantu AI, mewujudkan tingkah laku LFM yang boleh diterima dan tidak boleh diterima, dan menentukan struktur tindak balas AI model.
Para penyelidik mencipta 16 maklumat sistem untuk mereka bentuk pelbagai jenis respons LFM, yang boleh menjana kandungan kreatif dan menyelesaikan masalah pertanyaan maklumat menjana penjelasan dan respons berdasarkan jawapan penaakulan langkah demi langkah.
Pertanyaan pengguna mentakrifkan tugas sebenar yang anda mahu LFM lakukan.
Untuk mendapatkan sejumlah besar pertanyaan pengguna yang pelbagai, penyelidik menggunakan koleksi FLAN-v2 untuk mengekstrak 5 juta pertanyaan pengguna (FLAN-5M) dan mengumpul jawapan ChatGPT mengekstrak 1 juta arahan (FLAN-1M) daripada 5 juta arahan untuk mengumpul respons GPT-4.
Koleksi FLAN-v2 terdiri daripada lima subkoleksi, iaitu CoT, NiV2, T0, Flan 2021 dan Dialog, di mana setiap subset mengandungi berbilang tugasan dan setiap tugasan ialah koleksi pertanyaan.
Setiap subkoleksi berkaitan dengan berbilang set data akademik dan setiap set data mempunyai satu atau lebih tugas yang memfokuskan pada pertanyaan sifar dan beberapa tembakan.
Dalam kerja ini, penyelidik hanya mengambil sampel pertanyaan sifar pukulan untuk latihan Orca dan tidak mengambil sampel daripada subset Dialog kerana pertanyaan ini sering kekurangan konteks untuk berguna daripada balasan ChatGPT.
Biar ChatGPT bertindak sebagai Pembantu Pengajar
Latih Orca pertama pada data FLAN-5M (Peningkatan ChatGPT), diikuti dengan latihan peringkat kedua (peningkatan GPT-4) pada FLAN-1M.
Terdapat dua sebab utama untuk menggunakan ChatGPT sebagai pembantu guru perantaraan:
Jurang keupayaan
Walaupun jumlah parameter GPT-4 belum didedahkan, 13 bilion parameter Orca pastinya berkali-kali lebih kecil daripada GPT-4, dan jurang keupayaan antara ChatGPT dan Orca adalah Lebih Kecil, lebih sesuai sebagai guru pertengahan, dan pendekatan ini telah terbukti dapat meningkatkan prestasi pembelajaran tiruan model pelajar yang lebih kecil dalam penyulingan pengetahuan.
Pendekatan ini juga boleh dilihat sebagai sejenis pembelajaran progresif atau pembelajaran kursus, di mana pelajar mula-mula belajar daripada contoh yang lebih mudah dan kemudian beralih kepada contoh yang lebih sukar, dengan mengandaikan bahawa respons yang lebih panjang akan menjadi lebih sukar untuk ditiru daripada respons yang lebih pendek, membolehkan penaakulan yang lebih baik dan kemahiran penjelasan langkah demi langkah daripada model guru yang lebih besar.
2 Kos dan Masa
Pengumpulan data berskala besar daripada Azure OpenAI API. Akan ada beberapa sekatan, termasuk had kadar permintaan setiap minit untuk mengelakkan trafik yang berlebihan disebabkan oleh masalah kelewatan perkhidmatan, bilangan token yang tersedia setiap minit adalah terhad dan kos kewangan untuk penyiapan token;
Sebagai perbandingan, ChatGPT API lebih pantas dan lebih murah daripada terminal GPT-4, jadi lebih banyak dikumpulkan daripada ChatGPT daripada GPT-4 5 kali ganda data .
Ia boleh diperhatikan daripada taburan panjang balasan ChatGPT dan GPT-4 yang sepadan dengan mesej sistem yang berbeza bahawa balasan GPT-4 lebih panjang secara purata berbanding ChatGPT 1.5x, membolehkan Orca belajar secara progresif daripada kerumitan penerangan guru dan menunjukkan kesan bantuan guru melalui eksperimen ablasi.
Latihan
Dalam peringkat segmentasi perkataan, penyelidik menggunakan pengekodan pasangan bait LLaMA (BPE) untuk memproses sampel input di mana nombor berbilang digit dibahagikan kepada berbilang digit tunggal dan kembali kepada bait untuk menguraikan aksara UTF-8 yang tidak diketahui.
Untuk mengendalikan urutan panjang berubah-ubah, perkataan pengisi [[PAD]] diperkenalkan dalam perbendaharaan kata tokenizer LLaMA, dan perbendaharaan kata akhir mengandungi 32001 token
Untuk mengoptimumkan proses latihan dan menggunakan sumber pengkomputeran yang tersedia dengan berkesan, penyelidik menggunakan teknologi pembungkusan untuk menggabungkan berbilang contoh input ke dalam urutan sebelum melatih model.
Semasa proses pembungkusan, jumlah panjang jujukan bercantum tidak melebihi max_len=2048 token Sampel input akan dikocok secara rawak dan dibahagikan kepada beberapa kumpulan jujukan bercantum Paling max_len
Memandangkan taburan panjang arahan penambahan dalam data latihan, pekali pembungkusan setiap jujukan ialah 2.7 Para penyelidik memilih untuk mengira kehilangan token yang dihasilkan oleh model guru, yang bermaksud bahawa pembelajaran untuk menjana respons yang dikondisikan pada maklumat sistem dan arahan tugas boleh memastikan bahawa model memberi tumpuan kepada pembelajaran daripada token yang paling relevan dan bermaklumat, meningkatkan kecekapan dan keberkesanan keseluruhan proses latihan.
Akhirnya, Orca telah dilatih pada 20 GPU NVIDIA A100 dengan memori 80GB Ia pertama kali dilatih pada FLAN-5M (ChatGPT dipertingkatkan) selama 4 zaman, yang mengambil masa 160 jam dan kemudian pada FLAN-1M (GPT -4 peningkatan) dan meneruskan latihan selama 4 zaman
Disebabkan oleh sekatan lalu lintas, beban terminal dan isu panjang balas, latihan berbilang daripada GPT-3.5-turbo (ChatGPT) dan GPT-4 terminal mengambil masa 2 dan 3 minggu untuk mengumpul data masing-masing.
Para penyelidik terutamanya mengesahkan keupayaan penaakulan Orca.
Seperti yang dapat dilihat dalam percubaan AGIEval, prestasi Orca adalah setanding dengan Text-da-Vinci-003 dan mencapai 88% Prestasi ChatGPT, tetapi jauh di belakang GPT-4
Untuk tugasan analisis dan penaakulan, Vicuna menunjukkan prestasi yang lebih teruk, mengekalkan hanya 62% kualiti ChatGPT, menunjukkan bahawa model bahasa sumber terbuka ini Keupayaan penaakulan sangat lemah .
Walaupun Orca berprestasi setanding dengan Text-da-Vinci-003, ia masih 5 mata lebih rendah daripada ChatGPT, Orca berprestasi lebih baik dalam tugasan berkaitan matematik (dalam SAT, GRE, GMAT ) Terdapat jurang yang besar antaranya dan ChatGPT.
Berbanding dengan Vicuna, Orca menunjukkan prestasi yang lebih kukuh, mengatasi Vicuna dalam setiap kategori, dengan purata peningkatan relatif sebanyak 42%.
GPT-4 jauh mengatasi semua model lain, tetapi masih terdapat banyak ruang untuk penambahbaikan dalam penanda aras ini, dengan semua model pada masa ini menunjukkan prestasi yang ketara di bawah markah manusia .
Prestasi Orca sangat berbeza bergantung pada jenis mesej sistem dan untuk model terlatih, mesej sistem kosong cenderung berfungsi dengan baik .
Orca mengatasi ChatGPT (contoh orca-beats-ChatGPT) pada 325 sampel tugasan berbeza, kebanyakannya daripada LogiQA (29%), manakala tugasan LSAT lain dan tugasan SAT-Bahasa Inggeris masing-masing menyumbang kurang daripada 10%
Hasil penilaian inferens pada set data Big-Bench Hard Results menunjukkan bahawa prestasi Orca dalam semua tugasan Keseluruhan prestasi adalah lebih baik sedikit daripada ChatGPT, tetapi jauh di belakang GPT-4; 113% lebih tinggi daripada prestasi Vicuna
Atas ialah kandungan terperinci Adakah 'pembelajaran tiruan' hanya klise? Penjelasan penalaan halus + 13 bilion parameter Orca: keupayaan penaakulan sama dengan ChatGPT. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!