Adakah 'pembelajaran tiruan' hanya klise? Penjelasan penalaan halus + 13 bilion parameter Orca: keupayaan penaakulan sama dengan ChatGPT-AI-php.cn

Jadual Kandungan

Rumah

Adakah 'pembelajaran tiruan' hanya klise? Penjelasan penalaan halus + 13 bilion parameter Orca: keupayaan penaakulan sama dengan ChatGPT

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 17, 2023 am 11:39 AM

ai belajar

Sejak pembukaan API ChatGPT, sebilangan besar kajian telah memilih untuk menggunakan output model asas besar (LFM) seperti ChatGPT dan GPT-4 sebagai data latihan, dan kemudian meningkatkan keupayaan kecil model melalui pembelajaran tiruan.

Walau bagaimanapun, disebabkan masalah seperti isyarat tiruan cetek, data latihan yang tidak mencukupi dan kekurangan piawaian penilaian yang ketat, prestasi sebenar model kecil telah dianggarkan terlalu tinggi.

Dari sudut kesan, model kecil lebih cenderung untuk meniru gaya keluaran LFM berbanding proses inferens.

Adakah pembelajaran tiruan hanya klise? Penjelasan penalaan halus + 13 bilion parameter Orca: keupayaan penaakulan sama dengan ChatGPT

Pautan kertas: https://arxiv.org/pdf/2306.02707.pdf

Untuk menangani cabaran ini, Microsoft baru-baru ini mengeluarkan kertas 51 halaman yang mencadangkan model Orca parameter 13 bilion yang boleh belajar meniru proses inferens LFM.

Para penyelidik mereka bentuk isyarat latihan yang kaya untuk model besar, supaya Orca boleh mempelajari jejak penjelasan, proses pemikiran langkah demi langkah, arahan yang kompleks, dll. daripada GPT-4, dan oleh ChatGPT Guru membantu dalam bimbingan; dan melombong data tiruan berskala besar dan pelbagai melalui persampelan dan pemilihan boleh meningkatkan lagi kesan pembelajaran progresif.

Dalam penilaian percubaan, Orca mengatasi model penalaan halus arahan SOTA yang lain, mencapai dua kali ganda prestasi Vicuna-13B dalam tanda aras inferens sifar pukulan kompleks seperti Prestasi BigBench Hard (BBH), peningkatan prestasi sebanyak 42% juga dicapai pada AGIEval.

Adakah pembelajaran tiruan hanya klise? Penjelasan penalaan halus + 13 bilion parameter Orca: keupayaan penaakulan sama dengan ChatGPT

Selain itu, Orca mencapai prestasi setanding dengan ChatGPT pada penanda aras BBH, dalam peperiksaan profesional dan akademik seperti SAT, LSAT, GRE dan GMAT Di sana hanyalah 4% jurang prestasi dalam , dan semuanya diukur dalam tetapan sampel sifar tanpa rantaian pemikiran.

Adakah pembelajaran tiruan hanya klise? Penjelasan penalaan halus + 13 bilion parameter Orca: keupayaan penaakulan sama dengan ChatGPT

Penemuan menunjukkan bahawa membiarkan model belajar daripada penjelasan langkah demi langkah, sama ada penjelasan tersebut dihasilkan oleh manusia atau model AI yang lebih maju, Mereka semuanya merupakan hala tuju penyelidikan yang menjanjikan untuk meningkatkan keupayaan dan kemahiran model.

Penjelasan Penalaan

Pembinaan set data

Dalam data latihan, setiap contoh merangkumi tiga bahagian, iaitu mesej sistem, pertanyaan pengguna dan balasan LFM.

Mesej sistem (mesej sistem) diletakkan pada permulaan gesaan untuk menyediakan konteks asas, panduan dan butiran lain yang berkaitan kepada LFM.

Mesej sistem boleh digunakan untuk menukar tempoh respons, menerangkan keperibadian pembantu AI, mewujudkan tingkah laku LFM yang boleh diterima dan tidak boleh diterima, dan menentukan struktur tindak balas AI model.

Para penyelidik mencipta 16 maklumat sistem untuk mereka bentuk pelbagai jenis respons LFM, yang boleh menjana kandungan kreatif dan menyelesaikan masalah pertanyaan maklumat menjana penjelasan dan respons berdasarkan jawapan penaakulan langkah demi langkah.

Adakah pembelajaran tiruan hanya klise? Penjelasan penalaan halus + 13 bilion parameter Orca: keupayaan penaakulan sama dengan ChatGPT

Pertanyaan pengguna mentakrifkan tugas sebenar yang anda mahu LFM lakukan.

Untuk mendapatkan sejumlah besar pertanyaan pengguna yang pelbagai, penyelidik menggunakan koleksi FLAN-v2 untuk mengekstrak 5 juta pertanyaan pengguna (FLAN-5M) dan mengumpul jawapan ChatGPT mengekstrak 1 juta arahan (FLAN-1M) daripada 5 juta arahan untuk mengumpul respons GPT-4.

Koleksi FLAN-v2 terdiri daripada lima subkoleksi, iaitu CoT, NiV2, T0, Flan 2021 dan Dialog, di mana setiap subset mengandungi berbilang tugasan dan setiap tugasan ialah koleksi pertanyaan.

Setiap subkoleksi berkaitan dengan berbilang set data akademik dan setiap set data mempunyai satu atau lebih tugas yang memfokuskan pada pertanyaan sifar dan beberapa tembakan.

Dalam kerja ini, penyelidik hanya mengambil sampel pertanyaan sifar pukulan untuk latihan Orca dan tidak mengambil sampel daripada subset Dialog kerana pertanyaan ini sering kekurangan konteks untuk berguna daripada balasan ChatGPT.

Biar ChatGPT bertindak sebagai Pembantu Pengajar

Latih Orca pertama pada data FLAN-5M (Peningkatan ChatGPT), diikuti dengan latihan peringkat kedua (peningkatan GPT-4) pada FLAN-1M.

Terdapat dua sebab utama untuk menggunakan ChatGPT sebagai pembantu guru perantaraan:

Jurang keupayaan

Walaupun jumlah parameter GPT-4 belum didedahkan, 13 bilion parameter Orca pastinya berkali-kali lebih kecil daripada GPT-4, dan jurang keupayaan antara ChatGPT dan Orca adalah Lebih Kecil, lebih sesuai sebagai guru pertengahan, dan pendekatan ini telah terbukti dapat meningkatkan prestasi pembelajaran tiruan model pelajar yang lebih kecil dalam penyulingan pengetahuan.

Pendekatan ini juga boleh dilihat sebagai sejenis pembelajaran progresif atau pembelajaran kursus, di mana pelajar mula-mula belajar daripada contoh yang lebih mudah dan kemudian beralih kepada contoh yang lebih sukar, dengan mengandaikan bahawa respons yang lebih panjang akan menjadi lebih sukar untuk ditiru daripada respons yang lebih pendek, membolehkan penaakulan yang lebih baik dan kemahiran penjelasan langkah demi langkah daripada model guru yang lebih besar.

2 Kos dan Masa

Pengumpulan data berskala besar daripada Azure OpenAI API. Akan ada beberapa sekatan, termasuk had kadar permintaan setiap minit untuk mengelakkan trafik yang berlebihan disebabkan oleh masalah kelewatan perkhidmatan, bilangan token yang tersedia setiap minit adalah terhad dan kos kewangan untuk penyiapan token;

Adakah pembelajaran tiruan hanya klise? Penjelasan penalaan halus + 13 bilion parameter Orca: keupayaan penaakulan sama dengan ChatGPT

Sebagai perbandingan, ChatGPT API lebih pantas dan lebih murah daripada terminal GPT-4, jadi lebih banyak dikumpulkan daripada ChatGPT daripada GPT-4 5 kali ganda data .

Adakah pembelajaran tiruan hanya klise? Penjelasan penalaan halus + 13 bilion parameter Orca: keupayaan penaakulan sama dengan ChatGPT

Ia boleh diperhatikan daripada taburan panjang balasan ChatGPT dan GPT-4 yang sepadan dengan mesej sistem yang berbeza bahawa balasan GPT-4 lebih panjang secara purata berbanding ChatGPT 1.5x, membolehkan Orca belajar secara progresif daripada kerumitan penerangan guru dan menunjukkan kesan bantuan guru melalui eksperimen ablasi.

Latihan

Dalam peringkat segmentasi perkataan, penyelidik menggunakan pengekodan pasangan bait LLaMA (BPE) untuk memproses sampel input di mana nombor berbilang digit dibahagikan kepada berbilang digit tunggal dan kembali kepada bait untuk menguraikan aksara UTF-8 yang tidak diketahui.

Untuk mengendalikan urutan panjang berubah-ubah, perkataan pengisi [[PAD]] diperkenalkan dalam perbendaharaan kata tokenizer LLaMA, dan perbendaharaan kata akhir mengandungi 32001 token

Untuk mengoptimumkan proses latihan dan menggunakan sumber pengkomputeran yang tersedia dengan berkesan, penyelidik menggunakan teknologi pembungkusan untuk menggabungkan berbilang contoh input ke dalam urutan sebelum melatih model.

Semasa proses pembungkusan, jumlah panjang jujukan bercantum tidak melebihi max_len=2048 token Sampel input akan dikocok secara rawak dan dibahagikan kepada beberapa kumpulan jujukan bercantum Paling max_len

Memandangkan taburan panjang arahan penambahan dalam data latihan, pekali pembungkusan setiap jujukan ialah 2.7 Para penyelidik memilih untuk mengira kehilangan token yang dihasilkan oleh model guru, yang bermaksud bahawa pembelajaran untuk menjana respons yang dikondisikan pada maklumat sistem dan arahan tugas boleh memastikan bahawa model memberi tumpuan kepada pembelajaran daripada token yang paling relevan dan bermaklumat, meningkatkan kecekapan dan keberkesanan keseluruhan proses latihan.

Akhirnya, Orca telah dilatih pada 20 GPU NVIDIA A100 dengan memori 80GB Ia pertama kali dilatih pada FLAN-5M (ChatGPT dipertingkatkan) selama 4 zaman, yang mengambil masa 160 jam dan kemudian pada FLAN-1M (GPT -4 peningkatan) dan meneruskan latihan selama 4 zaman

Disebabkan oleh sekatan lalu lintas, beban terminal dan isu panjang balas, latihan berbilang daripada GPT-3.5-turbo (ChatGPT) dan GPT-4 terminal mengambil masa 2 dan 3 minggu untuk mengumpul data masing-masing.

Bahagian eksperimen

Para penyelidik terutamanya mengesahkan keupayaan penaakulan Orca.

Adakah pembelajaran tiruan hanya klise? Penjelasan penalaan halus + 13 bilion parameter Orca: keupayaan penaakulan sama dengan ChatGPT

Seperti yang dapat dilihat dalam percubaan AGIEval, prestasi Orca adalah setanding dengan Text-da-Vinci-003 dan mencapai 88% Prestasi ChatGPT, tetapi jauh di belakang GPT-4

Untuk tugasan analisis dan penaakulan, Vicuna menunjukkan prestasi yang lebih teruk, mengekalkan hanya 62% kualiti ChatGPT, menunjukkan bahawa model bahasa sumber terbuka ini Keupayaan penaakulan sangat lemah .

Walaupun Orca berprestasi setanding dengan Text-da-Vinci-003, ia masih 5 mata lebih rendah daripada ChatGPT, Orca berprestasi lebih baik dalam tugasan berkaitan matematik (dalam SAT, GRE, GMAT ) Terdapat jurang yang besar antaranya dan ChatGPT.

Berbanding dengan Vicuna, Orca menunjukkan prestasi yang lebih kukuh, mengatasi Vicuna dalam setiap kategori, dengan purata peningkatan relatif sebanyak 42%.

GPT-4 jauh mengatasi semua model lain, tetapi masih terdapat banyak ruang untuk penambahbaikan dalam penanda aras ini, dengan semua model pada masa ini menunjukkan prestasi yang ketara di bawah markah manusia .

Adakah pembelajaran tiruan hanya klise? Penjelasan penalaan halus + 13 bilion parameter Orca: keupayaan penaakulan sama dengan ChatGPT

Prestasi Orca sangat berbeza bergantung pada jenis mesej sistem dan untuk model terlatih, mesej sistem kosong cenderung berfungsi dengan baik .

Adakah pembelajaran tiruan hanya klise? Penjelasan penalaan halus + 13 bilion parameter Orca: keupayaan penaakulan sama dengan ChatGPT

Orca mengatasi ChatGPT (contoh orca-beats-ChatGPT) pada 325 sampel tugasan berbeza, kebanyakannya daripada LogiQA (29%), manakala tugasan LSAT lain dan tugasan SAT-Bahasa Inggeris masing-masing menyumbang kurang daripada 10%

Hasil penilaian inferens pada set data Big-Bench Hard Results menunjukkan bahawa prestasi Orca dalam semua tugasan Keseluruhan prestasi adalah lebih baik sedikit daripada ChatGPT, tetapi jauh di belakang GPT-4; 113% lebih tinggi daripada prestasi Vicuna

Adakah pembelajaran tiruan hanya klise? Penjelasan penalaan halus + 13 bilion parameter Orca: keupayaan penaakulan sama dengan ChatGPT

Atas ialah kandungan terperinci Adakah 'pembelajaran tiruan' hanya klise? Penjelasan penalaan halus + 13 bilion parameter Orca: keupayaan penaakulan sama dengan ChatGPT. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

2 minggu yang lalu By DDD

R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Cara Membuka Segala -galanya Di Myrise

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7503

Tutorial CakePHP

1377

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi

Related knowledge

Cara Mengkonfigurasi Format Log Debian Apache Apr 12, 2025 pm 11:30 PM

Artikel ini menerangkan cara menyesuaikan format log Apache pada sistem Debian. Langkah -langkah berikut akan membimbing anda melalui proses konfigurasi: Langkah 1: Akses fail konfigurasi Apache Fail konfigurasi Apache utama sistem Debian biasanya terletak di /etc/apache2/apache2.conf atau /etc/apache2/httpd.conf. Buka fail konfigurasi dengan kebenaran root menggunakan arahan berikut: Sudonano/etc/Apache2/Apache2.conf atau Sudonano/etc/Apache2/httpd.conf Langkah 2: Tentukan format log tersuai untuk mencari atau

Bagaimana log tomcat membantu menyelesaikan masalah kebocoran memori Apr 12, 2025 pm 11:42 PM

Log Tomcat adalah kunci untuk mendiagnosis masalah kebocoran memori. Dengan menganalisis log tomcat, anda boleh mendapatkan wawasan mengenai kelakuan memori dan pengumpulan sampah (GC), dengan berkesan mencari dan menyelesaikan kebocoran memori. Berikut adalah cara menyelesaikan masalah kebocoran memori menggunakan log Tomcat: 1. GC Log Analysis terlebih dahulu, membolehkan pembalakan GC terperinci. Tambah pilihan JVM berikut kepada parameter permulaan TOMCAT: -XX: PrintGCDetails-XX: PrintGCDATestamps-XLogGC: GC.LOG Parameter ini akan menghasilkan log GC terperinci (GC.LOG), termasuk maklumat seperti jenis GC, saiz dan masa yang dikitar semula. Analisis GC.Log

Cara Melaksanakan Penyortiran Fail oleh Debian Readdir Apr 13, 2025 am 09:06 AM

Dalam sistem Debian, fungsi Readdir digunakan untuk membaca kandungan direktori, tetapi urutan yang dikembalikannya tidak ditentukan sebelumnya. Untuk menyusun fail dalam direktori, anda perlu membaca semua fail terlebih dahulu, dan kemudian menyusunnya menggunakan fungsi QSORT. Kod berikut menunjukkan cara menyusun fail direktori menggunakan ReadDir dan QSORT dalam sistem Debian:#termasuk#termasuk#termasuk#termasuk // fungsi perbandingan adat, yang digunakan untuk qSortintCompare (Constvoid*A, Constvoid*b) {Returnstrcmp (*(*(*(*(*(*(*(*(*(*(*(*(*(*(*(*(*(

Cara Mengoptimumkan Prestasi Debian Readdir Apr 13, 2025 am 08:48 AM

Dalam sistem Debian, panggilan sistem Readdir digunakan untuk membaca kandungan direktori. Jika prestasinya tidak baik, cuba strategi pengoptimuman berikut: Memudahkan bilangan fail direktori: Split direktori besar ke dalam pelbagai direktori kecil sebanyak mungkin, mengurangkan bilangan item yang diproses setiap panggilan readdir. Dayakan Caching Kandungan Direktori: Bina mekanisme cache, kemas kini cache secara teratur atau apabila kandungan direktori berubah, dan mengurangkan panggilan kerap ke Readdir. Cafh memori (seperti memcached atau redis) atau cache tempatan (seperti fail atau pangkalan data) boleh dipertimbangkan. Mengamalkan struktur data yang cekap: Sekiranya anda melaksanakan traversal direktori sendiri, pilih struktur data yang lebih cekap (seperti jadual hash dan bukannya carian linear) untuk menyimpan dan mengakses maklumat direktori

Cara Mengkonfigurasi Peraturan Firewall Untuk Debian Syslog Apr 13, 2025 am 06:51 AM

Artikel ini menerangkan cara mengkonfigurasi peraturan firewall menggunakan iptables atau UFW dalam sistem debian dan menggunakan syslog untuk merakam aktiviti firewall. Kaedah 1: Gunakan IPTableSiptable adalah alat firewall baris perintah yang kuat dalam sistem Debian. Lihat peraturan yang ada: Gunakan arahan berikut untuk melihat peraturan iptables semasa: sudoiptables-l-n-v membolehkan akses IP tertentu: sebagai contoh, membenarkan alamat IP 192.168.1.100 untuk mengakses port 80: sudoiptables-ainput-pTCP-Dport80-S192.16

Cara Belajar Debian Syslog Apr 13, 2025 am 11:51 AM

Panduan ini akan membimbing anda untuk belajar cara menggunakan syslog dalam sistem Debian. SYSLOG adalah perkhidmatan utama dalam sistem Linux untuk sistem pembalakan dan mesej log aplikasi. Ia membantu pentadbir memantau dan menganalisis aktiviti sistem untuk mengenal pasti dan menyelesaikan masalah dengan cepat. 1. Pengetahuan asas syslog Fungsi teras syslog termasuk: mengumpul dan menguruskan mesej log secara terpusat; menyokong pelbagai format output log dan lokasi sasaran (seperti fail atau rangkaian); Menyediakan fungsi tontonan log dan penapisan masa nyata. 2. Pasang dan konfigurasikan syslog (menggunakan rsyslog) Sistem Debian menggunakan rsyslog secara lalai. Anda boleh memasangnya dengan arahan berikut: sudoaptupdatesud

Kaedah pemasangan sijil SSL Server Server Debian Apr 13, 2025 am 11:39 AM

Langkah -langkah untuk memasang sijil SSL pada pelayan mel Debian adalah seperti berikut: 1. Pasang OpenSSL Toolkit terlebih dahulu, pastikan bahawa OpenSSL Toolkit telah dipasang pada sistem anda. Jika tidak dipasang, anda boleh menggunakan arahan berikut untuk memasang: sudoapt-getupdateudoapt-getinstallopenssl2. Menjana permintaan kunci dan sijil peribadi seterusnya, gunakan OpenSSL untuk menjana kunci peribadi RSA 2048-bit dan permintaan sijil (CSR): Membuka

Di mana laluan log nginx debian Apr 12, 2025 pm 11:33 PM

Dalam sistem Debian, lokasi penyimpanan lalai log akses dan log ralat Nginx adalah seperti berikut: Log Akses (AccessLog):/var/log/nginx/akses.log log ralat (errorLog):/var/log/nginx/error.log Jalan di atas adalah konfigurasi lalai pemasangan debiannginx standard. Jika anda telah mengubahsuai lokasi storan fail log semasa proses pemasangan, sila periksa fail konfigurasi Nginx anda (biasanya terletak di /etc/nginx/nginx.conf atau/etc/nginx/sites-available/direktori). Dalam fail konfigurasi

See all articles