


Merumuskan 374 karya berkaitan, pasukan Tao Dacheng, bersama-sama dengan Universiti Hong Kong dan UMD, mengeluarkan ulasan terbaru tentang penyulingan pengetahuan LLM
Model Bahasa Besar (LLM) telah berkembang pesat dalam tempoh dua tahun yang lalu, dan beberapa model serta produk yang fenomenal telah muncul, seperti GPT-4, Gemini, Claude, dll., tetapi kebanyakannya adalah sumber tertutup. Terdapat jurang yang besar antara kebanyakan LLM sumber terbuka yang kini boleh diakses oleh komuniti penyelidikan dan LLM sumber tertutup Oleh itu, meningkatkan keupayaan LLM sumber terbuka dan model kecil lain untuk mengurangkan jurang antara mereka dan model besar sumber tertutup telah menjadi tempat tumpuan penyelidikan. dalam padang ini.
Keupayaan berkuasa LLM, terutamanya LLM sumber tertutup, membolehkan penyelidik saintifik dan pengamal industri menggunakan output dan pengetahuan model besar ini apabila melatih model mereka sendiri. Proses ini pada asasnya ialah proses penyulingan pengetahuan (KD), iaitu, penyulingan pengetahuan daripada model guru (seperti GPT-4) kepada model yang lebih kecil (seperti Llama), yang meningkatkan keupayaan model kecil dengan ketara. Ia boleh dilihat bahawa teknologi penyulingan pengetahuan model bahasa besar ada di mana-mana dan merupakan kaedah yang kos efektif dan berkesan untuk penyelidik membantu melatih dan menambah baik model mereka sendiri.
Jadi, bagaimanakah kerja semasa menggunakan LLM sumber tertutup untuk penyulingan pengetahuan dan pemerolehan data? Bagaimana untuk melatih pengetahuan ini dengan cekap kepada model kecil? Apakah kemahiran berkuasa yang boleh diperoleh oleh model kecil daripada model guru? Bagaimanakah penyulingan pengetahuan LLM memainkan peranan dalam industri dengan ciri domain? Isu-isu ini patut difikirkan dan dikaji secara mendalam.
Pada tahun 2020, pasukan Tao Dacheng menerbitkan "Penyulingan Pengetahuan: Satu Tinjauan", yang meneroka secara menyeluruh aplikasi penyulingan pengetahuan dalam pembelajaran mendalam. Teknologi ini digunakan terutamanya untuk pemampatan dan pecutan model. Dengan peningkatan model bahasa berskala besar, bidang aplikasi penyulingan pengetahuan telah diperluaskan secara berterusan, yang bukan sahaja dapat meningkatkan prestasi model kecil, tetapi juga mencapai peningkatan diri model.
Pada awal tahun 2024, pasukan Tao Dacheng bekerjasama dengan University of Hong Kong dan University of Maryland untuk menerbitkan ulasan terbaru "A Survey on Knowledge Distillation of Large Language Models", yang meringkaskan 374 karya berkaitan dan membincangkan cara mendapatkan pengetahuan daripada model bahasa yang besar. Melatih model yang lebih kecil, dan peranan penyulingan pengetahuan dalam pemampatan model dan latihan kendiri. Pada masa yang sama, ulasan ini juga meliputi penyulingan kemahiran model bahasa yang besar dan penyulingan medan menegak, membantu penyelidik memahami sepenuhnya cara melatih dan menambah baik model mereka sendiri.
Tajuk kertas: Satu Tinjauan Mengenai Penyulingan Pengetahuan Model Bahasa Besar
Pautan kertas: https://arxiv.org/abs/2402.13116
- pautan https://projek
com. proses penyulingan pengetahuan model bahasa yang besar, ulasan ini menguraikan penyulingan pengetahuan kepada dua langkah: 1.
Elisitasi Pengetahuan: Iaitu, cara mendapatkan pengetahuan daripada model guru. Proses ini terutamanya merangkumi: a) Mula-mula bina arahan untuk mengenal pasti kemahiran atau kecekapan menegak yang perlu disuling daripada model guru.b) Kemudian gunakan pengetahuan benih (seperti set data tertentu) sebagai input untuk memacu model guru dan menjana respons yang sepadan, dengan itu membimbing pengetahuan yang sepadan.
c) Pada masa yang sama, pemerolehan pengetahuan merangkumi beberapa teknologi khusus: anotasi, pengembangan, sintesis, pengekstrakan ciri, maklum balas dan pengetahuan sendiri.
2. Algoritma Penyulingan: Iaitu, cara menyuntik pengetahuan yang diperoleh ke dalam model pelajar. Algoritma khusus dalam bahagian ini termasuk: penalaan halus yang diselia, perbezaan dan persamaan, pembelajaran pengukuhan (iaitu pembelajaran pengukuhan daripada maklum balas AI, RLAIF) dan pengoptimuman kedudukan.
Kaedah klasifikasi ulasan ini meringkaskan kerja berkaitan daripada tiga dimensi berdasarkan proses ini: algoritma penyulingan pengetahuan, penyulingan kemahiran dan penyulingan medan menegak. Dua yang terakhir disuling berdasarkan algoritma penyulingan pengetahuan. Butiran klasifikasi ini dan ringkasan kerja berkaitan yang sepadan ditunjukkan dalam rajah di bawah. Algoritma penyulingan pengetahuan (Ciri), maklum balas (Feedback), pengetahuan yang dihasilkan sendiri (Self-Knowledge). Contoh setiap kaedah ditunjukkan di bawah:
Pelabelan: Pelabelan pengetahuan bermakna LLM guru menggunakan input yang diberikan sebagai pengetahuan benih untuk menjana output yang sepadan berdasarkan arahan atau contoh. Sebagai contoh, pengetahuan benih ialah input set data tertentu, dan model guru melabelkan output rantaian pemikiran.
Pengembangan: Ciri utama teknologi ini ialah menggunakan keupayaan pembelajaran kontekstual LLM untuk menjana data yang serupa dengan contoh berdasarkan contoh benih yang disediakan. Kelebihannya ialah set data yang lebih pelbagai dan meluas boleh dihasilkan melalui contoh. Walau bagaimanapun, apabila data yang dijana terus meningkat, masalah kehomogenan data mungkin timbul.
Penyusunan Data: Ciri tersendiri sintesis data ialah ia mensintesis data dari awal. Ia menggunakan sejumlah besar maklumat meta (seperti topik, dokumen pengetahuan, data asal, dll.) sebagai pengetahuan benih yang pelbagai dan besar untuk mendapatkan set data berskala besar dan berkualiti tinggi daripada LLM guru.
Pemerolehan ciri (Ciri): Kaedah biasa untuk mendapatkan pengetahuan ciri adalah dengan mengeluarkan jujukan input dan output kepada LLM guru, dan kemudian mengekstrak perwakilan dalamannya. Kaedah ini sesuai terutamanya untuk LLM sumber terbuka dan sering digunakan untuk pemampatan model.
Maklum Balas: Pengetahuan maklum balas biasanya memberikan maklum balas kepada model guru tentang output pelajar, seperti menyediakan maklumat keutamaan, penilaian atau pembetulan untuk membimbing pelajar menjana output yang lebih baik.
Ilmu Kendiri: Ilmu juga boleh diperolehi daripada pelajar sendiri, yang dinamakan ilmu yang dijana sendiri. Dalam kes ini, model yang sama bertindak sebagai kedua-dua guru dan pelajar, secara berulang-ulang memperbaiki dirinya dengan teknik penyulingan dan menambah baik output yang dihasilkan sebelumnya. Pendekatan ini berfungsi dengan baik untuk LLM sumber terbuka.
Ringkasan: Pada masa ini, kaedah sambungan masih digunakan secara meluas, dan kaedah sintesis data secara beransur-ansur menjadi arus perdana kerana ia boleh menjana sejumlah besar data berkualiti tinggi. Kaedah maklum balas boleh memberikan pengetahuan yang membantu model pelajar meningkatkan keupayaan penjajaran mereka. Pemerolehan ciri dan kaedah pengetahuan yang dijana sendiri telah menjadi popular kerana penggunaan model besar sumber terbuka sebagai model guru. Kaedah pemerolehan ciri membantu memampatkan model sumber terbuka, manakala kaedah pengetahuan yang dijana sendiri boleh terus menambah baik model bahasa yang besar. Yang penting, kaedah di atas boleh digabungkan dengan berkesan, dan penyelidik boleh meneroka kombinasi yang berbeza untuk mendapatkan pengetahuan yang lebih berkesan.
Algoritma Penyulingan
Selepas memperoleh pengetahuan, ia perlu disuling ke dalam model pelajar. Algoritma penyulingan termasuk: penalaan halus yang diselia, perbezaan dan persamaan, pembelajaran pengukuhan dan pengoptimuman kedudukan. Contoh ditunjukkan dalam rajah di bawah:
Penalaan halus diselia: Penalaan halus diselia (SFT) memperhalusi model pelajar dengan memaksimumkan kemungkinan urutan yang dihasilkan oleh model guru, membenarkan pelajar model untuk meniru model guru. Pada masa ini, ini merupakan teknik yang paling biasa digunakan dalam penyulingan pengetahuan LLM.
Divergence dan Similarity: Algoritma ini menggunakan pengetahuan parameter dalaman model guru sebagai isyarat penyeliaan untuk latihan model pelajar, dan sesuai untuk model guru sumber terbuka. Kaedah berdasarkan perbezaan dan persamaan masing-masing menjajarkan taburan kebarangkalian dan keadaan tersembunyi.
Pembelajaran Pengukuhan: Algoritma ini sesuai untuk menggunakan pengetahuan maklum balas guru untuk melatih model pelajar, iaitu teknologi RLAIF. Terdapat dua aspek utama: (1) menggunakan data maklum balas yang dijana oleh guru untuk melatih model ganjaran pelajar, (2) mengoptimumkan model pelajar dengan memaksimumkan ganjaran yang diharapkan melalui model ganjaran terlatih. Guru juga boleh berkhidmat secara langsung sebagai model ganjaran.
Pengoptimuman Kedudukan: Pengoptimuman kedudukan juga boleh menyuntik pengetahuan keutamaan ke dalam model pelajar Kelebihannya ialah kestabilan dan kecekapan pengiraan yang tinggi, seperti beberapa algoritma klasik seperti DPO, RRHF, dll.
Penyulingan Kemahiran
Adalah diketahui umum bahawa model bahasa besar mempunyai banyak keupayaan yang sangat baik. Melalui teknologi penyulingan pengetahuan, arahan disediakan untuk mengawal guru untuk menjana pengetahuan yang mengandungi kemahiran yang sepadan dan melatih model pelajar supaya mereka boleh memperoleh kebolehan ini. Keupayaan ini terutamanya termasuk keupayaan seperti konteks berikut (seperti arahan), penjajaran, ejen, tugas pemprosesan bahasa semula jadi (NLP) dan pelbagai mod.
Jadual berikut meringkaskan kerja klasik penyulingan kemahiran, dan juga meringkaskan kemahiran, pengetahuan benih, model guru, model pelajar, kaedah pemerolehan pengetahuan dan algoritma penyulingan yang terlibat dalam setiap kerja.
Penyulingan medan menegak
Selain model bahasa besar dalam bidang umum, kini terdapat banyak usaha untuk melatih model bahasa besar dalam bidang menegak, yang membantu komuniti penyelidikan dan industri dalam aplikasi dan penggunaan model bahasa besar. Walaupun model bahasa yang besar (seperti GPT-4) mempunyai pengetahuan domain yang terhad dalam medan menegak, model tersebut masih boleh memberikan beberapa pengetahuan dan keupayaan domain atau meningkatkan set data domain sedia ada. Bidang yang terlibat di sini terutamanya termasuk (1) undang-undang, (2) kesihatan perubatan, (3) kewangan, (4) sains, dan beberapa bidang lain. Taksonomi dan kerja berkaitan bahagian ini ditunjukkan dalam rajah di bawah:
Arah Masa Depan
Semakan ini meneroka masalah semasa penyulingan pengetahuan model bahasa besar dan potensi arah penyelidikan masa depan, terutamanya termasuk:
Pemilihan Data: Bagaimana untuk memilih data secara automatik untuk mencapai hasil penyulingan yang lebih baik?
Penyulingan berbilang guru: Terokai penyulingan pengetahuan daripada model guru yang berbeza kepada satu model pelajar.
Pengetahuan yang lebih kaya dalam model guru: Anda boleh meneroka pengetahuan yang lebih kaya dalam model guru, termasuk maklum balas dan pengetahuan ciri, dan meneroka gabungan pelbagai kaedah pemerolehan pengetahuan.
Mengatasi pelupaan bencana semasa penyulingan : Keupayaan untuk mengekalkan model asal dengan berkesan semasa penyulingan atau pemindahan pengetahuan kekal sebagai isu yang mencabar.
Penyulingan Pengetahuan Dipercayai: Pada masa ini, KD memberi tumpuan terutamanya pada penyulingan pelbagai kemahiran, dan memberi sedikit perhatian kepada kredibiliti model besar.
Penyulingan Lemah-ke-Kuat(Penyulingan Lemah-ke-Kuat). OpenAI mencadangkan konsep "pengertian lemah kepada kuat", yang memerlukan penerokaan strategi teknikal yang inovatif supaya model yang lebih lemah boleh membimbing proses pembelajaran model yang lebih kukuh dengan berkesan.
Penjajaran Kendiri (Penyulingan Kendiri). Arahan boleh direka bentuk supaya model pelajar secara autonomi menambah baik dan menyelaraskan kandungan yang dihasilkan dengan menjana maklum balas, kritikan dan penjelasan.
Kesimpulan
Semakan ini menyediakan ringkasan yang komprehensif dan sistematik tentang cara menggunakan pengetahuan model bahasa besar untuk menambah baik model pelajar, seperti model bahasa besar sumber terbuka, dan juga termasuk teknologi penyulingan diri yang popular baru-baru ini . Kajian semula ini membahagikan penyulingan pengetahuan kepada dua langkah: pemerolehan pengetahuan dan algoritma penyulingan, dan juga meringkaskan penyulingan kemahiran dan penyulingan medan menegak. Akhir sekali, semakan ini meneroka hala tuju masa depan penyulingan model bahasa besar, dengan harapan dapat menolak sempadan penyulingan pengetahuan model bahasa besar dan mendapatkan model bahasa besar yang lebih mudah diakses, cekap, berkesan dan boleh dipercayai.
Atas ialah kandungan terperinci Merumuskan 374 karya berkaitan, pasukan Tao Dacheng, bersama-sama dengan Universiti Hong Kong dan UMD, mengeluarkan ulasan terbaru tentang penyulingan pengetahuan LLM. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Tetapi mungkin dia tidak dapat mengalahkan lelaki tua di taman itu? Sukan Olimpik Paris sedang rancak berlangsung, dan pingpong telah menarik perhatian ramai. Pada masa yang sama, robot juga telah membuat penemuan baru dalam bermain pingpong. Sebentar tadi, DeepMind mencadangkan ejen robot pembelajaran pertama yang boleh mencapai tahap pemain amatur manusia dalam pingpong yang kompetitif. Alamat kertas: https://arxiv.org/pdf/2408.03906 Sejauh manakah robot DeepMind bermain pingpong? Mungkin setanding dengan pemain amatur manusia: kedua-dua pukulan depan dan pukulan kilas: pihak lawan menggunakan pelbagai gaya permainan, dan robot juga boleh bertahan: servis menerima dengan putaran yang berbeza: Walau bagaimanapun, keamatan permainan nampaknya tidak begitu sengit seperti lelaki tua di taman itu. Untuk robot, pingpong

Pada 21 Ogos, Persidangan Robot Dunia 2024 telah diadakan dengan megah di Beijing. Jenama robot rumah SenseTime "Yuanluobot SenseRobot" telah memperkenalkan seluruh keluarga produknya, dan baru-baru ini mengeluarkan robot permainan catur AI Yuanluobot - Edisi Profesional Catur (selepas ini dirujuk sebagai "Yuanluobot SenseRobot"), menjadi robot catur A pertama di dunia untuk rumah. Sebagai produk robot permainan catur ketiga Yuanluobo, robot Guoxiang baharu telah melalui sejumlah besar peningkatan teknikal khas dan inovasi dalam AI dan jentera kejuruteraan Buat pertama kalinya, ia telah menyedari keupayaan untuk mengambil buah catur tiga dimensi melalui cakar mekanikal pada robot rumah, dan melaksanakan Fungsi mesin manusia seperti bermain catur, semua orang bermain catur, semakan notasi, dsb.

Permulaan sekolah akan bermula, dan bukan hanya pelajar yang akan memulakan semester baharu yang harus menjaga diri mereka sendiri, tetapi juga model AI yang besar. Beberapa ketika dahulu, Reddit dipenuhi oleh netizen yang mengadu Claude semakin malas. "Tahapnya telah banyak menurun, ia sering berhenti seketika, malah output menjadi sangat singkat. Pada minggu pertama keluaran, ia boleh menterjemah dokumen penuh 4 halaman sekaligus, tetapi kini ia tidak dapat mengeluarkan separuh halaman pun. !" https:// www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/ dalam siaran bertajuk "Totally disappointed with Claude", penuh dengan

Pada Persidangan Robot Dunia yang diadakan di Beijing, paparan robot humanoid telah menjadi tumpuan mutlak di gerai Stardust Intelligent, pembantu robot AI S1 mempersembahkan tiga persembahan utama dulcimer, seni mempertahankan diri dan kaligrafi dalam. satu kawasan pameran, berkebolehan kedua-dua sastera dan seni mempertahankan diri, menarik sejumlah besar khalayak profesional dan media. Permainan elegan pada rentetan elastik membolehkan S1 menunjukkan operasi halus dan kawalan mutlak dengan kelajuan, kekuatan dan ketepatan. CCTV News menjalankan laporan khas mengenai pembelajaran tiruan dan kawalan pintar di sebalik "Kaligrafi Pengasas Syarikat Lai Jie menjelaskan bahawa di sebalik pergerakan sutera, bahagian perkakasan mengejar kawalan daya terbaik dan penunjuk badan yang paling menyerupai manusia (kelajuan, beban). dll.), tetapi di sisi AI, data pergerakan sebenar orang dikumpulkan, membolehkan robot menjadi lebih kuat apabila ia menghadapi situasi yang kuat dan belajar untuk berkembang dengan cepat. Dan tangkas

Pada persidangan ACL ini, para penyumbang telah mendapat banyak keuntungan. ACL2024 selama enam hari diadakan di Bangkok, Thailand. ACL ialah persidangan antarabangsa teratas dalam bidang linguistik pengiraan dan pemprosesan bahasa semula jadi Ia dianjurkan oleh Persatuan Antarabangsa untuk Linguistik Pengiraan dan diadakan setiap tahun. ACL sentiasa menduduki tempat pertama dalam pengaruh akademik dalam bidang NLP, dan ia juga merupakan persidangan yang disyorkan CCF-A. Persidangan ACL tahun ini adalah yang ke-62 dan telah menerima lebih daripada 400 karya termaju dalam bidang NLP. Petang semalam, persidangan itu mengumumkan kertas kerja terbaik dan anugerah lain. Kali ini, terdapat 7 Anugerah Kertas Terbaik (dua tidak diterbitkan), 1 Anugerah Kertas Tema Terbaik, dan 35 Anugerah Kertas Cemerlang. Persidangan itu turut menganugerahkan 3 Anugerah Kertas Sumber (ResourceAward) dan Anugerah Impak Sosial (

Petang ini, Hongmeng Zhixing secara rasmi mengalu-alukan jenama baharu dan kereta baharu. Pada 6 Ogos, Huawei mengadakan persidangan pelancaran produk baharu Hongmeng Smart Xingxing S9 dan senario penuh Huawei, membawakan sedan perdana pintar panoramik Xiangjie S9, M7Pro dan Huawei novaFlip baharu, MatePad Pro 12.2 inci, MatePad Air baharu, Huawei Bisheng With banyak produk pintar semua senario baharu termasuk pencetak laser siri X1, FreeBuds6i, WATCHFIT3 dan skrin pintar S5Pro, daripada perjalanan pintar, pejabat pintar kepada pakaian pintar, Huawei terus membina ekosistem pintar senario penuh untuk membawa pengguna pengalaman pintar Internet Segala-galanya. Hongmeng Zhixing: Pemerkasaan mendalam untuk menggalakkan peningkatan industri kereta pintar Huawei berganding bahu dengan rakan industri automotif China untuk menyediakan

Penyepaduan mendalam penglihatan dan pembelajaran robot. Apabila dua tangan robot bekerja bersama-sama dengan lancar untuk melipat pakaian, menuang teh dan mengemas kasut, ditambah pula dengan 1X robot humanoid NEO yang telah menjadi tajuk berita baru-baru ini, anda mungkin mempunyai perasaan: kita seolah-olah memasuki zaman robot. Malah, pergerakan sutera ini adalah hasil teknologi robotik canggih + reka bentuk bingkai yang indah + model besar berbilang modal. Kami tahu bahawa robot yang berguna sering memerlukan interaksi yang kompleks dan indah dengan alam sekitar, dan persekitaran boleh diwakili sebagai kekangan dalam domain spatial dan temporal. Sebagai contoh, jika anda ingin robot menuang teh, robot terlebih dahulu perlu menggenggam pemegang teko dan memastikannya tegak tanpa menumpahkan teh, kemudian gerakkannya dengan lancar sehingga mulut periuk sejajar dengan mulut cawan. , dan kemudian condongkan teko pada sudut tertentu. ini

Editor Laporan Kuasa Mesin: Yang Wen Siapa yang boleh menjadi Raja kalangan video AI? Dalam siri TV Amerika "Game of Thrones", terdapat "Iron Throne". Legenda mengatakan bahawa ia dibuat oleh naga gergasi "Black Death" yang meleburkan ribuan pedang yang dibuang oleh musuh, melambangkan kuasa tertinggi. Untuk duduk di atas kerusi besi ini, keluarga utama mula bergaduh dan bergaduh. Sejak kemunculan Sora, "Game of Thrones" telah dilancarkan dalam bulatan video AI Pemain utama dalam permainan ini termasuk RunwayGen-3 dan Luma dari seberang lautan, serta Kuaishou Keling domestik, ByteDream, dan Zhimo Spectrum Qingying, Vidu, PixVerseV2, dsb. Hari ini kita akan menilai dan melihat siapa yang layak untuk duduk di "Takhta Besi" bulatan video AI. -1- Video Vincent
