


Penyulingan juga boleh Langkah demi Langkah: kaedah baharu membolehkan model kecil setanding dengan model besar 2000 kali lebih besar
Walaupun model bahasa berskala besar mempunyai keupayaan yang menakjubkan, disebabkan skala besarnya, kos yang diperlukan untuk penggunaannya selalunya besar. Universiti Washington, bersama-sama dengan Institut Penyelidikan Kepintaran Buatan Pengkomputeran Awan Google dan Penyelidikan Google, terus menyelesaikan masalah ini dan mencadangkan paradigma Penyulingan Langkah demi Langkah untuk membantu latihan model. Berbanding dengan LLM, kaedah ini lebih berkesan dalam melatih model kecil dan mengaplikasikannya pada tugasan tertentu, dan memerlukan kurang data latihan berbanding penalaan halus dan penyulingan tradisional. Pada tugasan penanda aras, model 770M T5 mereka mengatasi model PaLM 540B. Hebatnya, model mereka hanya menggunakan 80% daripada data yang tersedia.
Walaupun Model Bahasa Besar (LLM) telah menunjukkan pembelajaran Sedikit pukulan yang mengagumkan keupayaan, tetapi sukar untuk menggunakan model berskala besar sedemikian dalam aplikasi sebenar. Infrastruktur khusus yang menyediakan skala parameter 175 bilion LLM memerlukan sekurang-kurangnya 350GB memori GPU. Apatah lagi, LLM tercanggih hari ini terdiri daripada lebih daripada 500 bilion parameter, yang bermaksud ia memerlukan lebih banyak memori dan sumber pengkomputeran. Keperluan pengkomputeran sedemikian tidak dapat dicapai oleh kebanyakan pengeluar, apatah lagi aplikasi yang memerlukan kependaman rendah.
Untuk menyelesaikan masalah model besar ini, penyebar sering menggunakan model khusus yang lebih kecil. Model yang lebih kecil ini dilatih menggunakan paradigma biasa - penalaan halus atau penyulingan. Penalaan halus meningkatkan model kecil pra-latihan menggunakan data anotasi manusia hiliran. Penyulingan melatih model yang lebih kecil menggunakan label yang dihasilkan oleh LLM yang lebih besar. Malangnya, paradigma ini memerlukan kos sambil mengurangkan saiz model: untuk mencapai prestasi yang setanding dengan LLM, penalaan halus memerlukan label manusia yang mahal, manakala penyulingan memerlukan sejumlah besar data tidak berlabel yang sukar diperoleh.
Dalam kertas kerja bertajuk "Menyuling Langkah demi Langkah! Mengungguli Model Bahasa yang Lebih Besar dengan Kurang Data Latihan dan Saiz Model yang Lebih Kecil", penyelidik dari University of Washington dan Google Mekanisme mudah baharu , Penyulingan langkah demi langkah, diperkenalkan untuk melatih model yang lebih kecil menggunakan kurang data latihan. Mekanisme ini mengurangkan jumlah data latihan yang diperlukan untuk memperhalusi dan menyaring LLM, menghasilkan saiz model yang lebih kecil.
Pautan kertas: https://arxiv.org/pdf/2305.02301 v1.pdf
Inti mekanisme ini adalah untuk mengubah perspektif dan menganggap LLM sebagai agen yang boleh membuat alasan, bukannya sebagai sumber label bunyi. LLM boleh menjana rasional bahasa semula jadi yang boleh digunakan untuk menerangkan dan menyokong label yang diramalkan oleh model. Sebagai contoh, apabila ditanya "Seorang lelaki membawa peralatan golf, apakah yang mungkin dia miliki? (a) kelab, (b) auditorium, (c) pusat meditasi, (d) persidangan, (e) gereja" , LLM boleh menjawab "(a ) club" melalui penaakulan rantaian pemikiran (CoT), dan rasionalkan label ini dengan menjelaskan bahawa "jawapannya mestilah sesuatu yang digunakan untuk bermain golf." Daripada pilihan di atas, hanya kelab yang digunakan untuk golf. Kami menggunakan justifikasi ini sebagai maklumat tambahan yang lebih kaya untuk melatih model yang lebih kecil dalam tetapan latihan berbilang tugas dan melaksanakan ramalan label dan ramalan justifikasi.
Seperti yang ditunjukkan dalam Rajah 1, penyulingan berperingkat boleh mempelajari model kecil khusus tugas dengan kurang daripada 1/500 bilangan parameter LLM. Penyulingan berperingkat juga menggunakan contoh latihan yang jauh lebih sedikit daripada penalaan halus atau penyulingan tradisional.
Keputusan eksperimen menunjukkan bahawa antara 4 penanda aras NLP, terdapat tiga eksperimen yang menjanjikan dalam kesimpulan.
- Pertama, berbanding dengan penalaan halus dan penyulingan, model penyulingan berperingkat mencapai prestasi yang lebih baik pada setiap set data, mengurangkan bilangan kejadian latihan lebih daripada 50% secara purata (sehingga lebih daripada 85 %) .
- Kedua, model kami mengatasi prestasi LLM apabila saiz model lebih kecil (sehingga 2000 kali lebih kecil), sekali gus mengurangkan kos pengiraan yang diperlukan untuk penggunaan model .
- Ketiga, penyelidikan ini mengurangkan saiz model sambil juga mengurangkan jumlah data yang diperlukan untuk mengatasi LLM. Para penyelidik mengatasi prestasi LLM dengan parameter 540B menggunakan model T5 770M. Model yang lebih kecil ini hanya menggunakan 80% daripada set data berlabel kaedah penalaan halus sedia ada.
Apabila hanya terdapat data tidak berlabel, prestasi model kecil masih sama baiknya dengan LLM - hanya menggunakan model 11B T5 melebihi Prestasi PaLM sebanyak 540B telah diperbaiki.
Kajian selanjutnya menunjukkan bahawa apabila model yang lebih kecil berprestasi lebih buruk daripada LLM, penyulingan secara berperingkat boleh menggunakan data tidak berlabel tambahan dengan lebih berkesan daripada kaedah penyulingan standard. Jadikan model yang lebih kecil setanding dengan prestasi LLM.
Penyulingan berperingkat
Para penyelidik mencadangkan paradigma baharu penyulingan berperingkat, yang menggunakan keupayaan penaakulan LLM untuk ramalannya untuk melatih model yang lebih kecil dengan cara yang cekap data . Rangka kerja keseluruhan ditunjukkan dalam Rajah 2.
Paradigma mempunyai dua langkah mudah: pertama, diberi LLM dan data An tidak berlabel set menggesa LLM untuk menjana label output dan justifikasi untuk label. Rasional dijelaskan dalam bahasa semula jadi dan menyediakan sokongan untuk label yang diramalkan oleh model (lihat Rajah 2). Justifikasi ialah sifat tingkah laku yang muncul bagi LLM penyeliaan sendiri semasa.
Kemudian, sebagai tambahan kepada label tugas, gunakan sebab ini untuk melatih model hiliran yang lebih kecil. Secara terang-terangan, sebab boleh memberikan maklumat yang lebih kaya dan lebih terperinci untuk menerangkan sebab input dipetakan ke label output tertentu.
Hasil eksperimen
Para penyelidik mengesahkan keberkesanan penyulingan berperingkat dalam eksperimen. Pertama, berbanding kaedah penalaan halus dan penyulingan tugasan standard, penyulingan berperingkat membantu mencapai prestasi yang lebih baik dengan bilangan contoh latihan yang jauh lebih kecil, meningkatkan kecekapan data dengan ketara untuk mempelajari model khusus tugasan kecil.
Kedua, Kajian menunjukkan bahawa kaedah penyulingan berperingkat melebihi prestasi LLM dengan saiz model yang lebih kecil, dengan ketara mengurangkan kos penggunaan berbanding llm.
Akhir sekali, penyelidik menyiasat sumber minimum yang diperlukan oleh kaedah penyulingan berperingkat dari segi prestasi melebihi LLM, termasuk bilangan contoh latihan dan saiz model. Mereka menunjukkan bahawa pendekatan penyulingan berperingkat meningkatkan kecekapan data dan kecekapan penggunaan dengan menggunakan kurang data dan model yang lebih kecil.
Atas ialah kandungan terperinci Penyulingan juga boleh Langkah demi Langkah: kaedah baharu membolehkan model kecil setanding dengan model besar 2000 kali lebih besar. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



0. Apakah fungsi artikel ini? Kami mencadangkan DepthFM: model anggaran kedalaman monokular generatif yang serba boleh dan pantas. Sebagai tambahan kepada tugas anggaran kedalaman tradisional, DepthFM juga menunjukkan keupayaan terkini dalam tugas hiliran seperti mengecat kedalaman. DepthFM cekap dan boleh mensintesis peta kedalaman dalam beberapa langkah inferens. Mari kita baca karya ini bersama-sama ~ 1. Tajuk maklumat kertas: DepthFM: FastMonocularDepthEstimationwithFlowMatching Pengarang: MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

Menghadapi ketinggalan, sambungan data mudah alih perlahan pada iPhone? Biasanya, kekuatan internet selular pada telefon anda bergantung pada beberapa faktor seperti rantau, jenis rangkaian selular, jenis perayauan, dsb. Terdapat beberapa perkara yang boleh anda lakukan untuk mendapatkan sambungan Internet selular yang lebih pantas dan boleh dipercayai. Betulkan 1 – Paksa Mulakan Semula iPhone Kadangkala, paksa memulakan semula peranti anda hanya menetapkan semula banyak perkara, termasuk sambungan selular. Langkah 1 – Hanya tekan kekunci naikkan kelantangan sekali dan lepaskan. Seterusnya, tekan kekunci Turun Kelantangan dan lepaskannya semula. Langkah 2 - Bahagian seterusnya proses adalah untuk menahan butang di sebelah kanan. Biarkan iPhone selesai dimulakan semula. Dayakan data selular dan semak kelajuan rangkaian. Semak semula Betulkan 2 – Tukar mod data Walaupun 5G menawarkan kelajuan rangkaian yang lebih baik, ia berfungsi lebih baik apabila isyarat lemah

Saya menangis hingga mati. Dunia sedang membina model besar. Data di Internet tidak mencukupi. Model latihan kelihatan seperti "The Hunger Games", dan penyelidik AI di seluruh dunia bimbang tentang cara memberi makan data ini kepada pemakan yang rakus. Masalah ini amat ketara dalam tugas berbilang modal. Pada masa mereka mengalami kerugian, pasukan pemula dari Jabatan Universiti Renmin China menggunakan model baharu mereka sendiri untuk menjadi yang pertama di China untuk menjadikan "suapan data yang dijana model itu sendiri" menjadi kenyataan. Selain itu, ia merupakan pendekatan serampang dua mata dari segi pemahaman dan sisi penjanaan Kedua-dua pihak boleh menjana data baharu berbilang modal yang berkualiti tinggi dan memberikan maklum balas data kepada model itu sendiri. Apakah model? Awaker 1.0, model berbilang modal besar yang baru sahaja muncul di Forum Zhongguancun. Siapa pasukan itu? Enjin Sophon. Diasaskan oleh Gao Yizhao, pelajar kedoktoran di Sekolah Kecerdasan Buatan Hillhouse Universiti Renmin.

Baru-baru ini, bulatan tentera telah terharu dengan berita: jet pejuang tentera AS kini boleh melengkapkan pertempuran udara automatik sepenuhnya menggunakan AI. Ya, baru-baru ini, jet pejuang AI tentera AS telah didedahkan buat pertama kali, mendedahkan misterinya. Nama penuh pesawat pejuang ini ialah Variable Stability Simulator Test Aircraft (VISTA). Ia diterbangkan sendiri oleh Setiausaha Tentera Udara AS untuk mensimulasikan pertempuran udara satu lawan satu. Pada 2 Mei, Setiausaha Tentera Udara A.S. Frank Kendall berlepas menggunakan X-62AVISTA di Pangkalan Tentera Udara Edwards Ambil perhatian bahawa semasa penerbangan selama satu jam, semua tindakan penerbangan telah diselesaikan secara autonomi oleh AI! Kendall berkata - "Sejak beberapa dekad yang lalu, kami telah memikirkan tentang potensi tanpa had pertempuran udara-ke-udara autonomi, tetapi ia sentiasa kelihatan di luar jangkauan." Namun kini,
