Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
Pengarang artikel ini, Li Hongkang, ialah pelajar kedoktoran di Jabatan Kejuruteraan Elektrik, Komputer dan Sistem di Institut Politeknik Rensselaer di Amerika Syarikat Beliau lulus dari Universiti Sains dan Teknologi China dengan ijazah sarjana muda. Arah penyelidikan termasuk teori pembelajaran mendalam, teori model bahasa besar, pembelajaran mesin statistik, dsb. Beliau telah menerbitkan banyak kertas kerja di persidangan AI terkemuka seperti ICLR/ICML/Neurips.
Pembelajaran dalam konteks (ICL) telah menunjukkan keupayaan hebat dalam banyak aplikasi berkaitan LLM, tetapi analisis teorinya masih agak terhad. Orang ramai masih cuba memahami mengapa LLM berdasarkan seni bina Transformer boleh mempamerkan keupayaan ICL.
Baru-baru ini, pasukan dari Rensselaer Polytechnic University dan IBM Research menganalisis ICL of Transformer dengan modul perhatian bukan linear (perhatian) dan multilayer perceptron (MLP) daripada perspektif pengoptimuman dan keupayaan teori generalisasi. Khususnya, mereka secara teorinya membuktikan mekanisme ICL di mana Transformer satu lapisan mula-mula memilih beberapa contoh kontekstual berdasarkan pertanyaan dalam lapisan perhatian, dan kemudian membuat ramalan berdasarkan pembenaman label dalam lapisan MLP. Artikel ini telah disertakan dalam ICML 2024. .
Pembelajaran dalam konteks (ICL)
Pembelajaran konteks (ICL) ialah paradigma pembelajaran baharu yang sangat popular dalam model bahasa besar (LLM). Ia secara khusus merujuk kepada menambah N contoh ujian sampel ujian (konteks) sebelum pertanyaan ujian (pertanyaan ujian)
, iaitu gabungan input ujiansebagai input model untuk membimbing model Membuat inferens yang betul. Kaedah ini berbeza daripada kaedah klasik untuk menyempurnakan model yang telah dilatih. Ia tidak memerlukan perubahan berat model, menjadikannya lebih cekap.
Banyak kerja teori terkini adalah berdasarkan rangka kerja penyelidikan yang dicadangkan oleh [1], iaitu, orang ramai boleh terus menggunakan format segera untuk melatih Transformer (langkah ini juga boleh difahami sebagai simulasi Mod pra-latihan LLM yang dipermudahkan), dengan itu menjadikan model tersebut mempunyai keupayaan ICL. Kerja teori sedia ada memberi tumpuan kepada kuasa ekspresif model [2]. Mereka mendapati bahawa seseorang boleh mencari Transformer dengan parameter "sempurna" yang boleh melaksanakan ICL melalui operasi ke hadapan dan juga secara tersirat melaksanakan algoritma pembelajaran mesin klasik seperti keturunan kecerunan. Tetapi kerja-kerja ini tidak dapat menjawab mengapa Transformer boleh dilatih untuk parameter "sempurna" sedemikian dengan keupayaan ICL. Oleh itu, terdapat juga beberapa karya cuba memahami mekanisme ICL dari perspektif latihan atau generalisasi Transformer [3,4]. Walau bagaimanapun, disebabkan oleh kerumitan menganalisis struktur Transformer, kerja-kerja ini kini berhenti pada mengkaji tugas regresi linear, dan model yang dipertimbangkan biasanya menghilangkan bahagian bukan linear Transformer.
Artikel ini menganalisis keupayaan dan mekanisme ICL Transformer dengan perhatian tak linear dan MLP dari perspektif pengoptimuman dan teori generalisasi:
Berdasarkan model klasifikasi yang dipermudahkan, artikel ini secara khusus mengukur bagaimana ciri-ciri data mempengaruhi a keupayaan generalisasi ICL dalam domain dan luar domain (OOD) Transformer kepala tunggal lapisan. Artikel ini menerangkan lagi cara ICL dilaksanakan melalui Transformer terlatih.
Berdasarkan ciri Transformer terlatih, artikel ini juga menganalisis kebolehlaksanaan menggunakan pemangkasan model berasaskan magnitud semasa inferens ICL.
. Untuk menyelesaikan masalah sedemikian, artikel ini membina segera untuk pembelajaran. Gesaan di sini diwakili sebagai:Melatih rangkaian sebagai Transformer kepala tunggal lapisan tunggal:
Proses pra-latihan adalah untuk menyelesaikan pengurangan risiko empirikal untuk semua tugas latihan. Fungsi kehilangan menggunakan Hinge loss, yang sesuai untuk masalah klasifikasi binari, dan algoritma latihan ialah keturunan kecerunan stokastik.
Artikel ini mentakrifkan dua kes generalisasi ICL. Satu adalah dalam domain, iaitu, pengedaran data ujian adalah sama dengan data latihan semasa generalisasi Perhatikan bahawa dalam kes ini, tugas ujian tidak perlu sama dengan tugas latihan, iaitu generalisasi tugas ghaib telah dipertimbangkan di sini. Satu lagi adalah di luar domain, iaitu, pengedaran data ujian dan latihan adalah berbeza. Artikel ini juga melibatkan analisis pemangkasan berasaskan magnitud semasa inferens ICL Kaedah pemangkasan di sini merujuk kepada pemadaman setiap neuron yang diperolehi dengan latihan dari kecil ke besar mengikut amplitudnya.
Pembinaan data dan tugas
Sila rujuk Bahagian 3.2 teks asal untuk bahagian ini. Analisis teori artikel ini adalah berdasarkan laluan pembelajaran ciri yang popular baru-baru ini, iaitu, data biasanya diandaikan sebagai corak boleh dipisahkan (biasanya ortogon), dengan itu menghasilkan perubahan kecerunan berdasarkan corak yang berbeza. Artikel ini mula-mula mentakrifkan satu set corak berkaitan dalam domain (IDR) yang digunakan untuk menentukan klasifikasi tugasan dalam domain dan set corak tidak berkaitan domain bebas tugas (IDI) Corak ini adalah ortogon bagi setiap satu lain. Terdapatcorak IDR dan corak IDI. A
diwakili sebagai jumlah corak IDR dan corak IDI. Tugas dalam domain ditakrifkan sebagai masalah klasifikasi berdasarkan dua corak IDR. Begitu juga, artikel ini boleh menerangkan data dan tugas apabila OOD digeneralisasikan dengan mentakrifkan corak luar domain yang berkaitan (ODR) dan corak luar domain tidak berkaitan (ODI). Perwakilan prompt dalam artikel ini boleh dijelaskan melalui contoh dalam rajah di bawah, di manaialah corak IDR dan
ialah corak IDI. Tugas yang dilakukan di sini adalah untuk mengelaskan berdasarkandalam x Jika ia adalah , maka labelnya ialah + 1, yang sepadan dengan +q, maka labelnya ialah - 1, yang sepadan dengan -q. α, α' ditakrifkan sebagai contoh konteks dalam gesaan latihan dan ujian yang masing-masing sama dengan pola IDR/ODR pertanyaan. Dalam contoh di bawah, .
Hasil teori
Pertama sekali, untuk situasi dalam domain, artikel ini terlebih dahulu memberi syarat 3.2 untuk menetapkan syarat-syarat yang perlu dipenuhi oleh tugas latihan, iaitu tugas latihan perlu meliputi semua corak IDR dan label. Maka keputusan dalam domain adalah seperti berikut:
Ini menunjukkan: 1. Bilangan tugas latihan hanya perlu mengambil kira sebahagian kecil daripada semua tugas yang memenuhi syarat 3.2, dan kita boleh mencapai generalisasi tugas yang tidak kelihatan yang baik. ; 2. Semakin tinggi perkadaran pola IDR yang berkaitan dengan tugas semasa dalam gesaan, generalisasi yang ideal boleh dicapai dengan kurang data latihan, bilangan lelaran latihan dan gesaan latihan/pengujian yang lebih pendek.
Seterusnya ialah hasil generalisasi di luar domain.
Dijelaskan di sini bahawa jika pola ODR adalah gabungan linear corak IDR dan jumlah pekali lebih besar daripada 1, maka generalisasi OOD ICL boleh mencapai kesan yang ideal pada masa ini. Keputusan ini memberikan sambungan intrinsik antara latihan dan data ujian yang diperlukan untuk generalisasi OOD yang baik di bawah rangka kerja ICL. Teorem ini juga telah disahkan oleh eksperimen pada GPT-2. Seperti yang ditunjukkan dalam rajah di bawah, apabila jumlah pekali dalam (12) lebih besar daripada 1, pengelasan OOD boleh mencapai hasil yang ideal. Pada masa yang sama, apabila , iaitu, apabila perkadaran pola ODR/IDR yang berkaitan dengan tugasan pengelasan dalam gesaan adalah lebih tinggi, panjang konteks yang diperlukan adalah lebih kecil.
Kemudian, kertas kerja ini memberikan keputusan generalisasi ICL dengan pemangkasan berasaskan magnitud.
Hasil ini menunjukkan bahawa, pertama sekali, beberapa (kadaran malar) neuron dalam terlatih mempunyai amplitud kecil, manakala yang selebihnya agak besar (Persamaan 14). Apabila kita hanya mencantas neuron kecil, pada asasnya tiada kesan ke atas keputusan generalisasi Apabila perkadaran pemangkasan meningkat kepada pemangkasan neuron besar, ralat generalisasi akan meningkat dengan ketara (Formula 15, 16). Eksperimen berikut mengesahkan Teorem 3.7. Garis menegak biru muda dalam Rajah A di bawah mewakili yang diperoleh melalui latihan dan membentangkan keputusan Formula 14. Walau bagaimanapun, pemangkasan neuron kecil tidak akan memburukkan generalisasi ini adalah konsisten dengan teori. Rajah B menunjukkan bahawa apabila terdapat lebih banyak konteks berkaitan tugas dalam gesaan, kami boleh membenarkan nisbah pemangkasan yang lebih besar untuk mencapai prestasi generalisasi yang sama.
Mekanisme ICL
Dengan mencirikan proses pra-latihan, artikel ini memperoleh mekanisme dalaman Transformer tak linear kepala tunggal satu lapisan untuk ICL, yang terdapat dalam Bahagian 4 artikel asal. Proses ini boleh diwakili oleh rajah di bawah.
Ringkasnya, lapisan perhatian akan memilih konteks yang sama seperti pola ODR/IDR pertanyaan, memberikan mereka hampir semua wajaran perhatian, dan kemudian lapisan MLP akan memfokus pada membuat klasifikasi akhir berdasarkan pembenaman label dalam output lapisan perhatian.
Ringkasan
Artikel ini menerangkan mekanisme latihan Transformer tak linear dalam ICL, serta keupayaan generalisasinya kepada tugas baharu dan data anjakan pengedaran. Keputusan teori mempunyai kepentingan praktikal tertentu untuk mereka bentuk algoritma pemilihan segera dan algoritma pemangkasan LLM.
参考文献
[1] Garg, et al., Neurips 2022. "Apakah yang boleh dipelajari oleh transformer dalam konteks? kajian kes kelas fungsi mudah."
Von Oswald et al., ICML 2023. "Transformer belajar dalam konteks mengikut keturunan kecerunan."
[3] Zhang et al., JMLR 2024. "Transformer terlatih mempelajari model linear dalam konteks."
[4] Huang et al., ICML 2024. "Penumpuan dalam konteks transformer."
Atas ialah kandungan terperinci ICML 2024 |. Mendedahkan mekanisme pembelajaran Transformer bukan linear dan generalisasi dalam pembelajaran kontekstual. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!