


ICML 2024 |. Mendedahkan mekanisme pembelajaran Transformer bukan linear dan generalisasi dalam pembelajaran kontekstual

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
Pengarang artikel ini, Li Hongkang, ialah pelajar kedoktoran di Jabatan Kejuruteraan Elektrik, Komputer dan Sistem di Institut Politeknik Rensselaer di Amerika Syarikat Beliau lulus dari Universiti Sains dan Teknologi China dengan ijazah sarjana muda. Arah penyelidikan termasuk teori pembelajaran mendalam, teori model bahasa besar, pembelajaran mesin statistik, dsb. Beliau telah menerbitkan banyak kertas kerja di persidangan AI terkemuka seperti ICLR/ICML/Neurips.
Pembelajaran dalam konteks (ICL) telah menunjukkan keupayaan hebat dalam banyak aplikasi berkaitan LLM, tetapi analisis teorinya masih agak terhad. Orang ramai masih cuba memahami mengapa LLM berdasarkan seni bina Transformer boleh mempamerkan keupayaan ICL.
Baru-baru ini, pasukan dari Rensselaer Polytechnic University dan IBM Research menganalisis ICL of Transformer dengan modul perhatian bukan linear (perhatian) dan multilayer perceptron (MLP) daripada perspektif pengoptimuman dan keupayaan teori generalisasi. Khususnya, mereka secara teorinya membuktikan mekanisme ICL di mana Transformer satu lapisan mula-mula memilih beberapa contoh kontekstual berdasarkan pertanyaan dalam lapisan perhatian, dan kemudian membuat ramalan berdasarkan pembenaman label dalam lapisan MLP. Artikel ini telah disertakan dalam ICML 2024. .
-
Pembelajaran konteks (ICL) ialah paradigma pembelajaran baharu yang sangat popular dalam model bahasa besar (LLM). Ia secara khusus merujuk kepada menambah N contoh ujian sampel ujian (konteks) sebelum pertanyaan ujian (pertanyaan ujian)
, iaitu gabungan input ujian dan output ujian - , dengan itu membentuk gesaan ujian:
sebagai input model untuk membimbing model Membuat inferens yang betul. Kaedah ini berbeza daripada kaedah klasik untuk menyempurnakan model yang telah dilatih. Ia tidak memerlukan perubahan berat model, menjadikannya lebih cekap.
Banyak kerja teori terkini adalah berdasarkan rangka kerja penyelidikan yang dicadangkan oleh [1], iaitu, orang ramai boleh terus menggunakan format segera untuk melatih Transformer (langkah ini juga boleh difahami sebagai simulasi Mod pra-latihan LLM yang dipermudahkan), dengan itu menjadikan model tersebut mempunyai keupayaan ICL. Kerja teori sedia ada memberi tumpuan kepada kuasa ekspresif model [2]. Mereka mendapati bahawa seseorang boleh mencari Transformer dengan parameter "sempurna" yang boleh melaksanakan ICL melalui operasi ke hadapan dan juga secara tersirat melaksanakan algoritma pembelajaran mesin klasik seperti keturunan kecerunan. Tetapi kerja-kerja ini tidak dapat menjawab mengapa Transformer boleh dilatih untuk parameter "sempurna" sedemikian dengan keupayaan ICL. Oleh itu, terdapat juga beberapa karya cuba memahami mekanisme ICL dari perspektif latihan atau generalisasi Transformer [3,4]. Walau bagaimanapun, disebabkan oleh kerumitan menganalisis struktur Transformer, kerja-kerja ini kini berhenti pada mengkaji tugas regresi linear, dan model yang dipertimbangkan biasanya menghilangkan bahagian bukan linear Transformer.
Artikel ini menganalisis keupayaan dan mekanisme ICL Transformer dengan perhatian tak linear dan MLP dari perspektif pengoptimuman dan teori generalisasi:
Berdasarkan model klasifikasi yang dipermudahkan, artikel ini secara khusus mengukur bagaimana ciri-ciri data mempengaruhi a keupayaan generalisasi ICL dalam domain dan luar domain (OOD) Transformer kepala tunggal lapisan. Artikel ini menerangkan lagi cara ICL dilaksanakan melalui Transformer terlatih.
Berdasarkan ciri Transformer terlatih, artikel ini juga menganalisis kebolehlaksanaan menggunakan pemangkasan model berasaskan magnitud semasa inferens ICL.
. Untuk menyelesaikan masalah sedemikian, artikel ini membina segera untuk pembelajaran. Gesaan di sini diwakili sebagai:Melatih rangkaian sebagai Transformer kepala tunggal lapisan tunggal:
Proses pra-latihan adalah untuk menyelesaikan pengurangan risiko empirikal untuk semua tugas latihan. Fungsi kehilangan menggunakan Hinge loss, yang sesuai untuk masalah klasifikasi binari, dan algoritma latihan ialah keturunan kecerunan stokastik.
Artikel ini mentakrifkan dua kes generalisasi ICL. Satu adalah dalam domain, iaitu, pengedaran data ujian adalah sama dengan data latihan semasa generalisasi Perhatikan bahawa dalam kes ini, tugas ujian tidak perlu sama dengan tugas latihan, iaitu generalisasi tugas ghaib telah dipertimbangkan di sini. Satu lagi adalah di luar domain, iaitu, pengedaran data ujian dan latihan adalah berbeza.
Artikel ini juga melibatkan analisis pemangkasan berasaskan magnitud semasa inferens ICL Kaedah pemangkasan di sini merujuk kepada pemadaman setiap neuron yang diperolehi dengan latihan dari kecil ke besar mengikut amplitudnya.
Pembinaan data dan tugas
corak IDR dan corak IDI. A
ialah corak IDR dan
ialah corak IDI. Tugas yang dilakukan di sini adalah untuk mengelaskan berdasarkandalam x Jika ia adalah , maka labelnya ialah + 1, yang sepadan dengan +q, maka labelnya ialah - 1, yang sepadan dengan -q. α, α' ditakrifkan sebagai contoh konteks dalam gesaan latihan dan ujian yang masing-masing sama dengan pola IDR/ODR pertanyaan. Dalam contoh di bawah, .
Hasil teori
Pertama sekali, untuk situasi dalam domain, artikel ini terlebih dahulu memberi syarat 3.2 untuk menetapkan syarat-syarat yang perlu dipenuhi oleh tugas latihan, iaitu tugas latihan perlu meliputi semua corak IDR dan label. Maka keputusan dalam domain adalah seperti berikut:
Ini menunjukkan: 1. Bilangan tugas latihan hanya perlu mengambil kira sebahagian kecil daripada semua tugas yang memenuhi syarat 3.2, dan kita boleh mencapai generalisasi tugas yang tidak kelihatan yang baik. ; 2. Semakin tinggi perkadaran pola IDR yang berkaitan dengan tugas semasa dalam gesaan, generalisasi yang ideal boleh dicapai dengan kurang data latihan, bilangan lelaran latihan dan gesaan latihan/pengujian yang lebih pendek.
Seterusnya ialah hasil generalisasi di luar domain.
Dijelaskan di sini bahawa jika pola ODR adalah gabungan linear corak IDR dan jumlah pekali lebih besar daripada 1, maka generalisasi OOD ICL boleh mencapai kesan yang ideal pada masa ini. Keputusan ini memberikan sambungan intrinsik antara latihan dan data ujian yang diperlukan untuk generalisasi OOD yang baik di bawah rangka kerja ICL. Teorem ini juga telah disahkan oleh eksperimen pada GPT-2. Seperti yang ditunjukkan dalam rajah di bawah, apabila jumlah pekali dalam (12) lebih besar daripada 1, pengelasan OOD boleh mencapai hasil yang ideal. Pada masa yang sama, apabila
, iaitu, apabila perkadaran pola ODR/IDR yang berkaitan dengan tugasan pengelasan dalam gesaan adalah lebih tinggi, panjang konteks yang diperlukan adalah lebih kecil.
Kemudian, kertas kerja ini memberikan keputusan generalisasi ICL dengan pemangkasan berasaskan magnitud.
Hasil ini menunjukkan bahawa, pertama sekali, beberapa (kadaran malar) neuron dalam terlatih mempunyai amplitud kecil, manakala yang selebihnya agak besar (Persamaan 14). Apabila kita hanya mencantas neuron kecil, pada asasnya tiada kesan ke atas keputusan generalisasi Apabila perkadaran pemangkasan meningkat kepada pemangkasan neuron besar, ralat generalisasi akan meningkat dengan ketara (Formula 15, 16). Eksperimen berikut mengesahkan Teorem 3.7. Garis menegak biru muda dalam Rajah A di bawah mewakili
yang diperoleh melalui latihan dan membentangkan keputusan Formula 14. Walau bagaimanapun, pemangkasan neuron kecil tidak akan memburukkan generalisasi ini adalah konsisten dengan teori. Rajah B menunjukkan bahawa apabila terdapat lebih banyak konteks berkaitan tugas dalam gesaan, kami boleh membenarkan nisbah pemangkasan yang lebih besar untuk mencapai prestasi generalisasi yang sama.
Mekanisme ICL
Dengan mencirikan proses pra-latihan, artikel ini memperoleh mekanisme dalaman Transformer tak linear kepala tunggal satu lapisan untuk ICL, yang terdapat dalam Bahagian 4 artikel asal. Proses ini boleh diwakili oleh rajah di bawah.
Ringkasnya, lapisan perhatian akan memilih konteks yang sama seperti pola ODR/IDR pertanyaan, memberikan mereka hampir semua wajaran perhatian, dan kemudian lapisan MLP akan memfokus pada membuat klasifikasi akhir berdasarkan pembenaman label dalam output lapisan perhatian.
Ringkasan
Artikel ini menerangkan mekanisme latihan Transformer tak linear dalam ICL, serta keupayaan generalisasinya kepada tugas baharu dan data anjakan pengedaran. Keputusan teori mempunyai kepentingan praktikal tertentu untuk mereka bentuk algoritma pemilihan segera dan algoritma pemangkasan LLM.
参考文献
[1] Garg, et al., Neurips 2022. "Apakah yang boleh dipelajari oleh transformer dalam konteks? kajian kes kelas fungsi mudah."
Von Oswald et al., ICML 2023. "Transformer belajar dalam konteks mengikut keturunan kecerunan."
[3] Zhang et al., JMLR 2024. "Transformer terlatih mempelajari model linear dalam konteks."
[4] Huang et al., ICML 2024. "Penumpuan dalam konteks transformer."
Atas ialah kandungan terperinci ICML 2024 |. Mendedahkan mekanisme pembelajaran Transformer bukan linear dan generalisasi dalam pembelajaran kontekstual. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

Video Face Swap
Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas











Tetapi mungkin dia tidak dapat mengalahkan lelaki tua di taman itu? Sukan Olimpik Paris sedang rancak berlangsung, dan pingpong telah menarik perhatian ramai. Pada masa yang sama, robot juga telah membuat penemuan baru dalam bermain pingpong. Sebentar tadi, DeepMind mencadangkan ejen robot pembelajaran pertama yang boleh mencapai tahap pemain amatur manusia dalam pingpong yang kompetitif. Alamat kertas: https://arxiv.org/pdf/2408.03906 Sejauh manakah robot DeepMind bermain pingpong? Mungkin setanding dengan pemain amatur manusia: kedua-dua pukulan depan dan pukulan kilas: pihak lawan menggunakan pelbagai gaya permainan, dan robot juga boleh bertahan: servis menerima dengan putaran yang berbeza: Walau bagaimanapun, keamatan permainan nampaknya tidak begitu sengit seperti lelaki tua di taman itu. Untuk robot, pingpong

Pada 21 Ogos, Persidangan Robot Dunia 2024 telah diadakan dengan megah di Beijing. Jenama robot rumah SenseTime "Yuanluobot SenseRobot" telah memperkenalkan seluruh keluarga produknya, dan baru-baru ini mengeluarkan robot permainan catur AI Yuanluobot - Edisi Profesional Catur (selepas ini dirujuk sebagai "Yuanluobot SenseRobot"), menjadi robot catur A pertama di dunia untuk rumah. Sebagai produk robot permainan catur ketiga Yuanluobo, robot Guoxiang baharu telah melalui sejumlah besar peningkatan teknikal khas dan inovasi dalam AI dan jentera kejuruteraan Buat pertama kalinya, ia telah menyedari keupayaan untuk mengambil buah catur tiga dimensi melalui cakar mekanikal pada robot rumah, dan melaksanakan Fungsi mesin manusia seperti bermain catur, semua orang bermain catur, semakan notasi, dsb.

Permulaan sekolah akan bermula, dan bukan hanya pelajar yang akan memulakan semester baharu yang harus menjaga diri mereka sendiri, tetapi juga model AI yang besar. Beberapa ketika dahulu, Reddit dipenuhi oleh netizen yang mengadu Claude semakin malas. "Tahapnya telah banyak menurun, ia sering berhenti seketika, malah output menjadi sangat singkat. Pada minggu pertama keluaran, ia boleh menterjemah dokumen penuh 4 halaman sekaligus, tetapi kini ia tidak dapat mengeluarkan separuh halaman pun. !" https:// www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/ dalam siaran bertajuk "Totally disappointed with Claude", penuh dengan

Pada Persidangan Robot Dunia yang diadakan di Beijing, paparan robot humanoid telah menjadi tumpuan mutlak di gerai Stardust Intelligent, pembantu robot AI S1 mempersembahkan tiga persembahan utama dulcimer, seni mempertahankan diri dan kaligrafi dalam. satu kawasan pameran, berkebolehan kedua-dua sastera dan seni mempertahankan diri, menarik sejumlah besar khalayak profesional dan media. Permainan elegan pada rentetan elastik membolehkan S1 menunjukkan operasi halus dan kawalan mutlak dengan kelajuan, kekuatan dan ketepatan. CCTV News menjalankan laporan khas mengenai pembelajaran tiruan dan kawalan pintar di sebalik "Kaligrafi Pengasas Syarikat Lai Jie menjelaskan bahawa di sebalik pergerakan sutera, bahagian perkakasan mengejar kawalan daya terbaik dan penunjuk badan yang paling menyerupai manusia (kelajuan, beban). dll.), tetapi di sisi AI, data pergerakan sebenar orang dikumpulkan, membolehkan robot menjadi lebih kuat apabila ia menghadapi situasi yang kuat dan belajar untuk berkembang dengan cepat. Dan tangkas

Pada persidangan ACL ini, para penyumbang telah mendapat banyak keuntungan. ACL2024 selama enam hari diadakan di Bangkok, Thailand. ACL ialah persidangan antarabangsa teratas dalam bidang linguistik pengiraan dan pemprosesan bahasa semula jadi Ia dianjurkan oleh Persatuan Antarabangsa untuk Linguistik Pengiraan dan diadakan setiap tahun. ACL sentiasa menduduki tempat pertama dalam pengaruh akademik dalam bidang NLP, dan ia juga merupakan persidangan yang disyorkan CCF-A. Persidangan ACL tahun ini adalah yang ke-62 dan telah menerima lebih daripada 400 karya termaju dalam bidang NLP. Petang semalam, persidangan itu mengumumkan kertas kerja terbaik dan anugerah lain. Kali ini, terdapat 7 Anugerah Kertas Terbaik (dua tidak diterbitkan), 1 Anugerah Kertas Tema Terbaik, dan 35 Anugerah Kertas Cemerlang. Persidangan itu turut menganugerahkan 3 Anugerah Kertas Sumber (ResourceAward) dan Anugerah Impak Sosial (

Penyepaduan mendalam penglihatan dan pembelajaran robot. Apabila dua tangan robot bekerja bersama-sama dengan lancar untuk melipat pakaian, menuang teh dan mengemas kasut, ditambah pula dengan 1X robot humanoid NEO yang telah menjadi tajuk berita baru-baru ini, anda mungkin mempunyai perasaan: kita seolah-olah memasuki zaman robot. Malah, pergerakan sutera ini adalah hasil teknologi robotik canggih + reka bentuk bingkai yang indah + model besar berbilang modal. Kami tahu bahawa robot yang berguna sering memerlukan interaksi yang kompleks dan indah dengan alam sekitar, dan persekitaran boleh diwakili sebagai kekangan dalam domain spatial dan temporal. Sebagai contoh, jika anda ingin robot menuang teh, robot terlebih dahulu perlu menggenggam pemegang teko dan memastikannya tegak tanpa menumpahkan teh, kemudian gerakkannya dengan lancar sehingga mulut periuk sejajar dengan mulut cawan. , dan kemudian condongkan teko pada sudut tertentu. ini

Pengenalan Persidangan Dengan perkembangan pesat sains dan teknologi, kecerdasan buatan telah menjadi kuasa penting dalam menggalakkan kemajuan sosial. Dalam era ini, kami bertuah untuk menyaksikan dan mengambil bahagian dalam inovasi dan aplikasi Kecerdasan Buatan Teragih (DAI). Kecerdasan buatan yang diedarkan adalah cabang penting dalam bidang kecerdasan buatan, yang telah menarik lebih banyak perhatian dalam beberapa tahun kebelakangan ini. Agen berdasarkan model bahasa besar (LLM) tiba-tiba muncul Dengan menggabungkan pemahaman bahasa yang kuat dan keupayaan penjanaan model besar, mereka telah menunjukkan potensi besar dalam interaksi bahasa semula jadi, penaakulan pengetahuan, perancangan tugas, dsb. AIAgent mengambil alih model bahasa besar dan telah menjadi topik hangat dalam kalangan AI semasa. Au

Petang ini, Hongmeng Zhixing secara rasmi mengalu-alukan jenama baharu dan kereta baharu. Pada 6 Ogos, Huawei mengadakan persidangan pelancaran produk baharu Hongmeng Smart Xingxing S9 dan senario penuh Huawei, membawakan sedan perdana pintar panoramik Xiangjie S9, M7Pro dan Huawei novaFlip baharu, MatePad Pro 12.2 inci, MatePad Air baharu, Huawei Bisheng With banyak produk pintar semua senario baharu termasuk pencetak laser siri X1, FreeBuds6i, WATCHFIT3 dan skrin pintar S5Pro, daripada perjalanan pintar, pejabat pintar kepada pakaian pintar, Huawei terus membina ekosistem pintar senario penuh untuk membawa pengguna pengalaman pintar Internet Segala-galanya. Hongmeng Zhixing: Pemerkasaan mendalam untuk menggalakkan peningkatan industri kereta pintar Huawei berganding bahu dengan rakan industri automotif China untuk menyediakan
