Jadual Kandungan
Mengapa GPT Boleh Saya belajar dalam Konteks?
Hasil eksperimen
Ringkasan
Rumah Peranti teknologi AI Mengapakah Pembelajaran Dalam Konteks, didorong oleh GPT, berfungsi? Model melakukan penurunan kecerunan secara rahsia

Mengapakah Pembelajaran Dalam Konteks, didorong oleh GPT, berfungsi? Model melakukan penurunan kecerunan secara rahsia

Apr 25, 2023 pm 10:16 PM
gpt Model

Berikutan BERT, penyelidik mendapati potensi model pra-latihan berskala besar, dan tugas pra-latihan yang berbeza, seni bina model, strategi latihan, dsb. telah dicadangkan. Walau bagaimanapun, model jenis BERT biasanya mempunyai dua kelemahan utama: satu adalah terlalu bergantung pada data berlabel;

Untuk lebih spesifik, model bahasa semasa cenderung mempunyai rangka kerja dua peringkat, iaitu pra-latihan + penalaan halus tugas hiliran, tetapi sejumlah besar sampel diperlukan semasa proses penalaan halus untuk tugas hiliran , jika tidak, kesannya sangat lemah, tetapi kos pelabelan data adalah tinggi. Terdapat juga data berlabel terhad, dan model hanya boleh memuatkan pengedaran data latihan Walau bagaimanapun, jika terdapat kurang data, ia adalah mudah untuk menyebabkan overfitting, yang akan mengurangkan keupayaan generalisasi model.

Sebagai perintis model besar, model bahasa pra-latihan berskala besar, terutamanya GPT-3, telah menunjukkan keupayaan ICL (Pembelajaran Dalam Konteks) yang mengejutkan. Tidak seperti penalaan halus, yang memerlukan kemas kini parameter tambahan, ICL hanya memerlukan beberapa pasangan "label input" demonstrasi dan model boleh meramalkan label walaupun untuk label input yang tidak kelihatan. Dalam banyak tugas hiliran, model GPT yang besar boleh mencapai prestasi yang agak baik, malah mengatasi beberapa model kecil dengan penalaan halus yang diselia.

Mengapa ICL berprestasi begitu baik dalam kertas lebih daripada 70 halaman "Model Bahasa adalah Sedikit Pelajar" daripada OpenAI, mereka meneroka ICL gunakan kurang data domain dan selesaikan masalah tanpa penalaan halus.

Seperti yang ditunjukkan dalam rajah di bawah, ICL merangkumi tiga kategori: Pembelajaran beberapa pukulan, yang membenarkan input beberapa contoh dan huraian tugasan, yang hanya membenarkan input satu contoh dan Penerangan tugasan Zero-shot tidak membenarkan input sebarang contoh, hanya penerangan tugasan dibenarkan. Keputusan menunjukkan bahawa ICL tidak memerlukan perambatan balik dan hanya perlu meletakkan sebilangan kecil sampel berlabel dalam konteks teks input untuk mendorong GPT-3 kepada jawapan output.

被GPT带飞的In-Context Learning为什么起作用?模型在秘密执行梯度下降

Pembelajaran dalam konteks GPT-3

Eksperimen menunjukkan bahawa GPT-3 berprestasi sangat baik di bawah Few-shot:

被GPT带飞的In-Context Learning为什么起作用?模型在秘密执行梯度下降

Mengapa GPT Boleh Saya belajar dalam Konteks?

Di sebalik kejayaan besar ICL dari segi prestasi, mekanisme kerjanya masih menjadi masalah terbuka untuk dikaji. Untuk lebih memahami cara ICL berfungsi, kami seterusnya memperkenalkan cara kajian dari Universiti Peking, Universiti Tsinghua dan institusi lain menerangkannya.

被GPT带飞的In-Context Learning为什么起作用?模型在秘密执行梯度下降

  • Alamat kertas: https://arxiv.org/pdf/2212.10559v2.pdf
  • Alamat projek: https://github.com/microsoft/LMOps

Untuk meringkaskan dalam perkataan netizen, Iaitu: "Kerja ini menunjukkan bahawa GPT secara semula jadi belajar menggunakan pengoptimuman dalaman untuk melaksanakan larian tertentu. Penyelidikan ini juga menyediakan bukti empirikal bahawa Pembelajaran Dalam Konteks dan penalaan halus eksplisit berprestasi serupa pada pelbagai peringkat."

Untuk lebih memahami cara ICL berfungsi, kajian ini menerangkan model bahasa sebagai pengoptimum meta, ICL sebagai proses pengoptimuman meta dan ICL sebagai Penalaan Halus tersirat, cuba mewujudkan hubungan antara GPT- berasaskan ICL dan penalaan halus. Secara teorinya, kajian mendapati perhatian Transformer mempunyai bentuk pengoptimuman dwi berdasarkan keturunan kecerunan.

Berdasarkan perkara ini, kajian ini mencadangkan perspektif baharu untuk menerangkan ICL: GPT mula-mula menjana kecerunan meta berdasarkan contoh demonstrasi, dan kemudian menggunakan kecerunan meta ini pada GPT asal untuk membina Model ICL.

Seperti yang ditunjukkan dalam Rajah 1, ICL dan penalaan halus eksplisit berkongsi borang pengoptimuman dwi berdasarkan keturunan kecerunan. Satu-satunya perbezaan ialah ICL menghasilkan kecerunan meta melalui pengiraan ke hadapan, manakala penalaan halus mengira kecerunan dengan perambatan belakang. Oleh itu, adalah munasabahuntuk memahami ICL sebagai sejenis penalaan halus tersirat.

被GPT带飞的In-Context Learning为什么起作用?模型在秘密执行梯度下降

ICR melakukan penalaan halus tersirat

Kajian pertama kali menjalankan analisis kualitatif Perhatian transformer dalam bentuk perhatian linear santai untuk mencari dualitinya dengan pengoptimuman berasaskan keturunan kecerunan. Kajian itu kemudiannya membandingkan ICL dengan penalaan halus yang jelas dan mewujudkan hubungan antara kedua-dua bentuk pengoptimuman ini. Berdasarkan penemuan teori ini, mereka mencadangkan untuk memahami ICL sebagai penalaan halus tersirat.

Pertama sekali, kajian ini menganggap perhatian Transforme sebagai pengoptimuman meta dan mentafsir ICL sebagai proses pengoptimuman meta: (1) Model bahasa pra-terlatih berdasarkan Transformer berfungsi sebagai pengoptimum meta; ( 2) Hasilkan kecerunan meta berdasarkan contoh melalui pengiraan hadapan; (3) Gunakan kecerunan meta pada model bahasa asal melalui perhatian untuk membina ICL.

Seterusnya ialah perbandingan ICL dan penalaan halus. Merentasi pelbagai tetapan, kajian mendapati bahawa ICL berkongsi banyak sifat dengan penalaan halus. Mereka menyusun persamaan ini dari empat aspek berikut: kedua-duanya melakukan turunan kecerunan yang sama dengan contoh latihan yang sama;

Memandangkan semua sifat biasa antara ICL dan penalaan halus, kajian ini berpendapat bahawa adalah munasabah untuk memahami ICL sebagai penalaan halus tersirat. Dalam baki kertas ini, kajian secara empirik membandingkan ICL dan penalaan halus dari pelbagai aspek untuk memberikan hasil kuantitatif yang menyokong pemahaman ini.

Hasil eksperimen

Kajian ini menjalankan satu siri eksperimen untuk membandingkan secara menyeluruh tingkah laku ICL dan penalaan halus yang jelas berdasarkan tugasan sebenar, mereka GPT pra-latihan dibandingkan dalam tetapan ICL dan diperhalusi berkenaan dengan ramalan, output perhatian dan skor perhatian. Seperti yang dijangkakan, ICL sangat serupa dengan penalaan halus yang jelas dari segi ramalan, perwakilan dan tahap perhatian. Keputusan ini sangat menyokong kebolehpercayaan ini: ICL melakukan penalaan halus tersirat.

Di samping itu, diilhamkan oleh pemahaman pengoptimuman meta, penyelidikan ini mereka bentuk perhatian berasaskan momentum dengan analogi dengan algoritma penurunan kecerunan berasaskan momentum. Ia secara konsisten mengatasi prestasi perhatian vanila.

Jadual 2 menunjukkan ketepatan pengesahan dalam tetapan ZSL (Zero-Shot Learning), ICL dan penalaan halus (FT) pada enam set data pengelasan. Kedua-dua ICL dan penalaan halus mencapai peningkatan yang ketara berbanding dengan ZSL, yang bermaksud bahawa pengoptimuman yang dibuat membantu tugasan hiliran ini. Tambahan pula, kajian mendapati bahawa ICL berprestasi lebih baik daripada penalaan halus dalam senario beberapa syot.

被GPT带飞的In-Context Learning为什么起作用?模型在秘密执行梯度下降

Skor Rec2FTP bagi 2 model GPT pada 6 set data ditunjukkan dalam Jadual 3. Secara purata, ICL boleh meramalkan dengan betul 87.64% daripada contoh daripada ZSL yang boleh diperbetulkan oleh penalaan halus. Keputusan ini menunjukkan bahawa pada tahap ramalan, ICL boleh merangkumi kebanyakan tingkah laku penalaan halus yang betul.

Jadual 3 juga menunjukkan purata skor SimAOU untuk contoh dan lapisan 2 model GPT pada 6 set data. Sebagai perbandingan, kajian ini juga menyediakan metrik garis dasar (Random SimAOU) yang mengira persamaan antara kemas kini ICL dan kemas kini yang dijana secara rawak. Seperti yang dapat dilihat daripada jadual, kemas kini ICL lebih serupa dengan kemas kini yang diperhalusi daripada kemas kini rawak, yang bermaksud bahawa pada peringkat perwakilan, ICL cenderung untuk menukar hasil perhatian ke arah perubahan yang diperhalusi.

Akhir sekali, Jadual 3 juga menunjukkan purata skor SimAM untuk contoh dan lapisan 2 model GPT pada 6 set data. Sebagai metrik garis dasar untuk SimAM, ZSL SimAM mengira persamaan antara pemberat perhatian ICL dan pemberat perhatian ZSL. Dengan membandingkan kedua-dua metrik, kajian mendapati bahawa ICL lebih cenderung untuk menjana pemberat perhatian yang serupa dengan penalaan halus berbanding ZSL. Juga pada tahap tingkah laku perhatian, kajian ini menunjukkan bahawa ICL berkelakuan seperti dorongan.

被GPT带飞的In-Context Learning为什么起作用?模型在秘密执行梯度下降

Untuk meneroka persamaan antara ICL dan penalaan halus dengan lebih teliti, kajian ini membandingkan skor SimAOU dan SimAM merentas lapisan yang berbeza. Dengan mengambil sampel secara rawak 50 contoh pengesahan daripada setiap set data, plot kotak SimAOU dan SimAM telah dilukis seperti yang ditunjukkan dalam Rajah 2 dan Rajah 3 di bawah, masing-masing.

Ia boleh didapati daripada angka bahawa SimAOU dan SimAM turun naik pada lapisan bawah dan cenderung lebih stabil pada lapisan yang lebih tinggi. Fenomena ini menggambarkan bahawa pengoptimuman meta yang dilakukan oleh ICL mempunyai kesan pengumpulan ke hadapan, dan apabila pengumpulan meningkat, ICL berkelakuan lebih seperti penalaan halus pada lapisan yang lebih tinggi.

被GPT带飞的In-Context Learning为什么起作用?模型在秘密执行梯度下降

被GPT带飞的In-Context Learning为什么起作用?模型在秘密执行梯度下降

Ringkasan

Ringkasnya, artikel ini bertujuan untuk menerangkan cara kerja ICL berasaskan pada mekanisme GPT. Secara teorinya, kajian ini mengetahui bentuk dwi ICL dan mencadangkan untuk memahami ICL sebagai proses pengoptimuman meta. Tambahan pula, kajian ini mewujudkan hubungan antara ICL dan tetapan penalaan halus khusus, mendapati adalah munasabah untuk menganggap ICL sebagai penalaan halus tersirat. Untuk menyokong pemahaman penalaan halus tersirat yang dilakukan oleh ICL, kajian ini secara komprehensif membandingkan tingkah laku ICL dan penalaan halus berasaskan tugas dunia sebenar. Ternyata ICL serupa dengan penalaan halus yang jelas.

Selain itu, diilhamkan oleh pengoptimuman meta, kajian ini mereka bentuk perhatian berasaskan momentum untuk mencapai peningkatan prestasi yang konsisten. Penulis berharap kajian ini dapat membantu lebih ramai orang mendapatkan pandangan tentang aplikasi ICL dan reka bentuk model.

Atas ialah kandungan terperinci Mengapakah Pembelajaran Dalam Konteks, didorong oleh GPT, berfungsi? Model melakukan penurunan kecerunan secara rahsia. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Akan R.E.P.O. Ada Crossplay?
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Model MoE sumber terbuka paling berkuasa di dunia ada di sini, dengan keupayaan bahasa Cina setanding dengan GPT-4, dan harganya hanya hampir satu peratus daripada GPT-4-Turbo Model MoE sumber terbuka paling berkuasa di dunia ada di sini, dengan keupayaan bahasa Cina setanding dengan GPT-4, dan harganya hanya hampir satu peratus daripada GPT-4-Turbo May 07, 2024 pm 04:13 PM

Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

Apr 09, 2024 am 11:52 AM

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

Google gembira: prestasi JAX mengatasi Pytorch dan TensorFlow! Ia mungkin menjadi pilihan terpantas untuk latihan inferens GPU Google gembira: prestasi JAX mengatasi Pytorch dan TensorFlow! Ia mungkin menjadi pilihan terpantas untuk latihan inferens GPU Apr 01, 2024 pm 07:46 PM

Prestasi JAX, yang dipromosikan oleh Google, telah mengatasi Pytorch dan TensorFlow dalam ujian penanda aras baru-baru ini, menduduki tempat pertama dalam 7 penunjuk. Dan ujian tidak dilakukan pada TPU dengan prestasi JAX terbaik. Walaupun dalam kalangan pembangun, Pytorch masih lebih popular daripada Tensorflow. Tetapi pada masa hadapan, mungkin lebih banyak model besar akan dilatih dan dijalankan berdasarkan platform JAX. Model Baru-baru ini, pasukan Keras menanda aras tiga hujung belakang (TensorFlow, JAX, PyTorch) dengan pelaksanaan PyTorch asli dan Keras2 dengan TensorFlow. Pertama, mereka memilih satu set arus perdana

Hello, Atlas elektrik! Robot Boston Dynamics hidup semula, gerakan pelik 180 darjah menakutkan Musk Hello, Atlas elektrik! Robot Boston Dynamics hidup semula, gerakan pelik 180 darjah menakutkan Musk Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

KAN, yang menggantikan MLP, telah diperluaskan kepada konvolusi oleh projek sumber terbuka KAN, yang menggantikan MLP, telah diperluaskan kepada konvolusi oleh projek sumber terbuka Jun 01, 2024 pm 10:03 PM

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

Robot Tesla bekerja di kilang, Musk: Tahap kebebasan tangan akan mencapai 22 tahun ini! Robot Tesla bekerja di kilang, Musk: Tahap kebebasan tangan akan mencapai 22 tahun ini! May 06, 2024 pm 04:13 PM

Video terbaru robot Tesla Optimus dikeluarkan, dan ia sudah boleh berfungsi di kilang. Pada kelajuan biasa, ia mengisih bateri (bateri 4680 Tesla) seperti ini: Pegawai itu juga mengeluarkan rupanya pada kelajuan 20x - pada "stesen kerja" kecil, memilih dan memilih dan memilih: Kali ini ia dikeluarkan Salah satu sorotan video itu ialah Optimus menyelesaikan kerja ini di kilang, sepenuhnya secara autonomi, tanpa campur tangan manusia sepanjang proses. Dan dari perspektif Optimus, ia juga boleh mengambil dan meletakkan bateri yang bengkok, memfokuskan pada pembetulan ralat automatik: Berkenaan tangan Optimus, saintis NVIDIA Jim Fan memberikan penilaian yang tinggi: Tangan Optimus adalah robot lima jari di dunia paling cerdik. Tangannya bukan sahaja boleh disentuh

FisheyeDetNet: algoritma pengesanan sasaran pertama berdasarkan kamera fisheye FisheyeDetNet: algoritma pengesanan sasaran pertama berdasarkan kamera fisheye Apr 26, 2024 am 11:37 AM

Pengesanan objek ialah masalah yang agak matang dalam sistem pemanduan autonomi, antaranya pengesanan pejalan kaki adalah salah satu algoritma terawal untuk digunakan. Penyelidikan yang sangat komprehensif telah dijalankan dalam kebanyakan kertas kerja. Walau bagaimanapun, persepsi jarak menggunakan kamera fisheye untuk pandangan sekeliling agak kurang dikaji. Disebabkan herotan jejari yang besar, perwakilan kotak sempadan standard sukar dilaksanakan dalam kamera fisheye. Untuk mengurangkan perihalan di atas, kami meneroka kotak sempadan lanjutan, elips dan reka bentuk poligon am ke dalam perwakilan kutub/sudut dan mentakrifkan metrik mIOU pembahagian contoh untuk menganalisis perwakilan ini. Model fisheyeDetNet yang dicadangkan dengan bentuk poligon mengatasi model lain dan pada masa yang sama mencapai 49.5% mAP pada set data kamera fisheye Valeo untuk pemanduan autonomi

DualBEV: mengatasi BEVFormer dan BEVDet4D dengan ketara, buka buku! DualBEV: mengatasi BEVFormer dan BEVDet4D dengan ketara, buka buku! Mar 21, 2024 pm 05:21 PM

Kertas kerja ini meneroka masalah mengesan objek dengan tepat dari sudut pandangan yang berbeza (seperti perspektif dan pandangan mata burung) dalam pemanduan autonomi, terutamanya cara mengubah ciri dari perspektif (PV) kepada ruang pandangan mata burung (BEV) dengan berkesan dilaksanakan melalui modul Transformasi Visual (VT). Kaedah sedia ada secara amnya dibahagikan kepada dua strategi: penukaran 2D kepada 3D dan 3D kepada 2D. Kaedah 2D-ke-3D meningkatkan ciri 2D yang padat dengan meramalkan kebarangkalian kedalaman, tetapi ketidakpastian yang wujud dalam ramalan kedalaman, terutamanya di kawasan yang jauh, mungkin menimbulkan ketidaktepatan. Manakala kaedah 3D ke 2D biasanya menggunakan pertanyaan 3D untuk mencuba ciri 2D dan mempelajari berat perhatian bagi kesesuaian antara ciri 3D dan 2D melalui Transformer, yang meningkatkan masa pengiraan dan penggunaan.

See all articles