Rumah > Peranti teknologi > AI > Matematik di belakang pembelajaran dalam konteks

Matematik di belakang pembelajaran dalam konteks

王林
Lepaskan: 2025-02-26 00:03:10
asal
643 orang telah melayarinya

Pembelajaran In-Context (ICL), ciri utama model bahasa besar moden (LLMS), membolehkan transformer menyesuaikan diri berdasarkan contoh-contoh dalam prompt input. Beberapa tembakan yang mendorong, menggunakan beberapa contoh tugas, dengan berkesan menunjukkan tingkah laku yang dikehendaki. Tetapi bagaimana transformer mencapai penyesuaian ini? Artikel ini meneroka mekanisme yang berpotensi di belakang ICL.

The Math Behind In-Context Learning

Inti ICL adalah: diberikan pasangan contoh ((x, y)), boleh mekanisme perhatian mempelajari algoritma untuk memetakan pertanyaan baru (x) ke output mereka (y)?

perhatian softmax dan carian jiran terdekat

Formula Perhatian SoftMax adalah:

The Math Behind In-Context Learning memperkenalkan parameter suhu songsang,

c

, mengubah peruntukan perhatian:

sebagai The Math Behind In-Context Learning c

mendekati tak terhingga, perhatian menjadi vektor satu panas, hanya memberi tumpuan kepada token yang paling serupa-berkesan carian jiran terdekat. Dengan terhingga

c , perhatian menyerupai pelicinan kernel Gaussian. Ini menunjukkan ICL mungkin melaksanakan algoritma jiran terdekat pada pasangan input-output. Implikasi dan penyelidikan selanjutnya

Memahami Bagaimana Transformers Belajar Algoritma (seperti jiran terdekat) Membuka pintu untuk AUTOML. Hollmann et al. Menunjukkan Latihan Pengubah pada dataset sintetik untuk mempelajari keseluruhan saluran paip AUTOML, meramalkan model optimum dan hiperparameter dari data baru dalam satu pas.

Penyelidikan Anthropic's 2022 mencadangkan "kepala induksi" sebagai mekanisme. Pasangan kepala perhatian ini menyalin dan corak lengkap; Sebagai contoh, diberi "... a, b ... a", mereka meramalkan "b" berdasarkan konteks terdahulu.

Kajian baru -baru ini (Garg et al 2022, Oswald et al 2023) menghubungkan ICL Transformers ke keturunan kecerunan. Perhatian linear, menghilangkan operasi softmax:

menyerupai keturunan kecerunan prasyarat (PGD):

The Math Behind In-Context Learning

Satu lapisan perhatian linear melakukan satu langkah PGD.

Kesimpulan The Math Behind In-Context Learning

Mekanisme perhatian dapat melaksanakan algoritma pembelajaran, yang membolehkan ICL dengan belajar dari pasangan demonstrasi. Walaupun interaksi pelbagai lapisan perhatian dan MLP adalah kompleks, penyelidikan memberi penerangan tentang mekanik ICL. Artikel ini menawarkan gambaran keseluruhan tahap pandangan ini.

Bacaan Lanjut:
  • kepala pembelajaran dan induksi dalam konteks
  • Apa yang boleh dilakukan oleh Transformers dalam konteks? Kajian kes kelas fungsi mudah
  • Transformers Belajar dalam konteks oleh keturunan kecerunan
  • Transformers belajar melaksanakan keturunan kecerunan prasyarat untuk pembelajaran dalam konteks

Pengakuan

Artikel ini diilhamkan oleh Kursus Kursus Siswazah 2024 di University of Michigan. Sebarang kesilapan semata -mata penulis.

Atas ialah kandungan terperinci Matematik di belakang pembelajaran dalam konteks. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan