Jadual Kandungan
Pengekodan kedudukan yang boleh diekstrapolasi
Kaedah ekstrapolasi dalam era model besar
Cabaran dan hala tuju masa hadapan
Rumah Peranti teknologi AI Aplikasi pengekodan kedudukan dalam Transformer: meneroka kemungkinan tak terhingga ekstrapolasi panjang

Aplikasi pengekodan kedudukan dalam Transformer: meneroka kemungkinan tak terhingga ekstrapolasi panjang

Jan 16, 2024 pm 06:42 PM
ai data

Dalam bidang pemprosesan bahasa semula jadi, model Transformer telah menarik banyak perhatian kerana prestasi pemodelan jujukannya yang sangat baik. Walau bagaimanapun, disebabkan oleh panjang konteks yang terhad semasa latihannya, ia mahupun model bahasanya yang besar berdasarkannya tidak dapat mengendalikan urutan yang melebihi had panjang ini dengan berkesan Ini dipanggil kekurangan keupayaan "ekstrapolasi panjang berkesan". Ini mengakibatkan model bahasa besar berprestasi buruk apabila memproses teks yang panjang, atau bahkan tidak dapat mengendalikannya. Bagi menyelesaikan masalah ini, penyelidik telah mencadangkan beberapa siri kaedah, seperti kaedah pemotongan, kaedah bersegmen dan kaedah hierarki. Kaedah ini bertujuan untuk meningkatkan keupayaan ekstrapolasi panjang berkesan model melalui beberapa helah, supaya ia boleh mengendalikan jujukan yang sangat panjang dengan lebih baik. Walaupun kaedah ini mengurangkan masalah ini pada tahap tertentu, lebih banyak kajian masih diperlukan untuk meningkatkan lagi keupayaan ekstrapolasi panjang berkesan model untuk menyesuaikan diri dengan lebih baik kepada keperluan senario aplikasi sebenar.

Sambungan teks dan sambungan bahasa adalah salah satu aspek penting dalam keupayaan bahasa manusia. Dalam era model besar, ekstrapolasi panjang telah menjadi kaedah penting untuk menggunakan keupayaan model dengan berkesan untuk data jujukan panjang. Penyelidikan mengenai isu ini mempunyai nilai teori dan praktikal, maka kerja berkaitan terus muncul. Pada masa yang sama, semakan sistematik juga diperlukan untuk memberikan gambaran keseluruhan bidang ini dan meluaskan sempadan model bahasa secara berterusan.

Penyelidik dari Institut Teknologi Harbin secara sistematik menyemak kemajuan penyelidikan model Transformer dalam ekstrapolasi panjang dari perspektif pengekodan kedudukan. Penyelidik memberi tumpuan terutamanya pada kod kedudukan ekstrapolasi dan kaedah lanjutan berdasarkan kod ini untuk meningkatkan keupayaan ekstrapolasi panjang model Transformer.

Aplikasi pengekodan kedudukan dalam Transformer: meneroka kemungkinan tak terhingga ekstrapolasi panjang

Pautan kertas: https://arxiv.org/abs/2312.17044

Pengekodan kedudukan yang boleh diekstrapolasi

Oleh itu, kerana setiap model tidak boleh menangkap maklumat dalam perkataan Transformer itu sendiri pengekodan kedudukan telah menjadi tambahan biasa. Pengekodan kedudukan boleh dibahagikan kepada dua jenis: pengekodan kedudukan mutlak dan pengekodan kedudukan relatif. Pengekodan kedudukan mutlak menambah vektor kedudukan pada setiap perkataan dalam urutan input untuk mewakili maklumat kedudukan mutlak perkataan dalam jujukan. Pengekodan kedudukan relatif mengekodkan jarak relatif antara setiap pasangan perkataan dalam kedudukan yang berbeza. Kedua-dua kaedah pengekodan boleh menyepadukan maklumat pesanan elemen dalam jujukan ke dalam model Transformer untuk meningkatkan prestasi model.

Aplikasi pengekodan kedudukan dalam Transformer: meneroka kemungkinan tak terhingga ekstrapolasi panjang

Memandangkan penyelidikan sedia ada menunjukkan bahawa pengelasan ini penting kepada keupayaan ekstrapolasi model, kami akan membahagikan bahagian ini mengikut klasifikasi ini.

Pengekodan kedudukan mutlak

Dalam kertas Transformer asal, pengekodan kedudukan dijana oleh fungsi sinus dan kosinus Kaedah ini, walaupun terbukti tidak mengekstrapolasi dengan baik, berfungsi sebagai Transformer A PE, sinus APE mempunyai kesan yang mendalam pada PE berikutnya.

Untuk meningkatkan keupayaan ekstrapolasi model Transformer, penyelidik sama ada menggabungkan invarian anjakan ke dalam APE sinusoidal melalui anjakan rawak, atau menjana benam kedudukan yang berbeza-beza dengan lancar mengikut kedudukan dan mengharapkan model belajar membuat kesimpulan fungsi yang berubah ini. Kaedah berdasarkan idea ini mempamerkan keupayaan ekstrapolasi yang lebih kuat daripada APE sinusoidal, tetapi masih tidak dapat mencapai tahap RPE. Salah satu sebabnya ialah APE memetakan kedudukan yang berbeza kepada benam kedudukan yang berbeza, dan ekstrapolasi bermakna model mesti membuat kesimpulan benam kedudukan yang tidak kelihatan. Walau bagaimanapun, ini adalah tugas yang sukar untuk model. Oleh kerana terdapat bilangan terhad pembenaman kedudukan yang muncul berulang kali semasa pra-latihan yang meluas, terutamanya dalam kes LLM, model ini sangat terdedah kepada overfitting pada pengekodan kedudukan ini. Pengekodan kedudukan relatif . Dalam beberapa tahun kebelakangan ini, RPE telah menjadi kaedah dominan untuk pengekodan maklumat kedudukan.

RPE awal datang daripada pengubahsuaian mudah kepada pengekodan kedudukan sinusoidal, selalunya digabungkan dengan strategi pemangkasan atau binning untuk mengelakkan benam kedudukan luar pengedaran, yang dianggap bermanfaat untuk ekstrapolasi. Tambahan pula, memandangkan RPE memisahkan surat-menyurat satu dengan satu antara kedudukan dan perwakilan kedudukan, menambah istilah berat sebelah terus kepada formula perhatian menjadi cara yang boleh dilaksanakan atau lebih baik untuk menyepadukan maklumat kedudukan ke dalam Transformer. Pendekatan ini lebih mudah dan secara semula jadi merungkai vektor nilai dan maklumat kedudukan. Walau bagaimanapun, walaupun kaedah pincang ini mempunyai sifat ekstrapolasi yang kuat, ia tidak boleh mewakili fungsi jarak yang kompleks seperti dalam RoPE (Pembenam Kedudukan Putar). Oleh itu, walaupun RoPE mempunyai ekstrapolasi yang lemah, ia telah menjadi pengekodan kedudukan paling arus perdana untuk LLM baru-baru ini kerana prestasi komprehensifnya yang cemerlang. Semua PE yang boleh diekstrapolasi yang diperkenalkan dalam kertas ditunjukkan dalam Jadual 1.

Aplikasi pengekodan kedudukan dalam Transformer: meneroka kemungkinan tak terhingga ekstrapolasi panjang

Kaedah ekstrapolasi dalam era model besar

Untuk meningkatkan keupayaan ekstrapolasi panjang LLM, penyelidik telah mencadangkan pelbagai kaedah berdasarkan pengekodan kedudukan sedia ada, terutamanya dibahagikan kepada interpolasi kedudukan Interpolasi) ) dan pengekodan kedudukan rawak (Pengekodan Kedudukan Rawak) dua kategori.

Kaedah interpolasi kedudukan

Kaedah interpolasi kedudukan menskalakan kod kedudukan semasa inferens, supaya kod kedudukan yang asalnya melebihi panjang latihan model jatuh ke dalam selang kedudukan terlatih selepas interpolasi. Kaedah interpolasi kedudukan telah menarik minat yang meluas daripada komuniti penyelidikan kerana prestasi ekstrapolasi yang sangat baik dan overhed yang sangat rendah. Tambahan pula, tidak seperti kaedah ekstrapolasi lain, kaedah interpolasi kedudukan telah digunakan secara meluas dalam model sumber terbuka, seperti Kod Llama, Qwen-7B dan Llama2. Walau bagaimanapun, kaedah interpolasi semasa hanya tertumpu pada RoPE, dan cara menjadikan LLM menggunakan PE lain mempunyai keupayaan ekstrapolasi yang lebih baik melalui interpolasi masih perlu diterokai.

Pengekodan Kedudukan Rawak

Ringkasnya, PE Rawak hanya memisahkan tetingkap konteks yang telah dilatih daripada panjang inferens yang lebih panjang dengan memperkenalkan kedudukan rawak semasa latihan, dengan itu meningkatkan prestasi jangka panjang tetingkap konteks. Perlu diingat bahawa idea PE rawak sangat berbeza daripada kaedah interpolasi kedudukan yang pertama bertujuan untuk membuat model memerhati semua kedudukan yang mungkin semasa latihan, manakala yang kedua cuba untuk menginterpolasi kedudukan semasa inferens supaya mereka jatuh ke dalam. lokasi yang telah ditetapkan. Atas sebab yang sama, kaedah interpolasi kedudukan kebanyakannya adalah plug-and-play, manakala PE rawak selalunya memerlukan penalaan lebih lanjut, yang menjadikan interpolasi kedudukan lebih menarik. Walau bagaimanapun, kedua-dua kategori kaedah ini tidak saling eksklusif, jadi ia boleh digabungkan untuk meningkatkan lagi keupayaan ekstrapolasi model.

Cabaran dan hala tuju masa hadapan

Set data penilaian dan penanda aras: Dalam penyelidikan awal, penilaian keupayaan ekstrapolasi Transformer datang daripada penunjuk penilaian prestasi UBLE seperti mesin penterjemahan seperti UBLE. Oleh kerana model bahasa seperti T5 dan GPT2 secara beransur-ansur menyatukan tugas pemprosesan bahasa semula jadi, kebingungan yang digunakan dalam pemodelan bahasa telah menjadi indeks penilaian untuk ekstrapolasi. Walau bagaimanapun, penyelidikan terkini menunjukkan bahawa kebingungan tidak dapat mendedahkan prestasi tugas hiliran, jadi terdapat keperluan mendesak untuk set data penanda aras khusus dan metrik penilaian untuk menggalakkan pembangunan selanjutnya dalam bidang ekstrapolasi panjang.

Penjelasan teori: Kerja semasa yang berkaitan dengan ekstrapolasi panjang kebanyakannya adalah empirikal Walaupun terdapat beberapa percubaan awal untuk menjelaskan ekstrapolasi model yang berjaya, asas teori yang kukuh masih belum diwujudkan Dan bagaimana prestasi ekstrapolasi panjang terjejas masih menjadi persoalan terbuka.

Kaedah lain: Seperti yang dinyatakan dalam artikel ini, kebanyakan kerja ekstrapolasi panjang sedia ada memfokuskan pada perspektif pengekodan kedudukan, tetapi tidak sukar untuk memahami bahawa ekstrapolasi panjang memerlukan reka bentuk yang sistematik. Pengekodan kedudukan adalah komponen utama, tetapi bukan satu-satunya, dan pandangan yang lebih luas akan merangsang lagi masalah.

Atas ialah kandungan terperinci Aplikasi pengekodan kedudukan dalam Transformer: meneroka kemungkinan tak terhingga ekstrapolasi panjang. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Arahan sembang dan cara menggunakannya
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Petua Konfigurasi Firewall Pelayan Mel Debian Petua Konfigurasi Firewall Pelayan Mel Debian Apr 13, 2025 am 11:42 AM

Mengkonfigurasi firewall pelayan Mail Debian adalah langkah penting dalam memastikan keselamatan pelayan. Berikut adalah beberapa kaedah konfigurasi firewall yang biasa digunakan, termasuk penggunaan iptables dan firewalld. Gunakan iptables untuk mengkonfigurasi firewall untuk memasang iptables (jika belum dipasang): sudoapt-getupdateudoapt-getinstalliplesview peraturan iptables semasa: konfigurasi sudoiptable-l

Bagaimana Debian Readdir Bersepadu Dengan Alat Lain Bagaimana Debian Readdir Bersepadu Dengan Alat Lain Apr 13, 2025 am 09:42 AM

Fungsi Readdir dalam sistem Debian adalah panggilan sistem yang digunakan untuk membaca kandungan direktori dan sering digunakan dalam pengaturcaraan C. Artikel ini akan menerangkan cara mengintegrasikan Readdir dengan alat lain untuk meningkatkan fungsinya. Kaedah 1: Menggabungkan Program Bahasa C dan Pipeline Pertama, tulis program C untuk memanggil fungsi Readdir dan output hasilnya:#termasuk#termasuk#includeintMain (intargc, char*argv []) {dir*dir; structdirent*entry; if (argc! = 2) {

Cara Melaksanakan Penyortiran Fail oleh Debian Readdir Cara Melaksanakan Penyortiran Fail oleh Debian Readdir Apr 13, 2025 am 09:06 AM

Dalam sistem Debian, fungsi Readdir digunakan untuk membaca kandungan direktori, tetapi urutan yang dikembalikannya tidak ditentukan sebelumnya. Untuk menyusun fail dalam direktori, anda perlu membaca semua fail terlebih dahulu, dan kemudian menyusunnya menggunakan fungsi QSORT. Kod berikut menunjukkan cara menyusun fail direktori menggunakan ReadDir dan QSORT dalam sistem Debian:#termasuk#termasuk#termasuk#termasuk // fungsi perbandingan adat, yang digunakan untuk qSortintCompare (Constvoid*A, Constvoid*b) {Returnstrcmp (*(*(*(*(*(*(*(*(*(*(*(*(*(*(*(*(*(

Kaedah pemasangan sijil SSL Server Server Debian Kaedah pemasangan sijil SSL Server Server Debian Apr 13, 2025 am 11:39 AM

Langkah -langkah untuk memasang sijil SSL pada pelayan mel Debian adalah seperti berikut: 1. Pasang OpenSSL Toolkit terlebih dahulu, pastikan bahawa OpenSSL Toolkit telah dipasang pada sistem anda. Jika tidak dipasang, anda boleh menggunakan arahan berikut untuk memasang: sudoapt-getupdateudoapt-getinstallopenssl2. Menjana permintaan kunci dan sijil peribadi seterusnya, gunakan OpenSSL untuk menjana kunci peribadi RSA 2048-bit dan permintaan sijil (CSR): Membuka

Cara Melakukan Pengesahan Tandatangan Digital dengan Debian Openssl Cara Melakukan Pengesahan Tandatangan Digital dengan Debian Openssl Apr 13, 2025 am 11:09 AM

Menggunakan OpenSSL untuk Pengesahan Tandatangan Digital pada Sistem Debian, anda boleh mengikuti langkah -langkah berikut: Penyediaan untuk memasang OpenSSL: Pastikan sistem Debian anda telah dipasang. Jika tidak dipasang, anda boleh menggunakan arahan berikut untuk memasangnya: sudoaptdateudoaptininstallopenssl untuk mendapatkan kunci awam: Pengesahan tandatangan digital memerlukan kunci awam penandatangan. Biasanya, kunci awam akan disediakan dalam bentuk fail, seperti public_key.pe

Bagaimana Debian OpenSSL Menghalang Serangan Man-dalam-Middle Bagaimana Debian OpenSSL Menghalang Serangan Man-dalam-Middle Apr 13, 2025 am 10:30 AM

Dalam sistem Debian, OpenSSL adalah perpustakaan penting untuk pengurusan penyulitan, penyahsulitan dan sijil. Untuk mengelakkan serangan lelaki-dalam-pertengahan (MITM), langkah-langkah berikut boleh diambil: Gunakan HTTPS: Pastikan semua permintaan rangkaian menggunakan protokol HTTPS dan bukannya HTTP. HTTPS menggunakan TLS (Protokol Keselamatan Lapisan Pengangkutan) untuk menyulitkan data komunikasi untuk memastikan data tidak dicuri atau diganggu semasa penghantaran. Sahkan Sijil Pelayan: Sahkan secara manual Sijil Pelayan pada klien untuk memastikan ia boleh dipercayai. Pelayan boleh disahkan secara manual melalui kaedah perwakilan urlSession

Cara Melakukan Pengurusan Log Debian Hadoop Cara Melakukan Pengurusan Log Debian Hadoop Apr 13, 2025 am 10:45 AM

Menguruskan Log Hadoop pada Debian, anda boleh mengikuti langkah-langkah berikut dan amalan terbaik: Agregasi log membolehkan pengagregatan log: tetapkan benang.log-agregasi-enable untuk benar dalam fail benang-site.xml untuk membolehkan pengagregatan log. Konfigurasikan dasar pengekalan log: tetapkan yarn.log-aggregasi.Retain-seconds Untuk menentukan masa pengekalan log, seperti 172800 saat (2 hari). Nyatakan Laluan Penyimpanan Log: Melalui Benang

Baris arahan shutdown centos Baris arahan shutdown centos Apr 14, 2025 pm 09:12 PM

Perintah shutdown CentOS adalah penutupan, dan sintaks adalah tutup [pilihan] [maklumat]. Pilihan termasuk: -h menghentikan sistem dengan segera; -P mematikan kuasa selepas penutupan; -r mulakan semula; -T Waktu Menunggu. Masa boleh ditentukan sebagai segera (sekarang), minit (minit), atau masa tertentu (HH: mm). Maklumat tambahan boleh dipaparkan dalam mesej sistem.

See all articles