Kotak input 32k GPT-4 masih tidak mencukupi? Unlimiformer memanjangkan panjang konteks kepada panjang tak terhingga-AI-php.cn

Jadual Kandungan

Prinsip teknikal Unlimiformer

Hasil eksperimen

Rumah

Peranti teknologi

Kotak input 32k GPT-4 masih tidak mencukupi? Unlimiformer memanjangkan panjang konteks kepada panjang tak terhingga

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

May 19, 2023 pm 03:19 PM

ai gpt-4

Transformer ialah seni bina seq2seq yang paling berkuasa pada masa ini. Transformer terlatih biasanya mempunyai tetingkap konteks 512 (cth. BERT) atau 1024 (cth. BART), yang cukup panjang untuk kebanyakan set data ringkasan teks semasa (XSum, CNN/DM).

Tetapi 16384 bukanlah had atas panjang konteks yang diperlukan untuk menjana: tugasan yang melibatkan naratif panjang seperti ringkasan buku (Krys-´cinski et al., 2021) atau soalan naratif menjawab (Kociskýet al. ., 2018), biasanya memasukkan lebih daripada 100,000 token. Set cabaran yang dijana daripada artikel Wikipedia (Liu* et al., 2018) mengandungi input lebih daripada 500,000 token. Tugas domain terbuka dalam menjawab soalan generatif boleh mensintesis maklumat daripada input yang lebih besar, seperti menjawab soalan tentang sifat agregat artikel oleh semua pengarang hidup di Wikipedia. Rajah 1 memplotkan saiz beberapa set data ringkasan dan Soal Jawab yang popular terhadap panjang tetingkap konteks biasa, input terpanjang adalah lebih daripada 34 kali lebih panjang daripada tetingkap konteks Longformer.

Kotak input 32k GPT-4 masih tidak mencukupi? Unlimiformer memanjangkan panjang konteks kepada panjang tak terhingga

Dalam kes input yang sangat panjang ini, pengubah vanila tidak boleh berskala kerana mekanisme perhatian asli mempunyai kerumitan magnitud kuadratik . Transformer input panjang, walaupun lebih cekap daripada transformer standard, masih memerlukan sumber pengiraan yang ketara yang meningkat apabila saiz tetingkap konteks meningkat. Tambahan pula, meningkatkan tetingkap konteks memerlukan latihan semula model dari awal dengan saiz tetingkap konteks baharu, yang mahal dari segi pengiraan dan alam sekitar.

Dalam artikel "Unlimiformer: Transformer Jarak Jauh dengan Input Panjang Tanpa Had", penyelidik dari Carnegie Mellon University memperkenalkan Unlimiformer. Ini ialah pendekatan berasaskan perolehan yang menambah model bahasa pra-latihan untuk menerima input panjang tak terhingga pada masa ujian.

Kotak input 32k GPT-4 masih tidak mencukupi? Unlimiformer memanjangkan panjang konteks kepada panjang tak terhingga

Pautan kertas: https://arxiv.org/pdf/2305.01625v1.pdf

Unlimiformer boleh disuntik ke dalam mana-mana pengubah pengekod-penyahkod sedia ada dan boleh mengendalikan input dengan panjang tanpa had. Memandangkan urutan input yang panjang, Unlimiformer boleh membina stor data pada keadaan tersembunyi semua token input. Mekanisme rentas perhatian standard penyahkod kemudiannya dapat menanyakan stor data dan memfokus pada token input k teratas. Stor data boleh disimpan dalam memori GPU atau CPU dan boleh disoal secara sub-linear.

Unlimiformer boleh digunakan terus kepada model terlatih dan boleh menambah baik pusat pemeriksaan sedia ada tanpa sebarang latihan lanjut. Prestasi Unlimiformer akan dipertingkatkan lagi selepas penalaan halus. Makalah ini menunjukkan bahawa Unlimiformer boleh digunakan pada berbilang model asas, seperti BART (Lewis et al., 2020a) atau PRIMERA (Xiao et al., 2022), tanpa menambah pemberat dan latihan semula. Dalam pelbagai set data seq2seq jarak jauh, Unlimiformer bukan sahaja lebih kuat daripada Transformer jarak jauh seperti Longformer (Beltagy et al., 2020b), SLED (Ivgi et al., 2022) dan Transformer Memorizing (Wu et al., 2021). ) pada set data ini Prestasinya lebih baik, dan artikel ini juga mendapati Unlimiform boleh digunakan di atas model pengekod Longformer untuk membuat penambahbaikan selanjutnya.

Prinsip teknikal Unlimiformer

Memandangkan saiz tetingkap konteks pengekod ditetapkan, panjang input maksimum Transformer adalah terhad. Walau bagaimanapun, semasa penyahkodan, maklumat yang berbeza mungkin relevan tambahan pula, ketua perhatian yang berbeza mungkin menumpukan pada jenis maklumat yang berbeza (Clark et al., 2019). Oleh itu, tetingkap konteks tetap mungkin membazirkan usaha pada token yang perhatiannya kurang tertumpu.

Pada setiap langkah penyahkodan, setiap kepala perhatian dalam Unlimiformer memilih tetingkap konteks yang berasingan daripada keseluruhan input. Ini dicapai dengan menyuntik carian Unlimiformer ke dalam penyahkod: sebelum memasuki modul perhatian silang, model melakukan carian jiran terdekat (kNN) dalam stor data luaran, memilih set setiap kepala perhatian dalam setiap lapisan penyahkod. token untuk mengambil bahagian.

Pengekodan

Untuk mengekod jujukan input lebih panjang daripada panjang tetingkap konteks model, kertas ini mengekodkan blok bertindih input mengikut kaedah Ivgi et al (2022) (Ivgi et al., 2022) , hanya Separuh tengah output untuk setiap bahagian dikekalkan untuk memastikan konteks yang mencukupi sebelum dan selepas proses pengekodan. Akhir sekali, artikel ini menggunakan perpustakaan seperti Faiss (Johnson et al., 2019) untuk mengindeks input yang dikodkan dalam stor data (Johnson et al., 2019).

Dapatkan semula mekanisme perhatian silang yang dipertingkatkan

Dalam mekanisme perhatian silang standard, penyahkod pengubah Fokus pada keadaan tersembunyi terakhir pengekod, pengekod biasanya memotong input dan mengekod hanya token k pertama dalam urutan input.

Artikel ini bukan sahaja menumpukan pada token k pertama input Untuk setiap kepala perhatian silang, ia mendapatkan semula keadaan tersembunyi pertama bagi siri input yang lebih panjang, dan hanya memfokus pada k token pertama ini. Ini membolehkan kata kunci diambil daripada keseluruhan jujukan input dan bukannya memotong kata kunci. Pendekatan kami juga lebih murah dari segi pengiraan dan memori GPU daripada memproses semua token input, sambil lazimnya mengekalkan lebih 99% prestasi perhatian.

Rajah 2 menunjukkan perubahan artikel ini kepada seni bina pengubah seq2seq. Input lengkap dikodkan blok menggunakan pengekod dan disimpan dalam stor data keadaan terpendam yang dikodkan kemudiannya disoal semasa penyahkodan. Carian kNN adalah bukan parametrik dan boleh disuntik ke dalam mana-mana pengubah seq2seq yang telah dilatih, seperti yang diperincikan di bawah.

Kotak input 32k GPT-4 masih tidak mencukupi? Unlimiformer memanjangkan panjang konteks kepada panjang tak terhingga

Hasil eksperimen

Ringkasan dokumen yang panjang

Jadual 3 menunjukkan keputusan dalam set data ringkasan teks panjang (4k dan 16k input token).

Kotak input 32k GPT-4 masih tidak mencukupi? Unlimiformer memanjangkan panjang konteks kepada panjang tak terhingga

Antara kaedah latihan dalam Jadual 4, Unlimiformer boleh mencapai prestasi optimum dalam pelbagai penunjuk.

Kotak input 32k GPT-4 masih tidak mencukupi? Unlimiformer memanjangkan panjang konteks kepada panjang tak terhingga

Ringkasan Buku

Pertunjukan Jadual 5 Keputusan pada abstrak buku. Dapat dilihat bahawa berdasarkan BARTbase dan PRIMERA, menggunakan Unlimiformer boleh mencapai hasil peningkatan tertentu.

Kotak input 32k GPT-4 masih tidak mencukupi? Unlimiformer memanjangkan panjang konteks kepada panjang tak terhingga

Atas ialah kandungan terperinci Kotak input 32k GPT-4 masih tidak mencukupi? Unlimiformer memanjangkan panjang konteks kepada panjang tak terhingga. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

2 minggu yang lalu By DDD

R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Cara Membuka Segala -galanya Di Myrise

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7467

Tutorial CakePHP

1376

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi

Related knowledge

Geospatial Laravel: Pengoptimuman peta interaktif dan sejumlah besar data Apr 08, 2025 pm 12:24 PM

Cecair memproses 7 juta rekod dan membuat peta interaktif dengan teknologi geospatial. Artikel ini meneroka cara memproses lebih dari 7 juta rekod menggunakan Laravel dan MySQL dan mengubahnya menjadi visualisasi peta interaktif. Keperluan Projek Cabaran Awal: Ekstrak Wawasan berharga menggunakan 7 juta rekod dalam pangkalan data MySQL. Ramai orang mula -mula mempertimbangkan bahasa pengaturcaraan, tetapi mengabaikan pangkalan data itu sendiri: Bolehkah ia memenuhi keperluan? Adakah penghijrahan data atau pelarasan struktur diperlukan? Bolehkah MySQL menahan beban data yang besar? Analisis awal: Penapis utama dan sifat perlu dikenalpasti. Selepas analisis, didapati bahawa hanya beberapa atribut yang berkaitan dengan penyelesaiannya. Kami mengesahkan kemungkinan penapis dan menetapkan beberapa sekatan untuk mengoptimumkan carian. Carian Peta Berdasarkan Bandar

Cara menyelesaikan MySQL tidak dapat dimulakan Apr 08, 2025 pm 02:21 PM

Terdapat banyak sebab mengapa permulaan MySQL gagal, dan ia boleh didiagnosis dengan memeriksa log ralat. Penyebab umum termasuk konflik pelabuhan (periksa penghunian pelabuhan dan ubah suai konfigurasi), isu kebenaran (periksa keizinan pengguna yang menjalankan perkhidmatan), ralat fail konfigurasi (periksa tetapan parameter), rasuah direktori data (memulihkan data atau membina semula ruang meja), isu ruang jadual InnoDB (semak fail ibdata1) Apabila menyelesaikan masalah, anda harus menganalisisnya berdasarkan log ralat, cari punca utama masalah, dan mengembangkan tabiat sandaran data secara teratur untuk mencegah dan menyelesaikan masalah.

Cara Menggunakan MySQL Selepas Pemasangan Apr 08, 2025 am 11:48 AM

Artikel ini memperkenalkan operasi pangkalan data MySQL. Pertama, anda perlu memasang klien MySQL, seperti MySqlworkbench atau Command Line Client. 1. Gunakan perintah MySQL-Uroot-P untuk menyambung ke pelayan dan log masuk dengan kata laluan akaun root; 2. Gunakan CreateTatabase untuk membuat pangkalan data, dan gunakan Pilih pangkalan data; 3. Gunakan createtable untuk membuat jadual, menentukan medan dan jenis data; 4. Gunakan InsertInto untuk memasukkan data, data pertanyaan, kemas kini data dengan kemas kini, dan padam data dengan padam. Hanya dengan menguasai langkah -langkah ini, belajar menangani masalah biasa dan mengoptimumkan prestasi pangkalan data anda boleh menggunakan MySQL dengan cekap.

Jurutera Backend Senior Remote (Platform) memerlukan kalangan Apr 08, 2025 pm 12:27 PM

Jurutera Backend Senior Remote Company Kekosongan Syarikat: Lokasi Lokasi: Jauh Pejabat Jauh Jenis: Gaji sepenuh masa: $ 130,000- $ 140,000 Penerangan Pekerjaan Mengambil bahagian dalam penyelidikan dan pembangunan aplikasi mudah alih Circle dan ciri-ciri berkaitan API awam yang meliputi keseluruhan kitaran hayat pembangunan perisian. Tanggungjawab utama kerja pembangunan secara bebas berdasarkan rubyonrails dan bekerjasama dengan pasukan react/redux/relay front-end. Membina fungsi teras dan penambahbaikan untuk aplikasi web dan bekerjasama rapat dengan pereka dan kepimpinan sepanjang proses reka bentuk berfungsi. Menggalakkan proses pembangunan positif dan mengutamakan kelajuan lelaran. Memerlukan lebih daripada 6 tahun backend aplikasi web kompleks

Bolehkah mysql kembali json Apr 08, 2025 pm 03:09 PM

MySQL boleh mengembalikan data JSON. Fungsi JSON_EXTRACT mengekstrak nilai medan. Untuk pertanyaan yang kompleks, pertimbangkan untuk menggunakan klausa WHERE untuk menapis data JSON, tetapi perhatikan kesan prestasinya. Sokongan MySQL untuk JSON sentiasa meningkat, dan disyorkan untuk memberi perhatian kepada versi dan ciri terkini.

Memahami sifat asid: tiang pangkalan data yang boleh dipercayai Apr 08, 2025 pm 06:33 PM

Penjelasan terperinci mengenai atribut asid asid pangkalan data adalah satu set peraturan untuk memastikan kebolehpercayaan dan konsistensi urus niaga pangkalan data. Mereka menentukan bagaimana sistem pangkalan data mengendalikan urus niaga, dan memastikan integriti dan ketepatan data walaupun dalam hal kemalangan sistem, gangguan kuasa, atau pelbagai pengguna akses serentak. Gambaran keseluruhan atribut asid Atomicity: Transaksi dianggap sebagai unit yang tidak dapat dipisahkan. Mana -mana bahagian gagal, keseluruhan transaksi dilancarkan kembali, dan pangkalan data tidak mengekalkan sebarang perubahan. Sebagai contoh, jika pemindahan bank ditolak dari satu akaun tetapi tidak meningkat kepada yang lain, keseluruhan operasi dibatalkan. Begintransaction; UpdateAcCountSsetBalance = Balance-100Wh

Mysql tidak dapat dipasang setelah memuat turun Apr 08, 2025 am 11:24 AM

Sebab utama kegagalan pemasangan MySQL adalah: 1. Isu kebenaran, anda perlu menjalankan sebagai pentadbir atau menggunakan perintah sudo; 2. Ketergantungan hilang, dan anda perlu memasang pakej pembangunan yang relevan; 3. Konflik pelabuhan, anda perlu menutup program yang menduduki port 3306 atau mengubah suai fail konfigurasi; 4. Pakej pemasangan adalah korup, anda perlu memuat turun dan mengesahkan integriti; 5. Pembolehubah persekitaran dikonfigurasikan dengan salah, dan pembolehubah persekitaran mesti dikonfigurasi dengan betul mengikut sistem operasi. Selesaikan masalah ini dan periksa dengan teliti setiap langkah untuk berjaya memasang MySQL.

Kunci utama MySQL boleh menjadi batal Apr 08, 2025 pm 03:03 PM

Kunci utama MySQL tidak boleh kosong kerana kunci utama adalah atribut utama yang secara unik mengenal pasti setiap baris dalam pangkalan data. Jika kunci utama boleh kosong, rekod tidak dapat dikenal pasti secara unik, yang akan membawa kepada kekeliruan data. Apabila menggunakan lajur integer sendiri atau UUIDs sebagai kunci utama, anda harus mempertimbangkan faktor-faktor seperti kecekapan dan penghunian ruang dan memilih penyelesaian yang sesuai.

See all articles