Kumpulan Tsinghua NLP mengeluarkan InfLLM: Tiada latihan tambahan diperlukan, 'konteks ultra-panjang 1024K' 100% ingat semula!-AI-php.cn

Jadual Kandungan

Ringkasan

Rumah

Kumpulan Tsinghua NLP mengeluarkan InfLLM: Tiada latihan tambahan diperlukan, 'konteks ultra-panjang 1024K' 100% ingat semula!

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Mar 11, 2024 pm 02:40 PM

ai Model

Model besar hanya boleh mengingati dan memahami konteks terhad, yang telah menjadi had utama dalam aplikasi praktikal mereka. Sebagai contoh, sistem AI perbualan selalunya tidak dapat mengingati kandungan perbualan hari sebelumnya secara berterusan, yang mengakibatkan ejen yang dibina menggunakan model besar menunjukkan tingkah laku dan ingatan yang tidak konsisten.

Untuk membolehkan model besar mengendalikan konteks yang lebih panjang dengan lebih baik, penyelidik mencadangkan kaedah baharu yang dipanggil InfLLM. Kaedah ini, yang dicadangkan bersama oleh penyelidik dari Universiti Tsinghua, MIT, dan Universiti Renmin, membolehkan model bahasa besar (LLM) mengendalikan teks yang sangat panjang tanpa latihan tambahan. InfLLM menggunakan sejumlah kecil sumber pengkomputeran dan overhed memori grafik untuk mencapai pemprosesan yang cekap bagi teks yang sangat panjang.

Kumpulan Tsinghua NLP mengeluarkan InfLLM: Tiada latihan tambahan diperlukan, konteks ultra-panjang 1024K 100% ingat semula!

Alamat kertas: https://arxiv.org/abs/2402.04617

Repositori kod: https://github.com/thunlp/InfLLMExperience boleh menunjukkan keputusan InfLLM

berkesan Ia sangat meluaskan tetingkap pemprosesan konteks Mistral dan LLaMA, dan mencapai 100% ingatan dalam tugas mencari jarum dalam timbunan jerami konteks 1024K.

Latar Belakang Penyelidikan

Model bahasa pra-latihan berskala besar (LLM) telah mencapai kemajuan cemerlang dalam banyak tugas sejak beberapa tahun kebelakangan ini dan menjadi model asas untuk banyak aplikasi.

Aplikasi praktikal ini juga menimbulkan cabaran yang lebih tinggi kepada keupayaan LLM untuk memproses jujukan yang panjang. Sebagai contoh, ejen yang didorong oleh LLM perlu terus memproses maklumat yang diterima daripada persekitaran luaran, yang memerlukannya mempunyai keupayaan ingatan yang lebih kuat. Pada masa yang sama, AI perbualan perlu lebih mengingati kandungan perbualan dengan pengguna untuk menjana respons yang lebih diperibadikan.

Walau bagaimanapun, model berskala besar semasa biasanya hanya pra-latihan pada jujukan yang mengandungi ribuan Token, yang membawa kepada dua cabaran utama apabila menggunakannya pada teks yang sangat panjang:

1 panjang : Menggunakan LLM secara langsung pada teks yang lebih panjang selalunya memerlukan LLM untuk memproses pengekodan kedudukan di luar julat latihan, mengakibatkan masalah Luar Pengedaran dan kegagalan untuk membuat generalisasi; Konteks yang terlalu panjang akan menyebabkan perhatian model terlalu terganggu kepada maklumat yang tidak berkaitan, menjadikannya mustahil untuk memodelkan kebergantungan semantik jarak jauh secara berkesan dalam konteks.

Pengenalan Kaedah

Skema InfLLM

Untuk mencapai kebolehan generalisasi panjang model besar dengan cekap, penulis mencadangkan kaedah peningkatan memori yang sangat panjang, tanpa latihan untuk penstriman.

Kumpulan Tsinghua NLP mengeluarkan InfLLM: Tiada latihan tambahan diperlukan, konteks ultra-panjang 1024K 100% ingat semula!

InfLLM bertujuan untuk merangsang keupayaan intrinsik LLM untuk menangkap kebergantungan semantik jarak jauh dalam konteks ultra-panjang dengan kos pengiraan terhad, dengan itu membolehkan pemahaman teks panjang yang cekap.

Rangka kerja keseluruhan: Memandangkan jarang perhatian teks yang panjang, pemprosesan setiap Token biasanya hanya memerlukan sebahagian kecil daripada konteksnya.

Pengarang membina modul memori luaran untuk menyimpan maklumat konteks ultra-panjang menggunakan mekanisme tetingkap gelongsor, pada setiap langkah pengiraan, hanya Token (Token Tempatan) yang hampir dengan Token semasa berkaitan dengan jumlah yang kecil dalam modul memori luaran Maklumat terlibat dalam pengiraan lapisan perhatian, manakala bunyi lain yang tidak berkaitan diabaikan.

Oleh itu, LLM boleh menggunakan saiz tetingkap terhad untuk memahami keseluruhan urutan yang panjang dan mengelakkan bunyi bising.

Walau bagaimanapun, konteks besar dalam jujukan ultra-panjang membawa cabaran ketara kepada lokasi maklumat berkaitan yang berkesan dan kecekapan carian memori dalam modul memori.

Untuk menangani cabaran ini, setiap unit memori dalam modul memori kontekstual terdiri daripada blok semantik, dan blok semantik terdiri daripada beberapa Token berturut-turut.

Secara khusus, (1) Untuk mengesan unit memori yang berkaitan dengan berkesan, semantik koheren setiap blok semantik boleh memenuhi keperluan pertanyaan maklumat yang berkaitan dengan lebih berkesan daripada Token berpecah-belah.

Di samping itu, penulis memilih Token yang paling penting secara semantik daripada setiap blok semantik, iaitu Token yang menerima skor perhatian tertinggi, sebagai perwakilan blok semantik Kaedah ini membantu mengelakkan ketidaktepatan dalam pengiraan korelasi . Gangguan daripada token penting.

(2) Untuk carian memori yang cekap, unit memori pada tahap blok semantik mengelakkan pengiraan korelasi token demi token dan perhatian demi perhatian, mengurangkan kerumitan pengiraan.

Selain itu, unit memori peringkat blok semantik memastikan akses memori berterusan dan mengurangkan kos pemuatan memori.

Terima kasih kepada ini, pengarang mereka bentuk mekanisme pemunggahan (Offloading) yang cekap untuk modul memori konteks.

Memandangkan kebanyakan unit memori jarang digunakan, InfLLM memunggah semua unit memori ke memori CPU dan secara dinamik menyimpan unit memori yang kerap digunakan dalam memori GPU, sekali gus mengurangkan penggunaan memori video dengan ketara.

InfLLM boleh diringkaskan sebagai:

1 Berdasarkan tetingkap gelongsor, tambah modul memori konteks jarak jauh.

2. Bahagikan konteks sejarah kepada ketulan semantik untuk membentuk unit memori dalam modul memori konteks. Setiap unit memori menentukan token perwakilan melalui skor perhatiannya dalam pengiraan perhatian sebelumnya, sebagai perwakilan unit memori. Dengan itu mengelakkan gangguan hingar dalam konteks dan mengurangkan kerumitan pertanyaan memori

Analisis eksperimen

Pengarang menggunakannya pada model Mistral-7b-Inst-v0.2 (32K) dan Vicuna-7b-v1.5 (4K) InfLLM , menggunakan saiz tetingkap tempatan masing-masing 4K dan 2K.

Berbanding dengan model asal, interpolasi pengekodan kedudukan, Infinite-LM dan StreamingLLM, peningkatan prestasi ketara telah dicapai pada data teks panjang Infinite-Bench dan Longbench.

Kumpulan Tsinghua NLP mengeluarkan InfLLM: Tiada latihan tambahan diperlukan, konteks ultra-panjang 1024K 100% ingat semula!

Percubaan pada teks yang sangat panjang

Selain itu, pengarang terus meneroka keupayaan generalisasi InfLLM pada teks yang lebih panjang, dan ia masih boleh beraksi dalam "stackle" " tugas sepanjang 1024K Kekalkan kadar ingatan semula 100%.

Kumpulan Tsinghua NLP mengeluarkan InfLLM: Tiada latihan tambahan diperlukan, konteks ultra-panjang 1024K 100% ingat semula!

Hasil eksperimen mencari jarum dalam timbunan jerami

Ringkasan

Dalam artikel ini, pasukan mencadangkan InfLLM, yang boleh mengembangkan latihan jarak jauh LLM dan boleh menangkap pemprosesan teks jarak jauh ultra-panjang maklumat .

InfLLM menambah modul memori yang mengandungi maklumat konteks jarak jauh berdasarkan tetingkap gelongsor, dan menggunakan mekanisme cache dan offload untuk melaksanakan penstriman penaakulan teks panjang dengan sedikit pengiraan dan penggunaan memori.

Atas ialah kandungan terperinci Kumpulan Tsinghua NLP mengeluarkan InfLLM: Tiada latihan tambahan diperlukan, 'konteks ultra-panjang 1024K' 100% ingat semula!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

2 minggu yang lalu By DDD

R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Cara Membuka Segala -galanya Di Myrise

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7457

Tutorial CakePHP

1376

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi

Related knowledge

Kaedah apa yang digunakan untuk menukar rentetan ke dalam objek dalam vue.js? Apr 07, 2025 pm 09:39 PM

Apabila menukar rentetan ke objek dalam vue.js, json.parse () lebih disukai untuk rentetan json standard. Untuk rentetan JSON yang tidak standard, rentetan boleh diproses dengan menggunakan ungkapan biasa dan mengurangkan kaedah mengikut format atau url yang dikodkan. Pilih kaedah yang sesuai mengikut format rentetan dan perhatikan isu keselamatan dan pengekodan untuk mengelakkan pepijat.

Cara Menggunakan MySQL Selepas Pemasangan Apr 08, 2025 am 11:48 AM

Artikel ini memperkenalkan operasi pangkalan data MySQL. Pertama, anda perlu memasang klien MySQL, seperti MySqlworkbench atau Command Line Client. 1. Gunakan perintah MySQL-Uroot-P untuk menyambung ke pelayan dan log masuk dengan kata laluan akaun root; 2. Gunakan CreateTatabase untuk membuat pangkalan data, dan gunakan Pilih pangkalan data; 3. Gunakan createtable untuk membuat jadual, menentukan medan dan jenis data; 4. Gunakan InsertInto untuk memasukkan data, data pertanyaan, kemas kini data dengan kemas kini, dan padam data dengan padam. Hanya dengan menguasai langkah -langkah ini, belajar menangani masalah biasa dan mengoptimumkan prestasi pangkalan data anda boleh menggunakan MySQL dengan cekap.

Cara menyelesaikan MySQL tidak dapat dimulakan Apr 08, 2025 pm 02:21 PM

Terdapat banyak sebab mengapa permulaan MySQL gagal, dan ia boleh didiagnosis dengan memeriksa log ralat. Penyebab umum termasuk konflik pelabuhan (periksa penghunian pelabuhan dan ubah suai konfigurasi), isu kebenaran (periksa keizinan pengguna yang menjalankan perkhidmatan), ralat fail konfigurasi (periksa tetapan parameter), rasuah direktori data (memulihkan data atau membina semula ruang meja), isu ruang jadual InnoDB (semak fail ibdata1) Apabila menyelesaikan masalah, anda harus menganalisisnya berdasarkan log ralat, cari punca utama masalah, dan mengembangkan tabiat sandaran data secara teratur untuk mencegah dan menyelesaikan masalah.

Geospatial Laravel: Pengoptimuman peta interaktif dan sejumlah besar data Apr 08, 2025 pm 12:24 PM

Cecair memproses 7 juta rekod dan membuat peta interaktif dengan teknologi geospatial. Artikel ini meneroka cara memproses lebih dari 7 juta rekod menggunakan Laravel dan MySQL dan mengubahnya menjadi visualisasi peta interaktif. Keperluan Projek Cabaran Awal: Ekstrak Wawasan berharga menggunakan 7 juta rekod dalam pangkalan data MySQL. Ramai orang mula -mula mempertimbangkan bahasa pengaturcaraan, tetapi mengabaikan pangkalan data itu sendiri: Bolehkah ia memenuhi keperluan? Adakah penghijrahan data atau pelarasan struktur diperlukan? Bolehkah MySQL menahan beban data yang besar? Analisis awal: Penapis utama dan sifat perlu dikenalpasti. Selepas analisis, didapati bahawa hanya beberapa atribut yang berkaitan dengan penyelesaiannya. Kami mengesahkan kemungkinan penapis dan menetapkan beberapa sekatan untuk mengoptimumkan carian. Carian Peta Berdasarkan Bandar

Vue.js Bagaimana untuk menukar pelbagai jenis rentetan ke dalam pelbagai objek? Apr 07, 2025 pm 09:36 PM

Ringkasan: Terdapat kaedah berikut untuk menukar array rentetan vue.js ke dalam tatasusunan objek: Kaedah asas: Gunakan fungsi peta yang sesuai dengan data yang diformat biasa. Permainan lanjutan: Menggunakan ungkapan biasa boleh mengendalikan format yang kompleks, tetapi mereka perlu ditulis dengan teliti dan dipertimbangkan. Pengoptimuman Prestasi: Memandangkan banyak data, operasi tak segerak atau perpustakaan pemprosesan data yang cekap boleh digunakan. Amalan Terbaik: Gaya Kod Jelas, Gunakan nama dan komen pembolehubah yang bermakna untuk memastikan kod ringkas.

Cara menetapkan masa tamat vue axios Apr 07, 2025 pm 10:03 PM

Untuk menetapkan masa untuk Vue Axios, kita boleh membuat contoh Axios dan menentukan pilihan masa tamat: dalam tetapan global: vue.prototype. $ Axios = axios.create ({timeout: 5000}); Dalam satu permintaan: ini. $ axios.get ('/api/pengguna', {timeout: 10000}).

Cara mengoptimumkan prestasi pangkalan data selepas pemasangan MySQL Apr 08, 2025 am 11:36 AM

Pengoptimuman prestasi MySQL perlu bermula dari tiga aspek: konfigurasi pemasangan, pengindeksan dan pengoptimuman pertanyaan, pemantauan dan penalaan. 1. Selepas pemasangan, anda perlu menyesuaikan fail my.cnf mengikut konfigurasi pelayan, seperti parameter innodb_buffer_pool_size, dan tutup query_cache_size; 2. Buat indeks yang sesuai untuk mengelakkan indeks yang berlebihan, dan mengoptimumkan pernyataan pertanyaan, seperti menggunakan perintah menjelaskan untuk menganalisis pelan pelaksanaan; 3. Gunakan alat pemantauan MySQL sendiri (ShowProcessList, ShowStatus) untuk memantau kesihatan pangkalan data, dan kerap membuat semula dan mengatur pangkalan data. Hanya dengan terus mengoptimumkan langkah -langkah ini, prestasi pangkalan data MySQL diperbaiki.

Jurutera Backend Senior Remote (Platform) memerlukan kalangan Apr 08, 2025 pm 12:27 PM

Jurutera Backend Senior Remote Company Kekosongan Syarikat: Lokasi Lokasi: Jauh Pejabat Jauh Jenis: Gaji sepenuh masa: $ 130,000- $ 140,000 Penerangan Pekerjaan Mengambil bahagian dalam penyelidikan dan pembangunan aplikasi mudah alih Circle dan ciri-ciri berkaitan API awam yang meliputi keseluruhan kitaran hayat pembangunan perisian. Tanggungjawab utama kerja pembangunan secara bebas berdasarkan rubyonrails dan bekerjasama dengan pasukan react/redux/relay front-end. Membina fungsi teras dan penambahbaikan untuk aplikasi web dan bekerjasama rapat dengan pereka dan kepimpinan sepanjang proses reka bentuk berfungsi. Menggalakkan proses pembangunan positif dan mengutamakan kelajuan lelaran. Memerlukan lebih daripada 6 tahun backend aplikasi web kompleks

See all articles