Model besar hanya boleh mengingati dan memahami konteks terhad, yang telah menjadi had utama dalam aplikasi praktikal mereka. Sebagai contoh, sistem AI perbualan selalunya tidak dapat mengingati kandungan perbualan hari sebelumnya secara berterusan, yang mengakibatkan ejen yang dibina menggunakan model besar menunjukkan tingkah laku dan ingatan yang tidak konsisten.
Untuk membolehkan model besar mengendalikan konteks yang lebih panjang dengan lebih baik, penyelidik mencadangkan kaedah baharu yang dipanggil InfLLM. Kaedah ini, yang dicadangkan bersama oleh penyelidik dari Universiti Tsinghua, MIT, dan Universiti Renmin, membolehkan model bahasa besar (LLM) mengendalikan teks yang sangat panjang tanpa latihan tambahan. InfLLM menggunakan sejumlah kecil sumber pengkomputeran dan overhed memori grafik untuk mencapai pemprosesan yang cekap bagi teks yang sangat panjang.
Alamat kertas: https://arxiv.org/abs/2402.04617
Repositori kod: https://github.com/thunlp/InfLLMExperience boleh menunjukkan keputusan InfLLM
berkesan Ia sangat meluaskan tetingkap pemprosesan konteks Mistral dan LLaMA, dan mencapai 100% ingatan dalam tugas mencari jarum dalam timbunan jerami konteks 1024K.
Latar Belakang PenyelidikanModel bahasa pra-latihan berskala besar (LLM) telah mencapai kemajuan cemerlang dalam banyak tugas sejak beberapa tahun kebelakangan ini dan menjadi model asas untuk banyak aplikasi.
Aplikasi praktikal ini juga menimbulkan cabaran yang lebih tinggi kepada keupayaan LLM untuk memproses jujukan yang panjang. Sebagai contoh, ejen yang didorong oleh LLM perlu terus memproses maklumat yang diterima daripada persekitaran luaran, yang memerlukannya mempunyai keupayaan ingatan yang lebih kuat. Pada masa yang sama, AI perbualan perlu lebih mengingati kandungan perbualan dengan pengguna untuk menjana respons yang lebih diperibadikan.
Walau bagaimanapun, model berskala besar semasa biasanya hanya pra-latihan pada jujukan yang mengandungi ribuan Token, yang membawa kepada dua cabaran utama apabila menggunakannya pada teks yang sangat panjang:
1 panjang : Menggunakan LLM secara langsung pada teks yang lebih panjang selalunya memerlukan LLM untuk memproses pengekodan kedudukan di luar julat latihan, mengakibatkan masalah Luar Pengedaran dan kegagalan untuk membuat generalisasi; Konteks yang terlalu panjang akan menyebabkan perhatian model terlalu terganggu kepada maklumat yang tidak berkaitan, menjadikannya mustahil untuk memodelkan kebergantungan semantik jarak jauh secara berkesan dalam konteks.
Pengenalan KaedahSkema InfLLM
Untuk mencapai kebolehan generalisasi panjang model besar dengan cekap, penulis mencadangkan kaedah peningkatan memori yang sangat panjang, tanpa latihan untuk penstriman.InfLLM bertujuan untuk merangsang keupayaan intrinsik LLM untuk menangkap kebergantungan semantik jarak jauh dalam konteks ultra-panjang dengan kos pengiraan terhad, dengan itu membolehkan pemahaman teks panjang yang cekap.
Rangka kerja keseluruhan: Memandangkan jarang perhatian teks yang panjang, pemprosesan setiap Token biasanya hanya memerlukan sebahagian kecil daripada konteksnya.
Pengarang membina modul memori luaran untuk menyimpan maklumat konteks ultra-panjang menggunakan mekanisme tetingkap gelongsor, pada setiap langkah pengiraan, hanya Token (Token Tempatan) yang hampir dengan Token semasa berkaitan dengan jumlah yang kecil dalam modul memori luaran Maklumat terlibat dalam pengiraan lapisan perhatian, manakala bunyi lain yang tidak berkaitan diabaikan.
Oleh itu, LLM boleh menggunakan saiz tetingkap terhad untuk memahami keseluruhan urutan yang panjang dan mengelakkan bunyi bising.
Walau bagaimanapun, konteks besar dalam jujukan ultra-panjang membawa cabaran ketara kepada lokasi maklumat berkaitan yang berkesan dan kecekapan carian memori dalam modul memori.
Untuk menangani cabaran ini, setiap unit memori dalam modul memori kontekstual terdiri daripada blok semantik, dan blok semantik terdiri daripada beberapa Token berturut-turut.
Secara khusus, (1) Untuk mengesan unit memori yang berkaitan dengan berkesan, semantik koheren setiap blok semantik boleh memenuhi keperluan pertanyaan maklumat yang berkaitan dengan lebih berkesan daripada Token berpecah-belah.
Di samping itu, penulis memilih Token yang paling penting secara semantik daripada setiap blok semantik, iaitu Token yang menerima skor perhatian tertinggi, sebagai perwakilan blok semantik Kaedah ini membantu mengelakkan ketidaktepatan dalam pengiraan korelasi . Gangguan daripada token penting.
(2) Untuk carian memori yang cekap, unit memori pada tahap blok semantik mengelakkan pengiraan korelasi token demi token dan perhatian demi perhatian, mengurangkan kerumitan pengiraan.
Selain itu, unit memori peringkat blok semantik memastikan akses memori berterusan dan mengurangkan kos pemuatan memori.
Terima kasih kepada ini, pengarang mereka bentuk mekanisme pemunggahan (Offloading) yang cekap untuk modul memori konteks.
Memandangkan kebanyakan unit memori jarang digunakan, InfLLM memunggah semua unit memori ke memori CPU dan secara dinamik menyimpan unit memori yang kerap digunakan dalam memori GPU, sekali gus mengurangkan penggunaan memori video dengan ketara.
InfLLM boleh diringkaskan sebagai:
1 Berdasarkan tetingkap gelongsor, tambah modul memori konteks jarak jauh.
2. Bahagikan konteks sejarah kepada ketulan semantik untuk membentuk unit memori dalam modul memori konteks. Setiap unit memori menentukan token perwakilan melalui skor perhatiannya dalam pengiraan perhatian sebelumnya, sebagai perwakilan unit memori. Dengan itu mengelakkan gangguan hingar dalam konteks dan mengurangkan kerumitan pertanyaan memori
Pengarang menggunakannya pada model Mistral-7b-Inst-v0.2 (32K) dan Vicuna-7b-v1.5 (4K) InfLLM , menggunakan saiz tetingkap tempatan masing-masing 4K dan 2K.
Berbanding dengan model asal, interpolasi pengekodan kedudukan, Infinite-LM dan StreamingLLM, peningkatan prestasi ketara telah dicapai pada data teks panjang Infinite-Bench dan Longbench.
Percubaan pada teks yang sangat panjang
Selain itu, pengarang terus meneroka keupayaan generalisasi InfLLM pada teks yang lebih panjang, dan ia masih boleh beraksi dalam "stackle" " tugas sepanjang 1024K Kekalkan kadar ingatan semula 100%.
Hasil eksperimen mencari jarum dalam timbunan jerami
Dalam artikel ini, pasukan mencadangkan InfLLM, yang boleh mengembangkan latihan jarak jauh LLM dan boleh menangkap pemprosesan teks jarak jauh ultra-panjang maklumat .
InfLLM menambah modul memori yang mengandungi maklumat konteks jarak jauh berdasarkan tetingkap gelongsor, dan menggunakan mekanisme cache dan offload untuk melaksanakan penstriman penaakulan teks panjang dengan sedikit pengiraan dan penggunaan memori.
Atas ialah kandungan terperinci Kumpulan Tsinghua NLP mengeluarkan InfLLM: Tiada latihan tambahan diperlukan, 'konteks ultra-panjang 1024K' 100% ingat semula!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!