Amalan penilaian prestasi pertanyaan konteks ultra panjang LLM-AI-php.cn

Jadual Kandungan

Ikhtisar Set Data

Ujian Garis Dasar

Kaedah Pengisian Kontekstual

Kaedah penapisan pra-LLM

Penapisan berasaskan benam

Kaedah penapisan berdasarkan persamaan NGram

Kaedah pasca pemilihan LLM

Kaedah pemilihan berdasarkan kesamaan benam

Kaedah pemilihan berasaskan persamaan NGram

Kesimpulan

Rumah

Peranti teknologi

Amalan penilaian prestasi pertanyaan konteks ultra panjang LLM

王林

Apr 03, 2024 am 11:55 AM

prestasi llm Penanda aras

Dalam aplikasi model bahasa besar (LLM), terdapat beberapa senario yang memerlukan data dipersembahkan dalam cara berstruktur, yang mana pengekstrakan maklumat dan analisis pertanyaan adalah dua contoh biasa. Kami baru-baru ini menekankan kepentingan pengekstrakan maklumat dengan dokumentasi yang dikemas kini dan repositori kod khusus. Untuk analisis pertanyaan, kami juga telah mengemas kini dokumentasi yang berkaitan. Dalam senario ini, medan data mungkin termasuk rentetan, nilai Boolean, integer, dsb. Antara jenis ini, menangani nilai kategori kardinaliti tinggi (iaitu jenis penghitungan) adalah yang paling mencabar.

Amalan penilaian prestasi pertanyaan konteks ultra panjang LLM Gambar

Apa yang dipanggil "nilai kumpulan kardinaliti tinggi" merujuk kepada nilai yang mesti dipilih daripada pilihan terhad Nilai ini tidak boleh ditentukan sesuka hati, tetapi mesti datang daripada set yang telah ditetapkan. Dalam set sedemikian, kadangkala akan terdapat sejumlah besar nilai sah, yang kami panggil "nilai kardinaliti tinggi". Sebab mengapa berurusan dengan nilai-nilai sedemikian sukar ialah LLM sendiri tidak tahu apakah nilai-nilai yang boleh dilaksanakan ini. Oleh itu, kami perlu memberikan LLM maklumat tentang nilai yang boleh dilaksanakan ini. Walaupun mengabaikan kes di mana terdapat hanya beberapa nilai yang boleh dilaksanakan, kami masih boleh menyelesaikan masalah ini dengan menyenaraikan nilai yang mungkin ini secara eksplisit dalam petunjuk. Walau bagaimanapun, masalah menjadi rumit kerana terdapat begitu banyak nilai yang mungkin.

Apabila bilangan nilai yang mungkin meningkat, kesukaran LLM memilih nilai juga meningkat. Di satu pihak, jika terdapat terlalu banyak nilai yang mungkin, nilai tersebut mungkin tidak sesuai dalam tetingkap konteks LLM. Sebaliknya, walaupun semua nilai yang mungkin boleh dimuatkan ke dalam konteks, termasuk kesemuanya menghasilkan pemprosesan yang lebih perlahan, peningkatan kos dan keupayaan penaakulan LLM yang dikurangkan apabila menangani sejumlah besar konteks. `Apabila bilangan nilai yang mungkin meningkat, kesukaran LLM memilih nilai meningkat. Di satu pihak, jika terdapat terlalu banyak nilai yang mungkin, nilai tersebut mungkin tidak sesuai dalam tetingkap konteks LLM. Sebaliknya, walaupun semua nilai yang mungkin boleh dimuatkan ke dalam konteks, termasuk kesemuanya menghasilkan pemprosesan yang lebih perlahan, peningkatan kos dan keupayaan penaakulan LLM yang dikurangkan apabila menangani sejumlah besar konteks. ` (Nota: Teks asal nampaknya dikodkan URL. Saya telah membetulkan pengekodan dan menyediakan teks yang ditulis semula.)

Baru-baru ini, kami telah menjalankan kajian mendalam tentang analisis pertanyaan dan apabila menyemak semula dokumentasi yang berkaitan, kami telah secara khusus menambah bahagian tentang cara menanganinya Halaman dengan nilai kardinaliti tinggi. Dalam blog ini, kami akan menyelami beberapa pendekatan percubaan dan memberikan hasil penanda aras prestasi mereka.

Gambaran keseluruhan keputusan boleh dilihat di LangSmith https://smith.langchain.com/public/8c0a4c25-426d-4582-96fc-d7def170be76/d?ref=blog.langchain.dev. Seterusnya, kami akan memperkenalkan secara terperinci:

Amalan penilaian prestasi pertanyaan konteks ultra panjang LLM Pictures

Ikhtisar Set Data

Dataset terperinci boleh dilihat di sini https://smith.langchain.com/public/8c0a4c25-5826c25-426df /d?ref=blog.langchain.dev.

Untuk mensimulasikan masalah ini, kami menganggap senario: kami ingin mencari buku tentang makhluk asing oleh pengarang tertentu. Dalam senario ini, medan penulis ialah pembolehubah kategori kardinaliti tinggi - terdapat banyak nilai yang mungkin, tetapi ia mestilah nama penulis yang sah khusus. Untuk menguji ini, kami mencipta set data yang mengandungi nama pengarang dan alias biasa. Contohnya, "Harry Chase" mungkin merupakan alias untuk "Harrison Chase." Kami mahu sistem pintar dapat mengendalikan jenis aliasing ini. Dalam set data ini, kami menghasilkan set data yang mengandungi senarai nama dan alias penulis. Ambil perhatian bahawa 10,000 nama rawak tidak terlalu banyak - untuk sistem peringkat perusahaan, anda mungkin perlu berurusan dengan kardinaliti dalam berjuta-juta.

Menggunakan set data ini, kami bertanya soalan: "Apakah buku Harry Chase tentang makhluk asing?" Dalam contoh ini, output yang dijangkakan ialah {"topic": "aliens", "author": "Harrison Chase"}. Kami menjangkakan sistem menyedari bahawa tiada pengarang bernama Harry Chase, tetapi Harrison Chase mungkin yang dimaksudkan oleh pengguna.

Dengan persediaan ini, kami boleh menguji terhadap set data alias yang kami buat untuk menyemak sama ada ia dipetakan dengan betul kepada nama sebenar. Pada masa yang sama, kami juga merekodkan kependaman dan kos pertanyaan. Sistem analisis pertanyaan jenis ini biasanya digunakan untuk carian, jadi kami sangat mengambil berat tentang kedua-dua penunjuk ini. Atas sebab ini, kami juga mengehadkan semua kaedah kepada hanya satu panggilan LLM. Kami mungkin menanda aras kaedah menggunakan berbilang panggilan LLM dalam artikel akan datang.

Seterusnya, kami akan memperkenalkan beberapa kaedah berbeza dan prestasinya.

Amalan penilaian prestasi pertanyaan konteks ultra panjang LLM Pictures

Hasil lengkap boleh dilihat dalam LangSmith, dan kod untuk menghasilkan semula keputusan ini boleh didapati di sini.

Ujian Garis Dasar

Pertama, kami menjalankan ujian garis dasar pada LLM, iaitu, secara langsung meminta LLM melakukan analisis pertanyaan tanpa memberikan sebarang maklumat nama yang sah. Seperti yang dijangka, tiada satu soalan pun dijawab dengan betul. Ini kerana kami sengaja membina set data yang memerlukan pengarang pertanyaan dengan alias.

Kaedah Pengisian Kontekstual

Dalam kaedah ini, kami meletakkan kesemua 10,000 nama pengarang sah ke dalam gesaan dan meminta LLM mengingati bahawa ini adalah nama pengarang sah semasa melakukan analisis pertanyaan. Sesetengah model (seperti GPT-3.5) tidak dapat melaksanakan tugas ini kerana had tetingkap konteks. Untuk model lain dengan tetingkap konteks yang lebih panjang, mereka juga menghadapi kesukaran memilih nama yang betul dengan tepat. GPT-4 hanya memilih nama yang betul dalam 26% kes. Ralat yang paling biasa ialah mengekstrak nama tetapi tidak membetulkannya. Kaedah ini bukan sahaja lambat, ia juga mahal, mengambil purata 5 saat untuk disiapkan dan menelan belanja sebanyak $8.44.

Kaedah penapisan pra-LLM

Kaedah yang kami uji seterusnya ialah menapis senarai nilai yang mungkin sebelum menghantarnya ke LLM. Kelebihan ini ialah ia hanya menghantar subset nama yang mungkin kepada LLM, jadi LLM mempunyai lebih sedikit nama untuk dipertimbangkan, semoga membolehkannya melengkapkan analisis pertanyaan dengan lebih cepat, lebih murah dan lebih tepat. Tetapi ini juga menambah mod potensi kegagalan baharu - bagaimana jika penapisan awal menjadi salah?

Penapisan berasaskan benam

Kaedah penapisan yang kami gunakan pada mulanya ialah kaedah benam dan memilih 10 nama yang paling serupa dengan pertanyaan. Ambil perhatian bahawa kami sedang membandingkan keseluruhan pertanyaan dengan nama, yang bukan perbandingan yang ideal!

Kami mendapati bahawa menggunakan pendekatan ini, GPT-3.5 dapat mengendalikan 57% kes dengan betul. Kaedah ini jauh lebih pantas dan lebih murah daripada kaedah sebelumnya, mengambil masa purata hanya 0.76 saat untuk diselesaikan, dengan jumlah kos hanya $0.002.

Kaedah penapisan berdasarkan persamaan NGram

Kaedah penapisan kedua yang kami gunakan ialah untuk TF-IDF mengvektorkan jujukan aksara 3-gram bagi semua nama yang sah, dan menggunakan nama sah yang divektorkan dengan yang divektorkan Persamaan kosinus antara input pengguna digunakan untuk memilih 10 nama sah yang paling berkaitan untuk ditambahkan pada gesaan model. Juga ambil perhatian bahawa kami sedang membandingkan keseluruhan pertanyaan dengan nama, yang bukan perbandingan yang ideal!

Kami mendapati bahawa menggunakan pendekatan ini, GPT-3.5 dapat mengendalikan 65% kes dengan betul. Kaedah ini juga jauh lebih pantas dan lebih murah daripada kaedah sebelumnya, mengambil purata hanya 0.57 saat untuk disiapkan, dan jumlah kos hanya $0.002.

Kaedah pasca pemilihan LLM

Kaedah terakhir yang kami uji ialah cuba membetulkan sebarang ralat selepas LLM menyelesaikan analisis pertanyaan awal. Kami mula-mula melakukan analisis pertanyaan pada input pengguna tanpa memberikan sebarang maklumat tentang nama pengarang yang sah dalam gesaan. Ini adalah ujian asas yang sama yang kami lakukan pada mulanya. Kami kemudian melakukan langkah seterusnya untuk mengambil nama dalam medan pengarang dan mencari nama sah yang paling serupa.

Kaedah pemilihan berdasarkan kesamaan benam

Mula-mula, kami melakukan semakan kesamaan menggunakan kaedah benam.

Kami mendapati bahawa menggunakan pendekatan ini, GPT-3.5 dapat mengendalikan 83% kes dengan betul. Kaedah ini jauh lebih pantas dan lebih murah daripada kaedah sebelumnya, mengambil purata hanya 0.66 saat untuk disiapkan, dan jumlah kos hanya $0.001.

Kaedah pemilihan berasaskan persamaan NGram

Akhir sekali, kami cuba menggunakan vectorizer 3 gram untuk semakan persamaan.

Kami mendapati bahawa menggunakan pendekatan ini, GPT-3.5 dapat mengendalikan 74% kes dengan betul. Kaedah ini juga jauh lebih pantas dan lebih murah daripada kaedah sebelumnya, mengambil masa purata hanya 0.48 saat untuk disiapkan, dan jumlah kos hanya $0.001.

Kesimpulan

Kami menjalankan pelbagai penanda aras pada kaedah analisis pertanyaan untuk mengendalikan nilai kategori kardinaliti tinggi. Kami mengehadkan diri kami untuk membuat hanya satu panggilan LLM untuk mensimulasikan kekangan kependaman dunia sebenar. Kami mendapati bahawa membenamkan kaedah pemilihan berasaskan persamaan menunjukkan prestasi terbaik selepas menggunakan LLM.

Terdapat kaedah lain yang layak untuk diuji selanjutnya. Khususnya, terdapat banyak cara yang berbeza untuk mencari nilai kategori yang paling serupa sebelum atau selepas panggilan LLM. Selain itu, asas kategori dalam set data ini tidak setinggi yang dihadapi oleh kebanyakan sistem perusahaan. Set data ini mempunyai kira-kira 10,000 nilai, manakala banyak sistem dunia sebenar mungkin perlu mengendalikan kardinaliti dalam berjuta-juta. Oleh itu, penanda aras pada data kardinaliti yang lebih tinggi akan menjadi sangat berharga.

Atas ialah kandungan terperinci Amalan penilaian prestasi pertanyaan konteks ultra panjang LLM. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

1 minggu yang lalu By DDD

R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Cara Membuka Segala -galanya Di Myrise

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7450

Tutorial CakePHP

1374

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi

Related knowledge

Panduan langkah demi langkah untuk menggunakan Groq Llama 3 70B secara tempatan Jun 10, 2024 am 09:16 AM

Penterjemah |. Tinjauan Bugatti |. Chonglou Artikel ini menerangkan cara menggunakan enjin inferens GroqLPU untuk menjana respons sangat pantas dalam JanAI dan VSCode. Semua orang sedang berusaha membina model bahasa besar (LLM) yang lebih baik, seperti Groq yang memfokuskan pada bahagian infrastruktur AI. Sambutan pantas daripada model besar ini adalah kunci untuk memastikan model besar ini bertindak balas dengan lebih cepat. Tutorial ini akan memperkenalkan enjin parsing GroqLPU dan cara mengaksesnya secara setempat pada komputer riba anda menggunakan API dan JanAI. Artikel ini juga akan menyepadukannya ke dalam VSCode untuk membantu kami menjana kod, kod refactor, memasukkan dokumentasi dan menjana unit ujian. Artikel ini akan mencipta pembantu pengaturcaraan kecerdasan buatan kami sendiri secara percuma. Pengenalan kepada enjin inferens GroqLPU Groq

Caltech Cina menggunakan AI untuk menumbangkan bukti matematik! Mempercepatkan 5 kali terkejut Tao Zhexuan, 80% langkah matematik adalah automatik sepenuhnya Apr 23, 2024 pm 03:01 PM

LeanCopilot, alat matematik formal yang telah dipuji oleh ramai ahli matematik seperti Terence Tao, telah berkembang semula? Sebentar tadi, profesor Caltech Anima Anandkumar mengumumkan bahawa pasukan itu mengeluarkan versi diperluaskan kertas LeanCopilot dan mengemas kini pangkalan kod. Alamat kertas imej: https://arxiv.org/pdf/2404.12534.pdf Percubaan terkini menunjukkan bahawa alat Copilot ini boleh mengautomasikan lebih daripada 80% langkah pembuktian matematik! Rekod ini adalah 2.3 kali lebih baik daripada aesop garis dasar sebelumnya. Dan, seperti sebelum ini, ia adalah sumber terbuka di bawah lesen MIT. Dalam gambar, dia ialah Song Peiyang, seorang budak Cina

Plaud melancarkan perakam boleh pakai NotePin AI untuk $169 Aug 29, 2024 pm 02:37 PM

Plaud, syarikat di belakang Perakam Suara AI Plaud Note (tersedia di Amazon dengan harga $159), telah mengumumkan produk baharu. Digelar NotePin, peranti ini digambarkan sebagai kapsul memori AI, dan seperti Pin AI Humane, ini boleh dipakai. NotePin ialah

Tujuh Soalan Temuduga Teknikal GenAI & LLM yang Cool Jun 07, 2024 am 10:06 AM

Untuk mengetahui lebih lanjut tentang AIGC, sila layari: 51CTOAI.x Komuniti https://www.51cto.com/aigc/Translator|Jingyan Reviewer|Chonglou berbeza daripada bank soalan tradisional yang boleh dilihat di mana-mana sahaja di Internet memerlukan pemikiran di luar kotak. Model Bahasa Besar (LLM) semakin penting dalam bidang sains data, kecerdasan buatan generatif (GenAI) dan kecerdasan buatan. Algoritma kompleks ini meningkatkan kemahiran manusia dan memacu kecekapan dan inovasi dalam banyak industri, menjadi kunci kepada syarikat untuk kekal berdaya saing. LLM mempunyai pelbagai aplikasi Ia boleh digunakan dalam bidang seperti pemprosesan bahasa semula jadi, penjanaan teks, pengecaman pertuturan dan sistem pengesyoran. Dengan belajar daripada sejumlah besar data, LLM dapat menjana teks

GraphRAG dipertingkatkan untuk mendapatkan semula graf pengetahuan (dilaksanakan berdasarkan kod Neo4j) Jun 12, 2024 am 10:32 AM

Penjanaan Dipertingkatkan Pengambilan Graf (GraphRAG) secara beransur-ansur menjadi popular dan telah menjadi pelengkap hebat kepada kaedah carian vektor tradisional. Kaedah ini mengambil kesempatan daripada ciri-ciri struktur pangkalan data graf untuk menyusun data dalam bentuk nod dan perhubungan, dengan itu mempertingkatkan kedalaman dan perkaitan kontekstual bagi maklumat yang diambil. Graf mempunyai kelebihan semula jadi dalam mewakili dan menyimpan maklumat yang pelbagai dan saling berkaitan, dan dengan mudah boleh menangkap hubungan dan sifat yang kompleks antara jenis data yang berbeza. Pangkalan data vektor tidak dapat mengendalikan jenis maklumat berstruktur ini dan ia lebih menumpukan pada pemprosesan data tidak berstruktur yang diwakili oleh vektor berdimensi tinggi. Dalam aplikasi RAG, menggabungkan data graf berstruktur dan carian vektor teks tidak berstruktur membolehkan kami menikmati kelebihan kedua-duanya pada masa yang sama, iaitu perkara yang akan dibincangkan oleh artikel ini. struktur

Google AI mengumumkan Gemini 1.5 Pro dan Gemma 2 untuk pembangun Jul 01, 2024 am 07:22 AM

Google AI telah mula menyediakan pembangun akses kepada tetingkap konteks lanjutan dan ciri penjimatan kos, bermula dengan model bahasa besar (LLM) Gemini 1.5 Pro. Sebelum ini tersedia melalui senarai tunggu, penuh 2 juta token konteks windo

Memahami GraphRAG (1): Cabaran RAG Apr 30, 2024 pm 07:10 PM

RAG (RiskAssessmentGrid) ialah kaedah yang mempertingkatkan model bahasa besar (LLM) sedia ada dengan sumber pengetahuan luaran untuk memberikan jawapan yang lebih berkaitan kontekstual. Dalam RAG, komponen perolehan memperoleh maklumat tambahan, respons adalah berdasarkan sumber tertentu, dan kemudian menyuap maklumat ini ke dalam gesaan LLM supaya respons LLM adalah berdasarkan maklumat ini (fasa peningkatan). RAG lebih menjimatkan berbanding teknik lain seperti pemangkasan. Ia juga mempunyai kelebihan untuk mengurangkan halusinasi dengan menyediakan konteks tambahan berdasarkan maklumat ini (peringkat penambahan) - RAG anda menjadi kaedah aliran kerja untuk tugasan LLM hari ini (seperti pengesyoran, pengekstrakan teks, analisis sentimen, dsb.). Jika kita memecahkan idea ini dengan lebih lanjut, berdasarkan niat pengguna, kita biasanya melihat

Perbandingan prestasi rangka kerja Java yang berbeza Jun 05, 2024 pm 07:14 PM

Perbandingan prestasi rangka kerja Java yang berbeza: Pemprosesan permintaan REST API: Vert.x adalah yang terbaik, dengan kadar permintaan 2 kali SpringBoot dan 3 kali Dropwizard. Pertanyaan pangkalan data: HibernateORM SpringBoot adalah lebih baik daripada Vert.x dan ORM Dropwizard. Operasi caching: Pelanggan Hazelcast Vert.x lebih unggul daripada mekanisme caching SpringBoot dan Dropwizard. Rangka kerja yang sesuai: Pilih mengikut keperluan aplikasi Vert.x sesuai untuk perkhidmatan web berprestasi tinggi, SpringBoot sesuai untuk aplikasi intensif data, dan Dropwizard sesuai untuk seni bina perkhidmatan mikro.

See all articles