8 Jenis Chunking Untuk Sistem Rag - Analytics Vidhya-AI-php.cn

Rumah

Peranti teknologi

8 Jenis Chunking Untuk Sistem Rag - Analytics Vidhya

尊渡假赌尊渡假赌尊渡假赌

Mar 06, 2025 pm 12:00 PM

Membuka kuasa Chunking dalam Generasi Retrieval-Augmented (RAG): menyelam yang mendalam

dengan cekap memproses jumlah data teks yang besar adalah penting untuk membina sistem generasi pengambilan semula (RAG) yang kuat dan berkesan. Artikel ini meneroka pelbagai strategi chunking, penting untuk mengoptimumkan pengendalian data dan meningkatkan prestasi aplikasi berkuasa AI. Kami akan menyelidiki pendekatan yang berbeza, menonjolkan kekuatan dan kelemahan mereka, dan menawarkan contoh praktikal.

Jadual Kandungan

apa yang dipotong dalam kain?
kepentingan chunking
Memahami Senibina Rag dan Chunking
Cabaran Biasa dengan Sistem RAG
Memilih Strategi Chunking Optimal
Teks berasaskan watak Chunking
teks watak rekursif berpecah dengan langchain
Chunking khusus dokumen (HTML, Python, JSON, dll.)
Chunking semantik dengan Langchain dan Openai
Chunking Agentic (Chunking yang didorong oleh LLM)
Chunking berasaskan seksyen
chunking kontekstual untuk pengambilan semula yang dipertingkatkan
terlambat untuk memelihara konteks jarak jauh
Kesimpulan

Apa yang ada di dalam kain?

8 Types of Chunking for RAG Systems - Analytics Vidhya

Chunking adalah proses membahagikan dokumen teks besar ke unit yang lebih kecil dan lebih mudah diurus. Ini penting untuk sistem RAG kerana model bahasa mempunyai tingkap konteks yang terhad. Chunking memastikan bahawa maklumat yang relevan kekal dalam had ini, memaksimumkan nisbah isyarat-ke-bunyi dan meningkatkan prestasi model. Matlamatnya bukan hanya untuk membahagikan data, tetapi untuk mengoptimumkan persembahannya kepada model untuk peningkatan dan ketepatan yang dipertingkatkan.

mengapa chunking penting?

Anton Troynikov, pengasas bersama Chroma, menekankan bahawa data yang tidak relevan dalam tetingkap konteks mengurangkan keberkesanan aplikasi. Chunking sangat penting untuk:

mengatasi had tetingkap konteks: memastikan maklumat utama tidak hilang kerana sekatan saiz.
Meningkatkan nisbah isyarat-ke-bunyi: menapis kandungan yang tidak relevan, meningkatkan ketepatan model.
Meningkatkan kecekapan pengambilan semula: memudahkan pengambilan maklumat yang lebih cepat dan lebih tepat.
Pengoptimuman khusus tugas: Membolehkan strategi penyesuaian untuk keperluan aplikasi tertentu (mis., Summarization vs. Soalan-Answering).

seni bina rag dan chunking

8 Types of Chunking for RAG Systems - Analytics Vidhya

Senibina RAG melibatkan tiga peringkat utama:

Chunking:
Data mentah dibahagikan kepada ketulan yang lebih kecil dan bermakna.
embedding:
ketulan ditukar menjadi embeddings vektor.
Pengambilan & Generasi:
Ketulan yang relevan diambil berdasarkan pertanyaan pengguna, dan LLM menghasilkan respons menggunakan maklumat yang diambil.

Cabaran dalam sistem RAG

sistem kain menghadapi beberapa cabaran:

pengambilan maklumat yang tidak tepat atau tidak lengkap.
halusinasi, output yang tidak relevan atau berat sebelah. ~~Masalah Integrasi: Kesukaran menggabungkan maklumat yang diambil secara koheren.~~
memilih strategi chunking yang betul

Strategi chunking yang ideal bergantung kepada beberapa faktor: jenis kandungan, model embedding, dan pertanyaan pengguna yang dijangkakan. Pertimbangkan struktur dan ketumpatan kandungan, batasan token model embedding, dan jenis soalan pengguna mungkin bertanya.

1. Teks berasaskan watak Chunking

Kaedah mudah ini memisahkan teks ke dalam ketulan saiz tetap berdasarkan kiraan aksara, tanpa mengira makna semantik. Walaupun mudah, ia sering mengganggu struktur dan konteks kalimat. Contoh Menggunakan Python:

2. Teks watak rekursif berpecah dengan langchain

text = "Clouds come floating into my life..."
chunks = []
chunk_size = 35
chunk_overlap = 5
# ... (Chunking logic as in the original example)

Salin selepas log masuk

Pendekatan ini secara rekursif memisahkan teks dengan menggunakan pemisah berganda (mis., Double newline, satu garis baru, ruang) dan menggabungkan ketulan yang lebih kecil untuk mengoptimumkan saiz aksara sasaran. Ia lebih canggih daripada chunking berasaskan watak, menawarkan pemeliharaan konteks yang lebih baik. Contoh Menggunakan Langchain:

3. Chunking khusus dokumen

# ... (LangChain installation and code as in the original example)

Salin selepas log masuk

Kaedah ini menyesuaikan diri dengan format dokumen yang berbeza (HTML, Python, Markdown, dll.) Menggunakan pemisah khusus format. Ini memastikan bahawa Chunking menghormati struktur dokumen yang wujud. Contoh menggunakan langchain untuk python dan markdown disediakan dalam respons asal.

4. Semantik Chunking dengan Langchain dan Openai

Chunking semantik membahagikan teks berdasarkan makna semantik, menggunakan teknik seperti embeddings ayat untuk mengenal pasti titik putus semulajadi. Pendekatan ini memastikan bahawa setiap bahagian mewakili idea yang koheren. Contoh Menggunakan Langchain dan Openai Embeddings:

5. Agentic Chunking (LLM yang didorong oleh LLM)

# ... (OpenAI API key setup and code as in the original example)

Salin selepas log masuk

Chunking Agentic menggunakan LLM untuk mengenal pasti titik putus semulajadi dalam teks, menghasilkan ketulan yang lebih kontekstual. Pendekatan ini memanfaatkan pemahaman bahasa dan konteks LLM untuk menghasilkan segmen yang lebih bermakna. Contoh Menggunakan Openai API:

text = "Clouds come floating into my life..."
chunks = []
chunk_size = 35
chunk_overlap = 5
# ... (Chunking logic as in the original example)

Salin selepas log masuk

6. Chunking berasaskan bahagian

Kaedah ini memanfaatkan struktur yang wujud dokumen (tajuk, subheadings, bahagian) untuk menentukan ketulan. Ia amat berkesan untuk dokumen berstruktur seperti kertas penyelidikan atau laporan. Contoh Menggunakan PymUpdf dan Laten Dirichlet Peruntukan (LDA) untuk Chunking berasaskan topik:

# ... (LangChain installation and code as in the original example)

Salin selepas log masuk

7. Kontekstual Chunking

Chunking kontekstual memberi tumpuan kepada memelihara konteks semantik dalam setiap bahagian. Ini memastikan bahawa maklumat yang diambil adalah koheren dan relevan. Contoh Menggunakan Langchain dan Prompt Custom:

# ... (OpenAI API key setup and code as in the original example)

Salin selepas log masuk

8. Lewat Chunking

kelewatan penangguhan lewat sehingga selepas menghasilkan embeddings untuk keseluruhan dokumen. Ini mengekalkan ketergantungan kontekstual jarak jauh, meningkatkan ketepatan embeddings dan pengambilan semula. Contoh Menggunakan Model Jina Embeddings:

# ... (OpenAI API key setup and code as in the original example)

Salin selepas log masuk

Kesimpulan

Chunking yang berkesan adalah yang paling penting untuk membina sistem RAG yang berprestasi tinggi. Pilihan strategi chunking memberi kesan yang signifikan terhadap kualiti pengambilan maklumat dan kesesuaian respons yang dihasilkan. Dengan berhati -hati dengan mempertimbangkan ciri -ciri data dan keperluan khusus aplikasi, pemaju boleh memilih kaedah chunking yang paling sesuai untuk mengoptimumkan prestasi sistem RAG mereka. Ingatlah untuk sentiasa mengutamakan mengekalkan integriti dan kaitan kontekstual dalam setiap bahagian.

Atas ialah kandungan terperinci 8 Jenis Chunking Untuk Sistem Rag - Analytics Vidhya. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Tunjukkan Lagi

Artikel Panas

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

1 bulan yang lalu By DDD

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

3 minggu yang lalu By DDD

Di mana untuk mencari kad kunci kawalan kren di atomfall

1 bulan yang lalu By DDD

Bagaimana untuk memperbaiki KB5055523 gagal dipasang di Windows 11?

2 minggu yang lalu By DDD

Inzoi: Cara Memohon ke Sekolah dan Universiti

3 minggu yang lalu By DDD

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7767

Tutorial Java

1644

Tutorial CakePHP

1399

Tutorial Laravel

1293

Tutorial PHP

1234

Tunjukkan Lagi

Related knowledge

Penjana Seni AI Terbaik (Percuma & amp; Dibayar) untuk projek kreatif Apr 02, 2025 pm 06:10 PM

Artikel ini mengkaji semula penjana seni AI atas, membincangkan ciri -ciri mereka, kesesuaian untuk projek kreatif, dan nilai. Ia menyerlahkan Midjourney sebagai nilai terbaik untuk profesional dan mengesyorkan Dall-E 2 untuk seni berkualiti tinggi dan disesuaikan.

Bermula dengan Meta Llama 3.2 - Analytics Vidhya Apr 11, 2025 pm 12:04 PM

Meta's Llama 3.2: Lompat ke hadapan dalam Multimodal dan Mobile AI META baru -baru ini melancarkan Llama 3.2, kemajuan yang ketara dalam AI yang memaparkan keupayaan penglihatan yang kuat dan model teks ringan yang dioptimumkan untuk peranti mudah alih. Membina kejayaan o

CHATBOTS AI terbaik berbanding (Chatgpt, Gemini, Claude & amp; Lagi) Apr 02, 2025 pm 06:09 PM

Artikel ini membandingkan chatbots AI seperti Chatgpt, Gemini, dan Claude, yang memberi tumpuan kepada ciri -ciri unik mereka, pilihan penyesuaian, dan prestasi dalam pemprosesan bahasa semula jadi dan kebolehpercayaan.

Adakah chatgpt 4 o tersedia? Mar 28, 2025 pm 05:29 PM

CHATGPT 4 kini tersedia dan digunakan secara meluas, menunjukkan penambahbaikan yang ketara dalam memahami konteks dan menjana tindak balas yang koheren berbanding dengan pendahulunya seperti ChATGPT 3.5. Perkembangan masa depan mungkin merangkumi lebih banyak Inter yang diperibadikan

Pembantu Menulis AI Teratas untuk Meningkatkan Penciptaan Kandungan Anda Apr 02, 2025 pm 06:11 PM

Artikel ini membincangkan pembantu penulisan AI terkemuka seperti Grammarly, Jasper, Copy.ai, WriteSonic, dan Rytr, yang memberi tumpuan kepada ciri -ciri unik mereka untuk penciptaan kandungan. Ia berpendapat bahawa Jasper cemerlang dalam pengoptimuman SEO, sementara alat AI membantu mengekalkan nada terdiri

Sistem Rag Agentik 7 Teratas untuk Membina Ejen AI Mar 31, 2025 pm 04:25 PM

2024 menyaksikan peralihan daripada menggunakan LLMS untuk penjanaan kandungan untuk memahami kerja dalaman mereka. Eksplorasi ini membawa kepada penemuan agen AI - sistem pengendalian sistem autonomi dan keputusan dengan intervensi manusia yang minimum. Buildin

Memilih Penjana Suara AI Terbaik: Pilihan Teratas Ditinjau Apr 02, 2025 pm 06:12 PM

Artikel ini mengulas penjana suara AI atas seperti Google Cloud, Amazon Polly, Microsoft Azure, IBM Watson, dan Descript, memberi tumpuan kepada ciri -ciri mereka, kualiti suara, dan kesesuaian untuk keperluan yang berbeza.

AV Bytes: Meta ' s llama 3.2, Google's Gemini 1.5, dan banyak lagi Apr 11, 2025 pm 12:01 PM

Landskap AI minggu ini: Badai kemajuan, pertimbangan etika, dan perdebatan pengawalseliaan. Pemain utama seperti Openai, Google, Meta, dan Microsoft telah melepaskan kemas kini, dari model baru yang terobosan ke peralihan penting di LE

See all articles