Rumah Peranti teknologi AI 8 Jenis Chunking Untuk Sistem Rag - Analytics Vidhya

8 Jenis Chunking Untuk Sistem Rag - Analytics Vidhya

Mar 06, 2025 pm 12:00 PM

Membuka kuasa Chunking dalam Generasi Retrieval-Augmented (RAG): menyelam yang mendalam

dengan cekap memproses jumlah data teks yang besar adalah penting untuk membina sistem generasi pengambilan semula (RAG) yang kuat dan berkesan. Artikel ini meneroka pelbagai strategi chunking, penting untuk mengoptimumkan pengendalian data dan meningkatkan prestasi aplikasi berkuasa AI. Kami akan menyelidiki pendekatan yang berbeza, menonjolkan kekuatan dan kelemahan mereka, dan menawarkan contoh praktikal.

Jadual Kandungan

  • apa yang dipotong dalam kain?
  • kepentingan chunking
  • Memahami Senibina Rag dan Chunking
  • Cabaran Biasa dengan Sistem RAG
  • Memilih Strategi Chunking Optimal
  • Teks berasaskan watak Chunking
  • teks watak rekursif berpecah dengan langchain
  • Chunking khusus dokumen (HTML, Python, JSON, dll.)
  • Chunking semantik dengan Langchain dan Openai
  • Chunking Agentic (Chunking yang didorong oleh LLM)
  • Chunking berasaskan seksyen
  • chunking kontekstual untuk pengambilan semula yang dipertingkatkan
  • terlambat untuk memelihara konteks jarak jauh
  • Kesimpulan

Apa yang ada di dalam kain?

8 Types of Chunking for RAG Systems - Analytics Vidhya 8 Types of Chunking for RAG Systems - Analytics Vidhya 8 Types of Chunking for RAG Systems - Analytics Vidhya

Chunking adalah proses membahagikan dokumen teks besar ke unit yang lebih kecil dan lebih mudah diurus. Ini penting untuk sistem RAG kerana model bahasa mempunyai tingkap konteks yang terhad. Chunking memastikan bahawa maklumat yang relevan kekal dalam had ini, memaksimumkan nisbah isyarat-ke-bunyi dan meningkatkan prestasi model. Matlamatnya bukan hanya untuk membahagikan data, tetapi untuk mengoptimumkan persembahannya kepada model untuk peningkatan dan ketepatan yang dipertingkatkan.

mengapa chunking penting?

Anton Troynikov, pengasas bersama Chroma, menekankan bahawa data yang tidak relevan dalam tetingkap konteks mengurangkan keberkesanan aplikasi. Chunking sangat penting untuk:

  1. mengatasi had tetingkap konteks: memastikan maklumat utama tidak hilang kerana sekatan saiz.
  2. Meningkatkan nisbah isyarat-ke-bunyi: menapis kandungan yang tidak relevan, meningkatkan ketepatan model.
  3. Meningkatkan kecekapan pengambilan semula: memudahkan pengambilan maklumat yang lebih cepat dan lebih tepat.
  4. Pengoptimuman khusus tugas: Membolehkan strategi penyesuaian untuk keperluan aplikasi tertentu (mis., Summarization vs. Soalan-Answering).

seni bina rag dan chunking

8 Types of Chunking for RAG Systems - Analytics Vidhya

Senibina RAG melibatkan tiga peringkat utama:

    Chunking:
  1. Data mentah dibahagikan kepada ketulan yang lebih kecil dan bermakna.
  2. embedding:
  3. ketulan ditukar menjadi embeddings vektor.
  4. Pengambilan & Generasi:
  5. Ketulan yang relevan diambil berdasarkan pertanyaan pengguna, dan LLM menghasilkan respons menggunakan maklumat yang diambil.
Cabaran dalam sistem RAG

sistem kain menghadapi beberapa cabaran:

    isu pengambilan semula:
  1. pengambilan maklumat yang tidak tepat atau tidak lengkap.
  2. kesukaran penjanaan:
  3. halusinasi, output yang tidak relevan atau berat sebelah. Masalah Integrasi: Kesukaran menggabungkan maklumat yang diambil secara koheren.
  4. memilih strategi chunking yang betul

Strategi chunking yang ideal bergantung kepada beberapa faktor: jenis kandungan, model embedding, dan pertanyaan pengguna yang dijangkakan. Pertimbangkan struktur dan ketumpatan kandungan, batasan token model embedding, dan jenis soalan pengguna mungkin bertanya.

1. Teks berasaskan watak Chunking

Kaedah mudah ini memisahkan teks ke dalam ketulan saiz tetap berdasarkan kiraan aksara, tanpa mengira makna semantik. Walaupun mudah, ia sering mengganggu struktur dan konteks kalimat. Contoh Menggunakan Python:

2. Teks watak rekursif berpecah dengan langchain

text = "Clouds come floating into my life..."
chunks = []
chunk_size = 35
chunk_overlap = 5
# ... (Chunking logic as in the original example)
Salin selepas log masuk
Salin selepas log masuk

Pendekatan ini secara rekursif memisahkan teks dengan menggunakan pemisah berganda (mis., Double newline, satu garis baru, ruang) dan menggabungkan ketulan yang lebih kecil untuk mengoptimumkan saiz aksara sasaran. Ia lebih canggih daripada chunking berasaskan watak, menawarkan pemeliharaan konteks yang lebih baik. Contoh Menggunakan Langchain:

3. Chunking khusus dokumen

# ... (LangChain installation and code as in the original example)
Salin selepas log masuk
Salin selepas log masuk

Kaedah ini menyesuaikan diri dengan format dokumen yang berbeza (HTML, Python, Markdown, dll.) Menggunakan pemisah khusus format. Ini memastikan bahawa Chunking menghormati struktur dokumen yang wujud. Contoh menggunakan langchain untuk python dan markdown disediakan dalam respons asal.

4. Semantik Chunking dengan Langchain dan Openai

Chunking semantik membahagikan teks berdasarkan makna semantik, menggunakan teknik seperti embeddings ayat untuk mengenal pasti titik putus semulajadi. Pendekatan ini memastikan bahawa setiap bahagian mewakili idea yang koheren. Contoh Menggunakan Langchain dan Openai Embeddings:

5. Agentic Chunking (LLM yang didorong oleh LLM)

# ... (OpenAI API key setup and code as in the original example)
Salin selepas log masuk
Salin selepas log masuk
Salin selepas log masuk

Chunking Agentic menggunakan LLM untuk mengenal pasti titik putus semulajadi dalam teks, menghasilkan ketulan yang lebih kontekstual. Pendekatan ini memanfaatkan pemahaman bahasa dan konteks LLM untuk menghasilkan segmen yang lebih bermakna. Contoh Menggunakan Openai API:

text = "Clouds come floating into my life..."
chunks = []
chunk_size = 35
chunk_overlap = 5
# ... (Chunking logic as in the original example)
Salin selepas log masuk
Salin selepas log masuk

6. Chunking berasaskan bahagian

Kaedah ini memanfaatkan struktur yang wujud dokumen (tajuk, subheadings, bahagian) untuk menentukan ketulan. Ia amat berkesan untuk dokumen berstruktur seperti kertas penyelidikan atau laporan. Contoh Menggunakan PymUpdf dan Laten Dirichlet Peruntukan (LDA) untuk Chunking berasaskan topik:

# ... (LangChain installation and code as in the original example)
Salin selepas log masuk
Salin selepas log masuk

7. Kontekstual Chunking

Chunking kontekstual memberi tumpuan kepada memelihara konteks semantik dalam setiap bahagian. Ini memastikan bahawa maklumat yang diambil adalah koheren dan relevan. Contoh Menggunakan Langchain dan Prompt Custom:

# ... (OpenAI API key setup and code as in the original example)
Salin selepas log masuk
Salin selepas log masuk
Salin selepas log masuk

8. Lewat Chunking

kelewatan penangguhan lewat sehingga selepas menghasilkan embeddings untuk keseluruhan dokumen. Ini mengekalkan ketergantungan kontekstual jarak jauh, meningkatkan ketepatan embeddings dan pengambilan semula. Contoh Menggunakan Model Jina Embeddings:

# ... (OpenAI API key setup and code as in the original example)
Salin selepas log masuk
Salin selepas log masuk
Salin selepas log masuk

Kesimpulan

Chunking yang berkesan adalah yang paling penting untuk membina sistem RAG yang berprestasi tinggi. Pilihan strategi chunking memberi kesan yang signifikan terhadap kualiti pengambilan maklumat dan kesesuaian respons yang dihasilkan. Dengan berhati -hati dengan mempertimbangkan ciri -ciri data dan keperluan khusus aplikasi, pemaju boleh memilih kaedah chunking yang paling sesuai untuk mengoptimumkan prestasi sistem RAG mereka. Ingatlah untuk sentiasa mengutamakan mengekalkan integriti dan kaitan kontekstual dalam setiap bahagian.

Atas ialah kandungan terperinci 8 Jenis Chunking Untuk Sistem Rag - Analytics Vidhya. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Penjana Seni AI Terbaik (Percuma & amp; Dibayar) untuk projek kreatif Penjana Seni AI Terbaik (Percuma & amp; Dibayar) untuk projek kreatif Apr 02, 2025 pm 06:10 PM

Artikel ini mengkaji semula penjana seni AI atas, membincangkan ciri -ciri mereka, kesesuaian untuk projek kreatif, dan nilai. Ia menyerlahkan Midjourney sebagai nilai terbaik untuk profesional dan mengesyorkan Dall-E 2 untuk seni berkualiti tinggi dan disesuaikan.

Bermula dengan Meta Llama 3.2 - Analytics Vidhya Bermula dengan Meta Llama 3.2 - Analytics Vidhya Apr 11, 2025 pm 12:04 PM

Meta's Llama 3.2: Lompat ke hadapan dalam Multimodal dan Mobile AI META baru -baru ini melancarkan Llama 3.2, kemajuan yang ketara dalam AI yang memaparkan keupayaan penglihatan yang kuat dan model teks ringan yang dioptimumkan untuk peranti mudah alih. Membina kejayaan o

CHATBOTS AI terbaik berbanding (Chatgpt, Gemini, Claude & amp; Lagi) CHATBOTS AI terbaik berbanding (Chatgpt, Gemini, Claude & amp; Lagi) Apr 02, 2025 pm 06:09 PM

Artikel ini membandingkan chatbots AI seperti Chatgpt, Gemini, dan Claude, yang memberi tumpuan kepada ciri -ciri unik mereka, pilihan penyesuaian, dan prestasi dalam pemprosesan bahasa semula jadi dan kebolehpercayaan.

Adakah chatgpt 4 o tersedia? Adakah chatgpt 4 o tersedia? Mar 28, 2025 pm 05:29 PM

CHATGPT 4 kini tersedia dan digunakan secara meluas, menunjukkan penambahbaikan yang ketara dalam memahami konteks dan menjana tindak balas yang koheren berbanding dengan pendahulunya seperti ChATGPT 3.5. Perkembangan masa depan mungkin merangkumi lebih banyak Inter yang diperibadikan

Pembantu Menulis AI Teratas untuk Meningkatkan Penciptaan Kandungan Anda Pembantu Menulis AI Teratas untuk Meningkatkan Penciptaan Kandungan Anda Apr 02, 2025 pm 06:11 PM

Artikel ini membincangkan pembantu penulisan AI terkemuka seperti Grammarly, Jasper, Copy.ai, WriteSonic, dan Rytr, yang memberi tumpuan kepada ciri -ciri unik mereka untuk penciptaan kandungan. Ia berpendapat bahawa Jasper cemerlang dalam pengoptimuman SEO, sementara alat AI membantu mengekalkan nada terdiri

Sistem Rag Agentik 7 Teratas untuk Membina Ejen AI Sistem Rag Agentik 7 Teratas untuk Membina Ejen AI Mar 31, 2025 pm 04:25 PM

2024 menyaksikan peralihan daripada menggunakan LLMS untuk penjanaan kandungan untuk memahami kerja dalaman mereka. Eksplorasi ini membawa kepada penemuan agen AI - sistem pengendalian sistem autonomi dan keputusan dengan intervensi manusia yang minimum. Buildin

Memilih Penjana Suara AI Terbaik: Pilihan Teratas Ditinjau Memilih Penjana Suara AI Terbaik: Pilihan Teratas Ditinjau Apr 02, 2025 pm 06:12 PM

Artikel ini mengulas penjana suara AI atas seperti Google Cloud, Amazon Polly, Microsoft Azure, IBM Watson, dan Descript, memberi tumpuan kepada ciri -ciri mereka, kualiti suara, dan kesesuaian untuk keperluan yang berbeza.

AV Bytes: Meta ' s llama 3.2, Google's Gemini 1.5, dan banyak lagi AV Bytes: Meta ' s llama 3.2, Google's Gemini 1.5, dan banyak lagi Apr 11, 2025 pm 12:01 PM

Landskap AI minggu ini: Badai kemajuan, pertimbangan etika, dan perdebatan pengawalseliaan. Pemain utama seperti Openai, Google, Meta, dan Microsoft telah melepaskan kemas kini, dari model baru yang terobosan ke peralihan penting di LE

See all articles