抹布系統的8種類型的塊 - 分析Vidhya-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

抹布系統的8種類型的塊 - 分析Vidhya

尊渡假赌尊渡假赌尊渡假赌

Mar 06, 2025 pm 12:00 PM

>解鎖在檢索型發電一代（抹布）中塊的力量：深度潛水

有效地處理大量文本數據對於構建強大而有效的檢索生成（RAG）系統至關重要。本文探討了各種構成策略，對於優化數據處理和改善AI驅動應用程序的性能至關重要。我們將深入研究不同的方法，強調他們的優勢和劣勢，並提供實用的例子。目錄的

表

抹布中有什麼塊？

塊的重要性
了解抹布架構和塊狀
>抹布系統的共同挑戰
選擇最佳塊策略
基於字符的文本塊
遞歸字符文本用langchain
文檔特定的塊（html，python，json等）
>語義塊與蘭班和Openai
代理分解（LLM驅動的塊）
基於截面的塊
>上下文塊，用於增強檢索
>保存遠距離上下文的後期塊
結論

抹布中有什麼塊？

8 Types of Chunking for RAG Systems - Analytics Vidhya 分解是將大型文本文檔分為較小，更易於管理的單元的過程。這對於抹布系統至關重要，因為語言模型的上下文窗口有限。塊確保相關信息保留在這些範圍之內，從而最大程度地提高信噪比並提高模型性能。目的不僅是要拆分數據，而且是要優化其向模型的顯示，以增強可檢索性和準確性。

為什麼要塊很重要？色度聯合創始人安東·特洛伊尼科夫（Anton Troynikov）強調，在上下文窗口中無關緊要的數據可顯著降低應用程序效率。分塊對於：

至關重要

克服上下文窗口限制：

確保由於尺寸限製而不會丟失關鍵信息。

提高信號噪聲比率：過濾不相關的內容，提高模型精度。
>提高檢索效率：促進相關信息的更快，更精確的檢索。

允許根據特定的應用需求量身定制塊策略（例如，摘要與提問）。

抹布架構和塊

8 Types of Chunking for RAG Systems - Analytics Vidhya

抹布架構涉及三個關鍵階段：

>塊：原始數據分為較小的，有意義的塊。
嵌入：塊被轉換為向量嵌入。
> 檢索和生成：相關塊，LLM使用檢索到的信息生成響應。

抹布系統中的挑戰抹布系統面臨幾個挑戰：

不准確或不完整地檢索相關信息。
幻覺，無關或有偏的輸出。
難以將檢索到的信息相干地組合。 >

選擇正確的塊策略

> 理想的塊策略取決於幾個因素：內容類型，嵌入模型和預期的用戶查詢。考慮內容的結構和密度，嵌入模型的令牌限制以及用戶可能會提出的問題的類型。

1。基於字符的文本塊

這種簡單的方法根據字符數將文本分配到固定尺寸的塊中，無論語義含義如何。雖然簡單明了，但它通常會破壞句子的結構和上下文。示例使用Python：

2。遞歸字符文本用langchain

text = "Clouds come floating into my life..."
chunks = []
chunk_size = 35
chunk_overlap = 5
# ... (Chunking logic as in the original example)

登入後複製

分裂 >這種方法使用多個分離器（例如，雙新線，單個新線，空格）遞歸地分配文本，並合併較小的塊以優化目標字符大小。它比基於角色的塊更複雜，提供更好的上下文保存。示例使用Langchain：

3。文檔特定的塊

# ... (LangChain installation and code as in the original example)

登入後複製

使用格式特定的分隔符，此方法將塊適應不同的文檔格式（HTML，Python，Markdown等）。這確保了塊尊重文檔的固有結構。原始響應中提供了使用Langchain進行Python和Markdown的示例。

4。語義塊與蘭班和Openai

語義塊的語義塊根據語義含義分開文本，使用句子嵌入等技術來識別自然斷點。這種方法確保每個塊代表一個連貫的想法。使用Langchain和OpenAI嵌入式的示例：

5。代理塊（LLM驅動的分塊）

代理塊利用LLM來識別文本中的自然斷點，從而產生了更多相關的塊。這種方法利用LLM對語言和上下文的理解來產生更有意義的細分。示例使用OpenAI API：

text = "Clouds come floating into my life..."
chunks = []
chunk_size = 35
chunk_overlap = 5
# ... (Chunking logic as in the original example)

登入後複製

6。基於截面的塊

>此方法利用文檔的固有結構（標題，小標題，部分）來定義塊。這對於結構良好的文檔（例如研究論文或報告）特別有效。使用Pymupdf和潛在的Dirichlet分配（LDA）進行基於主題的塊：

# ... (LangChain installation and code as in the original example)

登入後複製

7。上下文塊

上下文塊的重點是在每個塊中保存語義上下文。這樣可以確保檢索到的信息連貫且相關。示例使用Langchain和自定義提示：

# ... (OpenAI API key setup and code as in the original example)

登入後複製

8。晚分塊

>較晚的分塊延遲塊，直到為整個文檔生成嵌入後。這可以保留遠距離上下文依賴性，從而提高了嵌入和檢索的準確性。使用Jina嵌入模型的示例：

# ... (OpenAI API key setup and code as in the original example)

登入後複製

結論

>有效的塊對於構建高性能的抹布系統至關重要。切塊策略的選擇顯著影響信息檢索的質量和產生的響應的連貫性。通過仔細考慮數據的特徵和應用程序的特定要求，開發人員可以選擇最合適的塊方法來優化其抹布系統的性能。請記住，始終優先考慮在每個塊中保持上下文的完整性和相關性。 >

以上是抹布系統的8種類型的塊 - 分析Vidhya的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

Video Face Swap

使用我們完全免費的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學

1664

CakePHP 教程

1423

Laravel 教程

1321

PHP教程

1269

C# 教程

1249

Related knowledge

10個生成AI編碼擴展，在VS代碼中，您必須探索 Apr 13, 2025 am 01:14 AM

嘿，編碼忍者！您當天計劃哪些與編碼有關的任務？在您進一步研究此博客之前，我希望您考慮所有與編碼相關的困境，這是將其列出的。完畢？ - 讓＆＃8217

GPT-4O vs OpenAI O1：新的Openai模型值得炒作嗎？ Apr 13, 2025 am 10:18 AM

介紹 Openai已根據備受期待的“草莓”建築發布了其新模型。這種稱為O1的創新模型增強了推理能力，使其可以通過問題進行思考

視覺語言模型（VLMS）的綜合指南 Apr 12, 2025 am 11:58 AM

介紹想像一下，穿過美術館，周圍是生動的繪畫和雕塑。現在，如果您可以向每一部分提出一個問題並獲得有意義的答案，該怎麼辦？您可能會問：“您在講什麼故事？

pixtral -12b：Mistral AI＆＃039;第一個多模型模型 - 分析Vidhya Apr 13, 2025 am 11:20 AM

介紹 Mistral發布了其第一個多模式模型，即Pixtral-12b-2409。該模型建立在Mistral的120億參數Nemo 12B之上。是什麼設置了該模型？現在可以拍攝圖像和Tex

如何在SQL中添加列？ - 分析Vidhya Apr 17, 2025 am 11:43 AM

SQL的Alter表語句：動態地將列添加到數據庫在數據管理中，SQL的適應性至關重要。需要即時調整數據庫結構嗎？ Alter表語句是您的解決方案。本指南的詳細信息添加了Colu

超越駱駝戲：大型語言模型的4個新基準 Apr 14, 2025 am 11:09 AM

陷入困境的基準：駱駝案例研究 2025年4月上旬，梅塔（Meta）揭開了其Llama 4套件的模特，擁有令人印象深刻的性能指標，使他們對GPT-4O和Claude 3.5 Sonnet等競爭對手的良好定位。倫斯的中心

如何使用AGNO框架構建多模式AI代理？ Apr 23, 2025 am 11:30 AM

在從事代理AI時，開發人員經常發現自己在速度，靈活性和資源效率之間進行權衡。我一直在探索代理AI框架，並遇到了Agno（以前是Phi-

多動症遊戲，健康工具和AI聊天機器人如何改變全球健康 Apr 14, 2025 am 11:27 AM

視頻遊戲可以緩解焦慮，建立焦點或支持多動症的孩子嗎？隨著醫療保健在全球範圍內挑戰，尤其是在青年中的挑戰，創新者正在轉向一種不太可能的工具：視頻遊戲。現在是世界上最大的娛樂印度河之一

See all articles

抹布系統的8種類型的塊 - 分析Vidhya

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題