Anthropic '의 상황 검색 : 구현 가이드-일체 포함-php.cn

Anthropic '의 상황 검색 : 구현 가이드

William Shakespeare

풀어 주다： 2025-03-02 09:34:12

원래의

448명이 탐색했습니다.

RAG (Retrieval-Augmented Generation)는 외부 지식을 통합하여 AI 모델을 향상시킵니다. 그러나 전통적인 걸레는 종종 문서를 조각하여 중요한 맥락을 잃고 정확도에 영향을 미칩니다. 의 문맥 검색은 임베딩하기 전에 각 문서 청크에 간결하고 문맥이 풍부한 설명을 추가함으로써이를 해결합니다. 이는 검색 오류를 크게 줄여서 다운 스트림 작업 성능을 향상시킵니다. 이 기사는 상황에 맞는 검색 및 그 구현을 자세히 설명합니다 래그가있는 헝겊 Langchain 및 Rag를 활용하여 외부 데이터를 LLMS와 통합합니다. 상황에 맞는 검색은

를 설명했다

전통적인 헝겊 방법은 문서를 더 작은 덩어리로 나누어 쉽게 검색 할 수 있지만 필수 컨텍스트를 제거 할 수 있습니다. 예를 들어, 청크는 도시를 지정하지 않고 "385 만 명이 넘는 주민들이 유럽 연합에서 가장 인구가 많은 도시로 만듭니다"라고 말할 수 있습니다. 이러한 컨텍스트 부족은 정확도를 방해합니다 문맥 검색은 임베딩 전에 각 청크에 대한 짧은 문맥별 요약을 선물하여이를 해결합니다. 앞의 예는 다음과 같습니다.

다양한 데이터 세트 (코드베이스, 과학 논문, 소설)에 걸친 Anthropic의 내부 테스트는 상황에 맞는 임베딩 모델 및 상황에 맞는 BM25와 쌍을 이룰 때 상황에 맞는 오류를 최대 49% 감소 시킨다는 것을 보여줍니다.

컨텍스트 검색 구현 이 섹션은 샘플 문서를 사용하여 단계별 구현을 간략하게 설명합니다.

1 단계 : 청크 생성

문서를 더 작고 독립적 인 청크 (여기, 문장)로 나눕니다

2 단계 : 프롬프트 템플릿 정의

컨텍스트 생성 프롬프트 정의 (Anthropic의 템플릿이 사용됨) :

3 단계 : llm 초기화 LLM을 선택하십시오 (OpenAi의 GPT-4O는 여기에서 사용됩니다) :

<code>contextualized_chunk = """Berlin is the capital and largest city of Germany, known for being the EU's most populous city within its limits.
Its more than 3.85 million inhabitants make it the European Union's most populous city, as measured by population within city limits.
"""</code>

로그인 후 복사

4 단계 : 체인 생성

프롬프트와 llm을 연결하십시오 : Anthropic's Contextual Retrieval: A Guide With Implementation 5 단계 : 청크 처리

각 청크에 대해 컨텍스트를 생성하십시오 :

(출력은 원래 예제에 표시됩니다) 향상된 정확도를 위해 재고 가장 관련성이 높은 덩어리를 우선 순위로하여 검색을 추가로 재검토합니다. 이는 정확도를 향상시키고 비용을 줄입니다. Anthropic의 테스트에서 재고는 검색 오차를 5.7%에서 1.9%로 감소 시켰으며, 67% 개선. Anthropic's Contextual Retrieval: A Guide With Implementation

Anthropic's Contextual Retrieval: A Guide With Implementation

추가 고려 사항 프롬프트의 전체 지식 기반을 포함하여 소규모 지식 기반 (& lt; 200,000 토큰)의 경우 는 검색 시스템을 사용하는 것보다 더 효율적 일 수 있습니다. 또한 프롬프트 캐싱 (Claude와 함께 사용 가능)을 사용하여 비용을 크게 줄이고 응답 시간을 개선 할 수 있습니다.