빠르게 진화하는 AI의 세계에서 대형 언어 모델은 속도, 정확성 및 비용 효율성의 경계를 높이고 있습니다. OpenAi의 O1과 경쟁하는 오픈 소스 모델 인 DeepSeek R1의 최근 출시는 특히 27 배 낮은 비용과 우수한 추론 능력을 고려할 때 AI 공간에서 인기있는 주제입니다. 효율적이고 빠른 벡터 검색을 위해 Qdrant의 이진 양자화와 쌍을 이루면 1,000 개가 넘는 페이지 문서를 색인 할 수 있습니다. 이 기사에서는 1,000 페이지를 인덱싱하고 Groq를 사용하여 몇 초 만에 복잡한 쿼리에 응답하고 도메인 별 정밀도로 통찰력을 제공 할 수있는 Bhagavad Gita AI Assistant를 만들 것입니다.
.
학습 목표
메모리 효율적인 벡터 인덱싱을 위해 qdrant에서 이진 양자화를 구현하십시오
효율적인 텍스트 검색을 위해 DeepSeek R1, Qdrant 및 Llamaindex를 사용하여 Bhagavad Gita AI 어시스턴트를 구축하는 방법을 이해하십시오.
빠른 도메인 별 쿼리 응답 및 대규모 문서 인덱싱을 위해 Groq로 Bhagavad Gita AI Assistant를 최적화하는 법을 배우십시오.
Llamaindex를 사용하여 Rag Pipeline을 구축하고 Bhagavad Gita의 1,000 페이지를 처리하기 위해 로컬 임베드를 패스트 멤버합니다.
실시간, 저도 응답에 대한 Groq의 추론에서 DeepSeek R1을 통합합니다.
사고 투명성으로 AI 구동 통찰력을 보여주기 위해 간소화 UI를 개발하십시오
이 기사는 데이터 과학 블로그 톤의 -
의 일부로 출판되었습니다.
목차 -
- deepseek r1 vs openai o1
- 벡터 데이터베이스의 이진 양자화는 무엇입니까?
- bhagavad gita 보조원 구축
deepseek r1 vs Openai o1
DeepSeek R1은 27 배 낮은 API 비용으로 OpenAi의 지배력과 추론 벤치 마크에서 거의 성능을 발휘합니다. OpenAi의 O1 폐쇄, 구독 기반 모델 ($ 200/월), DeepSeek R1 Isfree, 오픈 소스 및 예산에 민감한 프로젝트 및 실험에 이상적입니다.
추론-아크 -agi 벤치 마크 : [출처 : arc-agi deepseek]
<:> Deepseek : 20.5% 정확도 (공개), 15.8% (Semi-Private)
Openai : 21% 정확도 (공개), 18% (Semi-Private)
지금까지 내 경험에서 DeepSeek은 수학 추론, 코딩 관련 사용 사례 및 상황 인식 프롬프트에 큰 도움이됩니다. 그러나 OpenAi는 Edge Ingeneral Knowledge Vice를 유지하여 사실 발사 적 애플리케이션에 선호됩니다. >.
벡터 데이터베이스에서 이진 양자화는 무엇입니까?
이진 양자화 (BQ)는 고차원 벡터 저장 및 검색을 최적화하기위한 Qdrant의 인덱싱 압축 기술입니다. 32 비트 플로팅 포인트 벡터를 1 비트 바이너리 값으로 변환하면 메모리 사용을 40x로 슬래시하고 검색 속도를 극적으로 가속화합니다. 작동 방식
쌍나화 : 벡터는 임계 값에 따라 0과 1로 단순화됩니다 (예 : 값> 0이 1이됩니다).
효율적인 인덱싱 : Qdrant의 HNSW 알고리즘은이 이진 벡터를 사용하여 빠른 근사한 이웃 (ANN) 검색을 위해.
오버 샘플링 : 속도와 정확도의 균형을 맞추기 위해 BQ는 추가 후보 (예 : 100의 한계에 대해 200)을 검색하고 원래 벡터를 사용하여 다시 순위를 매 깁니다.
왜 중요한지
-
저장 : 1536 차원 오픈 벡터는 6KB에서 0.1875 KB로 줄어 듭니다.
속도 : 1 비트 벡터의 부울 작업이 더 빨리 실행되어 대기 시간이 줄어 듭니다.
확장 성 : 리콜 트레이드 오프를 최소화하는 대형 데이터 세트 (1m 벡터)에 이상적입니다.
정보 손실이 정확도에 크게 영향을 미치는 이진 양자화 사포 차원 벡터 (& lt; 1024)를 피하십시오. 전통적인 스칼라 양자화 (예 : UINT8)는 더 작은 임베딩에 더 적합 할 수 있습니다.
Bhagavad Gita Assistant 건축
아래는 Bhagwad Gita Assistant를 구축 할 수있는 방법에 대해 설명하는 흐름도입니다.
-
아키텍처 개요
데이터 수집 : 900 페이지 Bhagavad gita pdf 텍스트 청크로 분할.
<:> 임베딩 : Qdrant Fastembed의 텍스트-벡터 임베딩 모델.
ui : 확장 가능한 "사고 과정"가시성이있는 간소화 앱
단계별 구현
이제 우리가 한 단계를 하나씩 따라하자 :
1 단계 : 설치 및 초기 설정
Llamaindex를 사용하여 Rag 파이프 라인의 기초를 설정하겠습니다. Core Llamaindex 라이브러리, Qdrant Vector Store Integration, Embedding 용 Fastembed 및 LLM Access 용 Groq를 포함한 필수 패키지를 설치해야합니다.
참고 :
-
문서 인덱싱의 경우 Colab에서 를 사용하여 데이터를 저장합니다. 이것은 일회성 프로세스입니다.
-
일단 데이터가 저장되면 vs 코드, 간소 또는 기타 플랫폼에서 컬렉션 이름을 사용하여 어디서나 추론을 실행할 수 있습니다.
-
설치가 완료되면 필요한 모듈을 가져 오겠습니다.
2 단계 : 문서 처리 및 임베딩
여기서, 우리는 원시 텍스트를 벡터 표현으로 변환하는 중요한 작업을 처리합니다. SimpledirectoryReader는 지정된 폴더에서 문서를로드합니다
폴더, 즉 데이터 디렉토리를 생성하고 그 안에 모든 문서를 추가하십시오. 우리의 경우, 우리는 Bhagavad Gita 문서를 다운로드하여 데이터 폴더에 저장했습니다.
~ 900 페이지의 Bhagavad Gita 문서를 여기에서 다운로드 할 수 있습니다. iskconmangaluru !pip install llama-index
!pip install llama-index-vector-stores-qdrant llama-index-embeddings-fastembed
!pip install llama-index-readers-file
!pip install llama-index-llms-groq
로그인 후 복사
로그인 후 복사
로그인 후 복사
Qdrant의 Fastembed는 효율적인 임베딩 생성을 위해 설계된 가볍고 빠른 파이썬 라이브러리입니다. 인기있는 텍스트 모델을 지원하고 수량화 된 모델 가중치를 사용하여 ONNX 런타임을 추론하여 고급 의존성없이 고성능을 보장합니다. .
텍스트 청크를 임베딩으로 변환하려면 Qdrant의 Fastembed를 사용합니다. 메모리를 효율적으로 관리하기 위해 50 문서의 배치로 처리합니다.
3 단계 : 이진 양자화를 사용한 QDRANT 설정
성능을 위해 최적화 된 설정으로 벡터 데이터베이스 인 Qdrant 클라이언트를 구성하는 시간. 우리는 특정 벡터 매개 변수와 함께 "bhagavad-gita"라는 컬렉션을 만들고 효율적인 저장 및 검색을위한 이진 양자화를 활성화합니다.
Qdrant 클라이언트를 사용하는 세 가지 방법은 입니다
인 메모리 모드 : Location =”: Memory :”, 이는 한 번만 실행되는 임시 인스턴스를 생성합니다. import logging
import sys
import os
import qdrant_client
from qdrant_client import models
from llama_index.core import SimpleDirectoryReader
from llama_index.embeddings.fastembed import FastEmbedEmbedding
from llama_index.llms.groq import Groq # deep seek r1 implementation
로그인 후 복사
로그인 후 복사
localhost : location = "localhost"를 사용하여 Docker 인스턴스를 실행해야합니다. Qdrant QuickStart를 여기에서 설정할 수 있습니다.
클라우드 스토리지 : 클라우드에 컬렉션을 저장합니다. 이렇게하려면 새 클러스터를 만들고 클러스터 이름을 제공하고 API 키를 생성하십시오. 키를 복사하고 컬 명령에서 URL을 검색하십시오.
컬렉션 이름은 고유해야합니다. 모든 데이터 변경 후에도 변경해야합니다.
.
먼저 지정된 collection_name이있는 컬렉션이 qdrant에 존재하는지 확인합니다. 그렇지 않으면 1,024 차원 벡터를 저장하고 거리 측정에 코사인 유사성을 사용하도록 구성된 새로운 컬렉션을 만듭니다.
우리는 원래 벡터에 대한 온 디스크 스토리지를 활성화하고 이진 양자화를 적용하여 벡터를 압축하여 메모리 사용량을 줄이고 검색 속도를 향상시킵니다. Always_ram 매개 변수는 양자화 된 벡터가 더 빠른 액세스를 위해 RAM으로 유지되도록합니다.
4 단계 : 문서를 색인
인덱싱 프로세스는 처리 된 문서와 그 임베지를 배치로 Qdrant에 업로드합니다. 각 문서는 벡터 표현과 함께 저장되어 검색 가능한 지식 기반을 만듭니다.
GPU는이 단계에서 사용되며 데이터 크기에 따라이 단계는 몇 분이 걸릴 수 있습니다.
step5 : Deepseek r1 가있는 Rag Pipeline
프로세스 -1 : R- 관련 문서를 검색
검색 함수는 사용자 쿼리를 가져 와서 임베딩으로 변환하며 코사인 유사성을 기반으로 QDRANT에서 가장 관련성이 높은 문서를 검색합니다. 우리는 Bhagavad-Gītā에 대한 샘플 쿼리로 이것을 보여주고, 검색된 컨텍스트에 액세스하고 인쇄하는 방법을 보여줍니다.!pip install llama-index
!pip install llama-index-vector-stores-qdrant llama-index-embeddings-fastembed
!pip install llama-index-readers-file
!pip install llama-index-llms-groq
로그인 후 복사
로그인 후 복사
로그인 후 복사
프로세스 -2 : a-augmenting promp
Rag의 경우 chatprompttemplate을 사용하여 시스템의 상호 작용 템플릿을 정의하는 것이 중요합니다. 이 템플릿은 Bhagavad-Gita에서 지식이 풍부한 특수 비서를 만듭니다. 여러 언어 (영어, 힌디어, 산스크리트어)를 이해할 수 있습니다.
컨텍스트 주입 및 쿼리 처리를위한 구조적 형식이 포함되어 있으며, 텍스트 외 질문을 처리하기위한 명확한 지침.
Process-3 : G- 응답 생성
최종 파이프 라인은 응집력있는 걸레 시스템에 모든 것을 하나로 묶습니다. 검색-보조 생성 패턴을 따릅니다. 관련 문서 검색, 전문적인 프롬프트 템플릿으로 보강하고 LLM을 사용하여 응답을 생성합니다. 여기 LLM의 경우 Groq에서 호스팅 된 DeepSeek R-1 Distill Llama 70 B를 사용하여 여기에서 키를 가져옵니다. Groq Console.
출력 : (구문 : & lt; 생각> 추론 & lt;/생각> 응답)
import logging
import sys
import os
import qdrant_client
from qdrant_client import models
from llama_index.core import SimpleDirectoryReader
from llama_index.embeddings.fastembed import FastEmbedEmbedding
from llama_index.llms.groq import Groq # deep seek r1 implementation
로그인 후 복사
로그인 후 복사
이제이 응용 프로그램을 다시 사용해야한다면 어떨까요? 우리는 다시 모든 단계를 겪어야합니까?
대답은 아니오입니다
step6 : 저장된 인덱스 추론
이미 작성한 내용에는 큰 차이가 없습니다. query_points를 실행 해야하는 수집 이름과 함께 동일한 검색 및 파이프 라인 기능을 재사용합니다.
우리는 두 가지 함수 이상의 동일한 기능과 message_template를 sleamlit app.py에서 사용합니다.
step7 : leamlit ui
모든 사용자 질문이 끝나면 주가 새로 고침됩니다. 전체 페이지를 다시 새로 고치지 않으려면 Streamlit Cache_Resource에서 몇 가지 초기화 단계를 정의합니다.
사용자가 질문에 들어가면 Fastembed는 모델 가중치를 한 번만 다운로드 할 것입니다. Groq 및 Qdrant Instantiation도 마찬가지입니다.
data = SimpleDirectoryReader("data").load_data()
texts = [doc.text for doc in data]
embeddings = []
BATCH_SIZE = 50
로그인 후 복사
응답 출력을 발견하면 형식은 & lt; think & gt; 추론 & lt;/생각 & gt; 응답. <.>
UI에서, 나는 Streamlit expander 아래에 추론을 유지하고, 추론 부분을 검색하고, 문자열 색인을 사용하여 추론과 실제 응답을 추출하자.
챗봇 구성 요소
는 Sleamlit의 세션 상태에서 메시지 기록을 초기화합니다. 사이드 바의 "클리어 채팅"버튼을 사용하면 사용자 가이 기록을 재설정 할 수 있습니다.
는 저장된 메시지를 통해 반복하여 채팅과 같은 인터페이스에 표시합니다. 보조 응답의 경우 Extract_thinking_and_answer 함수를 사용하여 실제 답변과 사고 과정 (확장 가능한 섹션에 표시)을 분리합니다. 나머지 코드는 챗봇 구성 요소를 간소화에서 정의하는 표준 형식, 즉 사용자 질문에 대한 입력 필드를 생성하는 입력 처리를 정의하는 표준 형식입니다. 질문이 제출되면 메시지 기록에 표시되어 추가됩니다. 이제 로딩 스피너를 표시하면서 Rag 파이프 라인을 통해 사용자의 질문을 처리합니다. 응답은 사고 과정으로 나뉘어집니다.
중요한 링크
!pip install llama-index
!pip install llama-index-vector-stores-qdrant llama-index-embeddings-fastembed
!pip install llama-index-readers-file
!pip install llama-index-llms-groq
로그인 후 복사
로그인 후 복사
로그인 후 복사
전체 코드를 찾을 수 있습니다
대체 bhagavad gita pdf- 다운로드
"& lt; chelple-api-key>"자리 표시자를 키로 교체하십시오
결론
DeepSeek R1의 추론, Qdrant의 이진 양자화 및 Llamaindex의 Rag Pipeline을 결합하여 1,000 페이지를 제공하는 AI 어시스턴트를 구축했습니다. 이 프로젝트는 도메인 별 LLM 및 최적화 된 벡터 데이터베이스가 비용 효율성을 유지하면서 고대 텍스트에 대한 액세스를 민주화 할 수있는 방법을 강조합니다. 오픈 소스 모델이 계속 발전함에 따라 틈새 AI 응용 프로그램의 가능성은 무한합니다. -
키 테이크 아웃
deepseek r1 라이벌 Openai O1은 1/27의 추론에 대한 Openai O1, 비용, 성경 분석과 같은 도메인 별 작업에 이상적이며 Openai는 더 넓은 지식 요구에 적합합니다. -
Llamaindex 및 Qdrant를 사용하여 문서 처리, 임베딩 생성 및 벡터 저장을위한 시연 된 코드 예제를 사용하여 Rag Pipeline 구현 이해.
Qdrant에서 이진 양자화를 통한 효율적인 벡터 저장 최적화, 성능과 정확도를 유지하면서 대규모 문서 컬렉션의 처리를 가능하게합니다.
다국어 쿼리 (영어, 힌디어, 산스크리트어)를 처리하고 컨텍스트 외 질문을 효과적으로 처리하기위한 명확한 템플릿을 갖춘 구조화 된 프롬프트 엔지니어링 구현.
벡터 데이터베이스에 저장된 응용 프로그램을 추론하기 위해 간소화를 사용하여 대화식 UI.
자주 묻는 질문 -
q1. 이진 양자화가 답변 품질을 줄입니까?
패스트 멤버는 산스크리트어/힌디어와 같은 영어가 아닌 텍스트를 처리 할 수 있습니까?
Q3. 왜 OpenAi O1보다 DeepSeek r1을 선택합니까?
위 내용은 Bhagavad gita ai 조수 구축의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!