RAG는 Retrieval-Augmented Generation의 약자로, 문서 형식으로 구체적이고 관련성 있는 컨텍스트를 제공하여 대규모 언어 모델(LLM)의 성능을 향상하도록 설계된 강력한 기술입니다. 사전 훈련된 지식만을 기반으로 응답을 생성하는 기존 LLM과 달리 RAG를 사용하면 실시간 데이터 또는 도메인별 정보를 검색하고 활용하여 모델의 출력을 원하는 결과에 더욱 밀접하게 맞출 수 있습니다.
RAG와 미세 조정 모두 LLM의 성능 향상을 목표로 하지만 RAG가 더 효율적이고 리소스 친화적인 방법인 경우가 많습니다. 미세 조정에는 상당한 계산 리소스, 시간 및 전문 지식이 필요한 특수 데이터 세트에 대한 모델 재교육이 포함됩니다. 반면 RAG는 관련 정보를 동적으로 검색하여 생성 프로세스에 통합하므로 광범위한 재교육 없이도 새로운 작업에 보다 유연하고 비용 효율적으로 적응할 수 있습니다.
Ollama는 LLaMA를 로컬에서 실행하는 데 필요한 백엔드 인프라를 제공합니다. 시작하려면 Ollama 웹사이트로 이동하여 애플리케이션을 다운로드하세요. 지침에 따라 로컬 컴퓨터에 설정하세요.
LangChain은 다양한 LLM 및 벡터 데이터베이스와 작동하도록 설계된 Python 프레임워크로, RAG 에이전트 구축에 이상적입니다. 다음 명령을 실행하여 LangChain과 해당 종속성을 설치합니다.
pip install langchain
먼저 로컬 LLaMA 인스턴스와 상호작용하는 함수가 필요합니다. 설정 방법은 다음과 같습니다.
from requests import post as rpost def call_llama(prompt): headers = {"Content-Type": "application/json"} payload = { "model": "llama3.1", "prompt": prompt, "stream": False, } response = rpost( "http://localhost:11434/api/generate", headers=headers, json=payload ) return response.json()["response"]
다음으로 이 기능을 LangChain 내의 사용자 정의 LLM 클래스에 통합하세요.
from langchain_core.language_models.llms import LLM class LLaMa(LLM): def _call(self, prompt, **kwargs): return call_llama(prompt) @property def _llm_type(self): return "llama-3.1-8b"
검색자는 사용자의 쿼리를 기반으로 관련 문서를 가져오는 역할을 담당합니다. 벡터 저장을 위한 FAISS와 HuggingFace의 사전 훈련된 임베딩을 사용하여 설정하는 방법은 다음과 같습니다.
from langchain.vectorstores import FAISS from langchain_huggingface import HuggingFaceEmbeddings documents = [ {"content": "What is your return policy? ..."}, {"content": "How long does shipping take? ..."}, # Add more documents as needed ] texts = [doc["content"] for doc in documents] retriever = FAISS.from_texts( texts, HuggingFaceEmbeddings(model_name="all-MiniLM-L6-v2") ).as_retriever(k=5)
RAG 에이전트가 검색된 문서를 기반으로 응답을 생성하는 데 사용할 프롬프트 템플릿을 정의합니다.
from langchain.prompts import ChatPromptTemplate, MessagesPlaceholder faq_template = """ You are a chat agent for my E-Commerce Company. As a chat agent, it is your duty to help the human with their inquiry and make them a happy customer. Help them, using the following context: <context> {context} </context> """ faq_prompt = ChatPromptTemplate.from_messages([ ("system", faq_template), MessagesPlaceholder("messages") ])
문서 검색과 LLaMA 생성을 응집력 있는 체인으로 결합:
from langchain.chains.combine_documents import create_stuff_documents_chain document_chain = create_stuff_documents_chain(LLaMa(), faq_prompt) def parse_retriever_input(params): return params["messages"][-1].content retrieval_chain = RunnablePassthrough.assign( context=parse_retriever_input | retriever ).assign(answer=document_chain)
RAG 에이전트를 실행하기 전에 Ollama 서버가 실행 중인지 확인하세요. 다음 명령을 사용하여 서버를 시작하십시오:
ollama serve
이제 쿼리를 보내 RAG 에이전트를 테스트할 수 있습니다.
from langchain.schema import HumanMessage response = retrieval_chain.invoke({ "messages": [ HumanMessage("I received a damaged item. I want my money back.") ] }) print(response)
응답:
"손상된 상품을 받으셨다니 안타깝습니다. 당사 정책에 따라 손상된 상품을 받으셨다면 즉시 고객 서비스 팀에 파손 사진과 함께 연락해 주시기 바랍니다. 교환 또는 환불을 준비해 드리겠습니다. 환불을 받으시려면 주문 번호, 손상된 품목에 대한 세부정보 등 몇 가지 정보가 필요합니다. 요청을 처리하는 데 도움을 드릴 수 있나요?"
이러한 단계를 수행하면 실시간 컨텍스트를 통해 LLM의 성능을 향상시킬 수 있는 완전한 기능을 갖춘 로컬 RAG 에이전트를 만들 수 있습니다. 이 설정은 다양한 도메인과 작업에 적용할 수 있으므로 상황 인식 생성이 중요한 모든 애플리케이션에 적합한 다목적 솔루션입니다.
위 내용은 Ollama 및 LangChain을 사용하여 로컬 RAG 에이전트를 만드는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!