IRIS-RAG-Gen: IRIS 벡터 검색으로 구동되는 ChatGPT RAG 애플리케이션 개인화-파이썬 튜토리얼-php.cn

애플리케이션 기능

문서(PDF 또는 TXT)를 IRIS로 수집

선택한 처리 문서와 채팅

집

백엔드 개발

파이썬 튜토리얼

IRIS-RAG-Gen: IRIS 벡터 검색으로 구동되는 ChatGPT RAG 애플리케이션 개인화

Patricia Arquette

Jan 03, 2025 pm 04:56 PM

IRIS-RAG-Gen: Personalizing ChatGPT RAG Application Powered by IRIS Vector Search

안녕하세요 커뮤니티 여러분,

이 글에서는 제 애플리케이션인 iris-RAG-Gen을 소개하겠습니다.

Iris-RAG-Gen은 Streamlit 웹 프레임워크, LangChain 및 OpenAI의 도움으로 IRIS 벡터 검색 기능을 활용하여 ChatGPT를 개인화하는 생성형 AI RAG(검색 증강 생성) 애플리케이션입니다. 이 애플리케이션은 IRIS를 벡터 저장소로 사용합니다.
IRIS-RAG-Gen: Personalizing ChatGPT RAG Application Powered by IRIS Vector Search

애플리케이션 기능

문서(PDF 또는 TXT)를 IRIS에 수집
선택한 처리 문서와 채팅
수집된 문서 삭제
오픈AI 챗GPT

문서(PDF 또는 TXT)를 IRIS로 수집

문서를 수집하려면 아래 단계를 따르세요.

OpenAI 키 입력
문서 선택(PDF 또는 TXT)
문서 설명 입력
문서 수집 버튼을 클릭하세요

문서 수집 기능은 문서 세부정보를 rag_documents 테이블에 삽입하고 'rag_document id'(rag_documents의 ID) 테이블을 생성하여 벡터 데이터를 저장합니다.

IRIS-RAG-Gen: Personalizing ChatGPT RAG Application Powered by IRIS Vector Search

아래 Python 코드는 선택한 문서를 벡터로 저장합니다.

from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.document_loaders import PyPDFLoader, TextLoader
from langchain_iris import IRISVector
from langchain_openai import OpenAIEmbeddings
from sqlalchemy import create_engine,text

<span>class RagOpr:</span>
    #Ingest document. Parametres contains file path, description and file type  
    <span>def ingestDoc(self,filePath,fileDesc,fileType):</span>
        embeddings = OpenAIEmbeddings() 
        #Load the document based on the file type
        if fileType == "text/plain":
            loader = TextLoader(filePath)       
        elif fileType == "application/pdf":
            loader = PyPDFLoader(filePath)       
        
        #load data into documents
        documents = loader.load()        
        
        text_splitter = RecursiveCharacterTextSplitter(chunk_size=400, chunk_overlap=0)
        #Split text into chunks
        texts = text_splitter.split_documents(documents)
        
        #Get collection Name from rag_doucments table. 
        COLLECTION_NAME = self.get_collection_name(fileDesc,fileType)
               
        # function to create collection_name table and store vector data in it.
        db = IRISVector.from_documents(
            embedding=embeddings,
            documents=texts,
            collection_name = COLLECTION_NAME,
            connection_string=self.CONNECTION_STRING,
        )

    #Get collection name
    <span>def get_collection_name(self,fileDesc,fileType):</span>
        # check if rag_documents table exists, if not then create it 
        with self.engine.connect() as conn:
            with conn.begin():     
                sql = text("""
                    SELECT *
                    FROM INFORMATION_SCHEMA.TABLES
                    WHERE TABLE_SCHEMA = 'SQLUser'
                    AND TABLE_NAME = 'rag_documents';
                    """)
                result = []
                try:
                    result = conn.execute(sql).fetchall()
                except Exception as err:
                    print("An exception occurred:", err)               
                    return ''
                #if table is not created, then create rag_documents table first
                if len(result) == 0:
                    sql = text("""
                        CREATE TABLE rag_documents (
                        description VARCHAR(255),
                        docType VARCHAR(50) )
                        """)
                    try:    
                        result = conn.execute(sql) 
                    except Exception as err:
                        print("An exception occurred:", err)                
                        return ''
        #Insert description value 
        with self.engine.connect() as conn:
            with conn.begin():     
                sql = text("""
                    INSERT INTO rag_documents 
                    (description,docType) 
                    VALUES (:desc,:ftype)
                    """)
                try:    
                    result = conn.execute(sql, {'desc':fileDesc,'ftype':fileType})
                except Exception as err:
                    print("An exception occurred:", err)                
                    return ''
                #select ID of last inserted record
                sql = text("""
                    SELECT LAST_IDENTITY()
                """)
                try:
                    result = conn.execute(sql).fetchall()
                except Exception as err:
                    print("An exception occurred:", err)
                    return ''
        return "rag_document"+str(result[0][0])

로그인 후 복사

벡터 데이터를 검색하려면 관리 포털에서 아래 SQL 명령을 입력하세요

SELECT top 5
id, embedding, document, metadata
FROM SQLUser.rag_document2

로그인 후 복사

선택한 처리 문서와 채팅

채팅 옵션 선택 섹션에서 문서를 선택하고 질문을 입력하세요. 애플리케이션은 벡터 데이터를 읽고 관련 답변을 반환합니다
IRIS-RAG-Gen: Personalizing ChatGPT RAG Application Powered by IRIS Vector Search

아래 Python 코드는 선택한 문서를 벡터로 저장합니다.

from langchain_iris import IRISVector
from langchain_openai import OpenAIEmbeddings,ChatOpenAI
from langchain.chains import ConversationChain
from langchain.chains.conversation.memory import ConversationSummaryMemory
from langchain.chat_models import ChatOpenAI


<span>class RagOpr:</span>
    <span>def ragSearch(self,prompt,id):</span>
        #Concat document id with rag_doucment to get the collection name
        COLLECTION_NAME = "rag_document"+str(id)
        embeddings = OpenAIEmbeddings() 
        #Get vector store reference
        db2 = IRISVector (
            embedding_function=embeddings,    
            collection_name=COLLECTION_NAME,
            connection_string=self.CONNECTION_STRING,
        )
        #Similarity search
        docs_with_score = db2.similarity_search_with_score(prompt)
        #Prepair the retrieved documents to pass to LLM
        relevant_docs = ["".join(str(doc.page_content)) + " " for doc, _ in docs_with_score]
        #init LLM
        llm = ChatOpenAI(
            temperature=0,    
            model_name="gpt-3.5-turbo"
        )
        #manage and handle LangChain multi-turn conversations
        conversation_sum = ConversationChain(
            llm=llm,
            memory= ConversationSummaryMemory(llm=llm),
            verbose=False
        )
        #Create prompt
        template = f"""
        Prompt: <span>{prompt}
        Relevant Docuemnts: {relevant_docs}
        """</span>
        #Return the answer
        resp = conversation_sum(template)
        return resp['response']

로그인 후 복사

자세한 내용은 iris-RAG-Gen 공개 교환 신청 페이지를 참조하세요.

감사합니다

위 내용은 IRIS-RAG-Gen: IRIS 벡터 검색으로 구동되는 ChatGPT RAG 애플리케이션 개인화의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.