GPT를 사용하여 챗봇을 구축하기 위한 단계별 심층 분석
ChatGPT와의 채팅은 재미있고 유익합니다. 채팅을 통해 새로운 아이디어를 탐색할 수 있습니다. 그러나 이는 좀 더 일상적인 사용 사례이며, 특히 환각을 일으킬 수 있다는 사실을 깨닫고 나면 참신함은 빠르게 사라집니다.
ChatGPT를 보다 효율적으로 사용하는 방법은 무엇입니까? OpenAI가 GPT3.5 API 시리즈를 출시한 후에는 단순한 채팅 이상의 작업을 수행할 수 있습니다. QA(질문 및 답변)는 기업과 개인에게 매우 효과적인 사용 사례입니다. 자연어를 사용하여 자신의 파일/데이터에 대해 봇에게 질문하면 파일에서 정보를 검색하고 응답을 생성하여 신속하게 답변할 수 있습니다. 고객 지원, 포괄적인 사용자 조사, 개인 지식 관리 등에 사용하세요.
파일 관련 질문을 봇에게 물어보세요. 안정적인 확산 방법을 사용하여 생성된 이미지입니다.
이 기사에서는 일부 방법이 작동하지 않는 이유를 포함하여 자신의 데이터를 기반으로 Q&A 챗봇을 구축하는 방법과 llama-index 및 GPT API를 사용하여 문서를 구축하는 방법에 대한 단계별 가이드를 살펴봅니다. Q&A 챗봇을 효율적으로 활용해보세요.
(Q&A 챗봇 구축 방법만 알고 싶으시다면 "문서 Q&A 챗봇 단계별 구축" 섹션으로 바로 이동하세요)
다양한 방법을 살펴보세요
ChatGPT가 나오면 작업 보조자로 사용하여 시간과 에너지 등을 절약할 수 있습니다.
가장 먼저 떠오르는 것은 이 목표를 달성하기 위해 자신의 데이터를 사용하여 GPT 모델을 미세 조정하는 것입니다. 그러나 미세 조정에는 상당한 비용이 들고 예제가 포함된 대규모 데이터 세트가 필요합니다. 파일이 변경될 때마다 미세 조정하는 것도 불가능합니다. 더 중요한 점은 미세 조정을 통해 모델이 문서의 모든 정보를 "알게" 할 수는 없지만 모델에 새로운 기술을 가르쳐야 한다는 것입니다. 따라서 미세 조정은 (다중)문서 품질 보증에 좋은 생각이 아닙니다.
두 번째 방법은 프롬프트에 컨텍스트를 제공하여 프롬프트 엔지니어링을 수행하는 것입니다. 예를 들어, 질문을 직접 묻는 대신 실제 질문 앞에 원본 문서 내용을 추가할 수 있습니다. 그러나 GPT 모델의 관심은 제한되어 있습니다. 힌트에서 수천 단어(약 4000개 토큰 또는 3000단어)만 허용할 수 있습니다. 수천 개의 고객 피드백 이메일과 수백 개의 제품 문서로 인해 프롬프트에서 모든 컨텍스트를 제공하는 것은 불가능합니다. API에 긴 컨텍스트를 전달하는 것도 사용된 토큰 수에 따라 가격이 책정되므로 비용이 많이 듭니다.
I will ask you questions based on the following context: — Start of Context — YOUR DOCUMENT CONTENT — End of Context— My question is: “What features do users want to see in the app?”
프롬프트에는 입력 토큰 수에 제한이 있으므로 문제를 해결하기 위해 다음 아이디어를 생각해 냈습니다. 먼저 알고리즘을 사용하여 문서를 검색하고 관련 발췌문을 선택한 다음 Passed to라는 질문으로 이를 맥락화합니다. GPT 모델. 이 과정에서 간단하고 편리한 gpt-index 라이브러리(현재 LlamaIndex로 이름이 변경됨)를 사용해야 합니다.
파일에서 관련 부분을 추출하여 프롬프트에 다시 피드하세요.
다음 섹션에서는 LlamaIndex와 GPT를 사용하여 자신의 데이터로 Q&A 챗봇을 구축하는 방법에 대한 단계별 튜토리얼이 제공됩니다.
문서 Q&A 챗봇을 단계별로 구축해 보세요
이 섹션에서는 LlamaIndex와 GPT(text-davinci-003)를 사용하여 기존 문서를 기반으로 Q&A 챗봇을 구축하여 문서에 대해 자연스럽게 질문할 수 있도록 하겠습니다. 언어 질문을 하고 챗봇으로부터 답변을 받으세요.
전제 조건
이 튜토리얼을 시작하기 전에 몇 가지 준비가 필요합니다.
- OpenAI API 키는 https://platform.openai.com/account/api-keys에서 찾을 수 있습니다.
- 파일 데이터베이스. LlamaIndex는 Notion, Google Docs, Asana 등과 같은 다양한 데이터 소스를 지원합니다. 이 기사에서는 간단한 텍스트 파일만 데모용으로 사용됩니다.
- 로컬 Python 환경 또는 온라인 Google Colab 노트북.
워크플로
워크플로는 매우 간단하며 몇 가지 단계만 필요합니다.
- 1. LlamaIndex를 사용하여 문서 데이터에 대한 색인을 만듭니다.
- 2. 자연어를 사용하여 인덱스를 쿼리합니다.
- 3.LlamaIndex는 관련 부분을 검색하여 GPT 힌트에 전달합니다.
- 4. GPT에 관련 컨텍스트를 요청하고 응답을 작성하세요.
LlamaIndex가 하는 일은 원시 문서 데이터를 쿼리에 매우 효율적인 벡터 인덱스로 변환하는 것입니다. 이 색인을 사용하여 쿼리와 데이터의 유사성을 기반으로 가장 관련성이 높은 부분을 찾습니다. 그런 다음 GPT가 질문에 답할 수 있는 컨텍스트를 갖도록 검색된 콘텐츠를 GPT로 보낼 프롬프트에 삽입합니다.
Setup
먼저 라이브러리를 설치해야 합니다. 터미널이나 Google Colab Notebook에서 다음 명령을 실행하세요. 이 명령은 LlamaIndex와 OpenAI를 모두 설치합니다.
!pip install llama-index !pip install openai
다음 단계는 이러한 라이브러리를 Python으로 가져오고 새 .py 파일에 OpenAI API 키를 설정하는 것입니다.
# 导入必要的库 from llama_index import GPTSimpleVectorIndex, Document, SimpleDirectoryReader import os os.environ['OPENAI_API_KEY'] = 'sk-YOUR-API-KEY'
색인 작성 및 저장
필요한 라이브러리를 설치하고 가져온 후에는 문서의 색인을 작성해야 합니다.
문서를 로드하려면 LllamaIndex에서 제공하는 SimpleDirectoryReader 메서드를 사용하거나 문자열에서 로드할 수 있습니다.
# 从一个目录中加载 documents = SimpleDirectoryReader('your_directory').load_data() # 从字符串中加载,假设将数据保存为字符串text1,text2,... text_list = [text1, text2, ...] documents = [Document(t) for t in text_list]
LlamaIndex还提供各种数据连接器,包括Notion、Asana、Google Drive、Obsidian等。可以在https://llamahub.ai/找到可用的数据连接器。
加载完文档后,就可以用以下方法简单地构建索引了:
# 构建一个简单的向量索引 index = GPTSimpleVectorIndex(documents)
如果想保存索引并加载它以便将来使用,可以使用以下方法:
# 将索引保存在`index.json`文件中 index.save_to_disk('index.json') # 从保存的`index.json`文件中加载索引 index = GPTSimpleVectorIndex.load_from_disk('index.json')
查询索引并获得响应
查询索引很简单:
# 查询索引 response = index.query("What features do users want to see in the app?") print(response)
一个回应的例子。
然后就可以得到答案了。在幕后,LlamaIndex将接收提示,在索引中搜索相关块,并将提示和相关块传递给GPT。
一些高级用法的说明
上面的步骤只是展示了使用LlamaIndex和GPT回答问题的一个非常简单的入门用法。但可以做得比这更多。事实上,可以配置LlamaIndex来使用不同的大型语言模型(LLM),为不同的任务使用不同类型的索引,用一个新的索引来更新现有的索引,等等。如果有兴趣,可以在https://gpt-index.readthedocs.io/en/latest/index.html,阅读他们的文档。
总结
本文中展示了如何结合使用GPT和LlamaIndex来构建一个文档问答聊天机器人。虽然GPT(和其他LLM)本身就很强大,但如果把它与其他工具、数据或流程结合起来,它的力量也会被大大增强。
위 내용은 GPT를 사용하여 챗봇을 구축하기 위한 단계별 심층 분석의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











번역기 | Bugatti 리뷰 | Chonglou 이 문서에서는 GroqLPU 추론 엔진을 사용하여 JanAI 및 VSCode에서 초고속 응답을 생성하는 방법을 설명합니다. 모두가 AI의 인프라 측면에 초점을 맞춘 Groq와 같은 더 나은 대규모 언어 모델(LLM)을 구축하기 위해 노력하고 있습니다. 이러한 대형 모델의 빠른 응답은 이러한 대형 모델이 더 빠르게 응답하도록 보장하는 핵심입니다. 이 튜토리얼에서는 GroqLPU 구문 분석 엔진과 API 및 JanAI를 사용하여 노트북에서 로컬로 액세스하는 방법을 소개합니다. 이 기사에서는 코드 생성, 코드 리팩터링, 문서 입력 및 테스트 단위 생성을 돕기 위해 이를 VSCode에 통합합니다. 이 기사에서는 우리만의 인공 지능 프로그래밍 도우미를 무료로 만들 것입니다. GroqLPU 추론 엔진 Groq 소개

테렌스 타오(Terence Tao)를 비롯한 많은 수학자들이 극찬한 공식 수학 도구인 LeanCopilot이 다시 진화했다고요? 방금 Caltech 교수인 Anima Anandkumar는 팀이 LeanCopilot 논문의 확장 버전을 출시하고 코드 기반을 업데이트했다고 발표했습니다. 이미지 논문 주소: https://arxiv.org/pdf/2404.12534.pdf 최신 실험에 따르면 이 Copilot 도구는 수학적 증명 단계의 80% 이상을 자동화할 수 있는 것으로 나타났습니다! 이 기록은 이전 베이스라인 이솝보다 2.3배 향상된 기록이다. 그리고 이전과 마찬가지로 MIT 라이선스에 따른 오픈 소스입니다. 사진 속 그는 중국 소년 송페이양이다.

Plaud Note AI Voice Recorder(Amazon에서 159달러에 구매 가능)를 개발한 회사인 Plaud가 신제품을 발표했습니다. NotePin이라고 불리는 이 장치는 AI 메모리 캡슐로 설명되며 Humane AI Pin과 마찬가지로 착용 가능합니다. 노트핀은

AIGC에 대해 자세히 알아보려면 다음을 방문하세요. 51CTOAI.x 커뮤니티 https://www.51cto.com/aigc/Translator|Jingyan Reviewer|Chonglou는 인터넷 어디에서나 볼 수 있는 전통적인 문제 은행과 다릅니다. 고정관념에서 벗어나 생각해야 합니다. LLM(대형 언어 모델)은 데이터 과학, 생성 인공 지능(GenAI) 및 인공 지능 분야에서 점점 더 중요해지고 있습니다. 이러한 복잡한 알고리즘은 인간의 기술을 향상시키고 많은 산업 분야에서 효율성과 혁신을 촉진하여 기업이 경쟁력을 유지하는 데 핵심이 됩니다. LLM은 자연어 처리, 텍스트 생성, 음성 인식 및 추천 시스템과 같은 분야에서 광범위하게 사용될 수 있습니다. LLM은 대량의 데이터로부터 학습하여 텍스트를 생성할 수 있습니다.

휴머노이드 로봇 아메카가 2세대로 업그레이드 되었습니다! 최근 세계이동통신학회(MWC2024)에서 세계 최고 수준의 로봇 아메카(Ameca)가 다시 등장했다. 행사장 주변에는 아메카가 많은 관중을 끌어 모았습니다. GPT-4의 축복으로 Ameca는 다양한 문제에 실시간으로 대응할 수 있습니다. "춤을 추자." 감정이 있느냐는 질문에 아메카는 매우 생생해 보이는 일련의 표정으로 대답했습니다. 불과 며칠 전, Ameca의 뒤를 잇는 영국 로봇 회사인 EngineeredArts는 팀의 최신 개발 결과를 시연했습니다. 영상 속 로봇 아메카는 시각 능력을 갖고 있어 방 전체와 특정 사물을 보고 묘사할 수 있다. 가장 놀라운 점은 그녀도 할 수 있다는 것입니다.

오픈 소스 대규모 언어 모델의 성능이 지속적으로 향상됨에 따라 코드, 권장 사항, 텍스트 요약 및 QA(질문 응답) 쌍 작성 및 분석 성능이 모두 향상되었습니다. 그러나 QA와 관련하여 LLM은 훈련되지 않은 데이터와 관련된 문제가 부족한 경우가 많으며 규정 준수, 영업 비밀 또는 개인 정보 보호를 보장하기 위해 많은 내부 문서가 회사 내에 보관됩니다. 이러한 문서를 쿼리하면 LLM은 환각을 느끼고 관련이 없거나 조작되었거나 일관성이 없는 콘텐츠를 생성할 수 있습니다. 이 문제를 처리할 수 있는 기술 중 하나는 검색 증강 생성(RAG)입니다. 여기에는 생성의 품질과 정확성을 향상시키기 위해 훈련 데이터 소스를 넘어 권위 있는 지식 기반을 참조하여 응답을 향상시키는 프로세스가 포함됩니다. RAG 시스템에는 코퍼스에서 관련 문서 조각을 검색하기 위한 검색 시스템이 포함되어 있습니다.

GraphRAG(Graph Retrieval Enhanced Generation)는 점차 대중화되고 있으며 기존 벡터 검색 방법을 강력하게 보완하는 수단이 되었습니다. 이 방법은 그래프 데이터베이스의 구조적 특성을 활용하여 데이터를 노드와 관계의 형태로 구성함으로써 검색된 정보의 깊이와 맥락적 관련성을 향상시킵니다. 그래프는 다양하고 상호 연관된 정보를 표현하고 저장하는 데 자연스러운 이점을 가지며, 다양한 데이터 유형 간의 복잡한 관계와 속성을 쉽게 캡처할 수 있습니다. 벡터 데이터베이스는 이러한 유형의 구조화된 정보를 처리할 수 없으며 고차원 벡터로 표현되는 구조화되지 않은 데이터를 처리하는 데 더 중점을 둡니다. RAG 애플리케이션에서 구조화된 그래프 데이터와 구조화되지 않은 텍스트 벡터 검색을 결합하면 이 기사에서 논의할 내용인 두 가지 장점을 동시에 누릴 수 있습니다. 구조

산업자동화 기술 분야에서 최근 무시하기 어려운 두 핫스팟이 있는데 바로 인공지능(AI)과 엔비디아다. 원본 콘텐츠의 의미를 바꾸지 말고, 콘텐츠를 미세 조정하고, 콘텐츠를 다시 작성하고, 계속하지 마세요. “그뿐만 아니라 Nvidia가 원래 그래픽 처리 장치(GPU)에만 국한되지 않기 때문에 둘은 밀접하게 관련되어 있습니다. 엔비디아는 최근 GPU를 확장해 디지털 트윈 분야까지 확장하고 있으며, 최근 떠오르는 AI 기술과도 긴밀하게 연결돼 있다”고 말했다. Schneider Electric, Teradyne Robotics, MiR 및 Universal Robots 회사도 포함됩니다. 최근 엔비디아(Nvidia)는
