本文探讨了结合现代基于变压器的模型的简单而有效的问答系统的实现。该系统使用 T5(文本到文本传输转换器)进行答案生成,并使用句子转换器进行语义相似度匹配。
在上一篇文章中,我解释了如何使用免费的基础 LLM 模型创建带有 Web 界面的简单翻译 API。这次,让我们深入探讨使用基于免费 Transformer 的 LLM 模型和知识库构建检索增强生成 (RAG) 系统。
RAG(检索增强生成)是一种结合了两个关键组件的技术:
检索:首先,它搜索知识库(如文档、数据库等)以查找给定查询的相关信息。这通常涉及:
生成: 然后它使用语言模型(如我们代码中的 T5)通过以下方式生成响应:
将检索到的信息与原始问题相结合
根据上下文创建自然语言响应
代码中:
RAG 的好处:
该实现由一个 SimpleQASystem 类组成,该类协调两个主要组件:
您可以在这里下载最新版本的源代码:https://github.com/alexander-uspenskiy/rag_project
本指南将帮助您在 macOS 和 Windows 上设置检索增强生成 (RAG) 项目。
对于 macOS:
安装 Homebrew(如果尚未安装):
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
使用 Homebrew 安装 Python 3.8
酿造安装python@3.10
对于 Windows:
从 python.org 下载并安装 Python 3.8
安装时请务必勾选“Add Python to PATH”
macOS:
mkdir RAG_project
cd RAG_project
Windows:
mkdir RAG_project
cd RAG_project
第 2 步:设置虚拟环境
macOS:
python3 -m venv venv
源 venv/bin/activate
Windows:
python -m venv venv
venvScriptsactivate
**核心组件
def __init__(self): self.model_name = 't5-small' self.tokenizer = T5Tokenizer.from_pretrained(self.model_name) self.model = T5ForConditionalGeneration.from_pretrained(self.model_name) self.encoder = SentenceTransformer('paraphrase-MiniLM-L6-v2')
系统使用两个主要模型进行初始化:
T5-small:用于生成答案的 T5 模型的较小版本
paraphrase-MiniLM-L6-v2:用于将文本编码为有意义的向量的句子转换器模型
2。数据集准备
def prepare_dataset(self, data: List[Dict[str, str]]): self.answers = [item['answer'] for item in data] self.answer_embeddings = [] for answer in self.answers: embedding = self.encoder.encode(answer, convert_to_tensor=True) self.answer_embeddings.append(embedding)
数据集准备阶段:
1。问题处理
当用户提交问题时,系统会执行以下步骤:
嵌入生成:使用与答案相同的句子转换器模型将问题转换为向量表示。
语义搜索:系统通过以下方式找到最相关的存储答案:
2。答案生成
def get_answer(self, question: str) -> str: # ... semantic search logic ... input_text = f"Given the context, what is the answer to the question: {question} Context: {context}" input_ids = self.tokenizer(input_text, max_length=512, truncation=True, padding='max_length', return_tensors='pt').input_ids outputs = self.model.generate(input_ids, max_length=50, num_beams=4, early_stopping=True, no_repeat_ngram_size=2
答案生成过程:
3。回答清洁
def __init__(self): self.model_name = 't5-small' self.tokenizer = T5Tokenizer.from_pretrained(self.model_name) self.model = T5ForConditionalGeneration.from_pretrained(self.model_name) self.encoder = SentenceTransformer('paraphrase-MiniLM-L6-v2')
您可以在这里下载最新版本的源代码:https://github.com/alexander-uspenskiy/rag_project
def prepare_dataset(self, data: List[Dict[str, str]]): self.answers = [item['answer'] for item in data] self.answer_embeddings = [] for answer in self.answers: embedding = self.encoder.encode(answer, convert_to_tensor=True) self.answer_embeddings.append(embedding)
系统明确使用CPU来避免内存问题
需要时嵌入会转换为 CPU 张量
输入长度限制为 512 个标记
使用示例
def get_answer(self, question: str) -> str: # ... semantic search logic ... input_text = f"Given the context, what is the answer to the question: {question} Context: {context}" input_ids = self.tokenizer(input_text, max_length=512, truncation=True, padding='max_length', return_tensors='pt').input_ids outputs = self.model.generate(input_ids, max_length=50, num_beams=4, early_stopping=True, no_repeat_ngram_size=2
在终端中运行
可扩展性:
当前实现将所有嵌入保留在内存中
可以使用矢量数据库来改进大规模应用
回答质量:
严重依赖所提供答案数据集的质量
受限于T5-small的上下文窗口
可以从答案验证或置信度评分中受益
表现:
该实现结合了语义搜索和基于转换器的文本生成的优势,为问答系统提供了坚实的基础。请随意使用模型参数(如 max_length、num_beams、early_stopping、no_repeat_ngram_size 等),找到更好的方法来获得更连贯和稳定的答案。虽然还有改进的空间,但当前的实现在复杂性和功能之间提供了良好的平衡,使其适合教育目的和中小型应用程序。
编码愉快!
以上是如何使用免费的法学硕士模型和知识库创建您自己的 RAG的详细内容。更多信息请关注PHP中文网其他相关文章!