使用通用句子编码器和Wikiqa创建QA模型-人工智能-PHP中文网

首页

科技周边

人工智能

使用通用句子编码器和Wikiqa创建QA模型

William Shakespeare

Apr 19, 2025 am 10:00 AM

利用嵌入模型的力量来回答高级问题

在当今信息丰富的世界中，立即获得精确答案的能力至关重要。本文展示了使用通用句子编码器（use）和Wikiqa数据集构建强大的提问（QA）模型。我们利用先进的嵌入技术来弥合人类查询和机器理解之间的差距，从而创造了更直观的信息检索体验。

关键学习成果：

掌握嵌入模型的应用，例如用于将文本数据转换为高维矢量表示形式。
导航选择和微调预训练模型的复杂性，以获得最佳性能。
通过实用的编码示例，使用嵌入模型和余弦相似性实现功能性质量检查系统。
掌握余弦相似性的基本原理及其在比较矢量文本中的作用。

（本文是数据科学博客马拉松的一部分。）

目录：

在NLP中嵌入模型
了解嵌入表示形式
语义相似性：捕获文本含义
利用通用句子编码器
建立问答发电机
NLP中嵌入模型的优势
质量检查系统开发中的挑战
常见问题

嵌入自然语言处理中的模型

我们利用现代NLP的基石嵌入模型。这些模型将文本转化为反映语义含义的数值格式。单词，短语或句子被转换为数值向量（嵌入），使算法能够以复杂的方式处理和理解文本。

了解嵌入模型

单词嵌入式表示单词是密集的数值向量，其中语义上相似的单词具有相似的矢量表示。该模型没有手动分配这些编码，而是在培训期间将它们学习为可训练的参数。嵌入尺寸各不相同（例如，300至1024），更高的尺寸捕获了更细微的语义关系。将嵌入方式视为一个“查找表”，该表格存储每个单词的向量，以进行有效的编码和检索。

使用通用句子编码器和Wikiqa创建QA模型

语义相似性：量化含义

语义相似性衡量两个文本段如何传达相同的含义。该功能使系统能够理解同一概念的各种语言表达，而无需针对每个变化的明确定义。

使用通用句子编码器和Wikiqa创建QA模型

通用句子编码器用于增强文本处理

该项目采用通用句子编码器（使用），该句子从文本中生成高维向量，非常适合语义相似性和文本分类等任务。针对更长的文本序列进行了优化，对使用的数据集进行了培训，并适应了各种NLP任务。它为每个输入句子输出512维矢量。

使用使用：嵌入生成的示例：

 ！

导入TensorFlow作为TF
导入TensorFlow_Hub作为集线器

embed = hub.load（“ https://tfhub.dev/google/universal-sentence-encoder/4”）
句子= [
    “快速的棕色狐狸跳过懒狗。”，
    “我是我想嵌入的句子”
这是给出的
嵌入=嵌入（句子）

打印（嵌入）
打印（embeddings.numpy（））

登录后复制

输出：

使用通用句子编码器和Wikiqa创建QA模型

使用利用深度平均网络（DAN）体系结构，重点是句子级别的含义，而不是单个单词。有关详细信息，请参阅使用纸和Tensorflow的嵌入文档。该模块处理预处理，消除了对手动数据准备的需求。

使用通用句子编码器和Wikiqa创建QA模型

使用模型是部分预先训练的，用于文本分类，使其适应具有最小标记数据的各种分类任务。

实施问答生成器

我们利用Wikiqa数据集进行此实现。

导入大熊猫作为pd
导入TensorFlow_Hub作为集线器
导入numpy作为NP
来自sklearn.metrics.pairwise导入cosine_sibilarity

＃加载数据集（根据需要调整路径）
df = pd.read_csv（'/content/train.csv'）

问题= df ['问题']。tolist（）
答案= df ['答案']。tolist（）

＃加载通用句子编码器
embed = hub.load（“ https://tfhub.dev/google/universal-sentence-encoder/4”）

＃计算嵌入
Question_embeddings = embed（问题）
answers_embeddings = embed（答案）

＃计算相似性得分
samelity_scores = cosine_simurility（question_embeddings，answers_embeddings）

＃预测答案
predicted_indices = np.argmax（Sameity_scores，axis = 1）
预测= [答案[idx] for predict_indices中的IDX]

＃打印问题和预测答案
对于我，列举（问题）中的问题：
    打印（f“问题：{问题}”）
    print（f“预测答案：{precoverions [i]} \ n”）

登录后复制

使用通用句子编码器和Wikiqa创建QA模型

修改了代码以处理自定义问题，从数据集中识别最相似的问题并返回其相应的答案。

 def ask_question（new_question）：
    new_question_embedding = embed（[new_question]）
    samelity_scores = cosine_simurility（new_question_embedding，Question_embeddings）
    must_similar_question_idx = np.argmax（Samelity_scores）
    must_similar_question =问题[most_similar_question_idx]
    predicted_answer =答案[most_similar_question_idx]
    返回most_similar_question，predicted_answer

＃示例用法
new_question =“何时成立Apple？”
must_similar_question，predicted_answer = ask_question（new_question）

打印（f“新问题：{new_question}”）
print（f“最相似的问题：{must_similar_question}”）
打印（f“预测答案：{predicted_answer}”）

登录后复制

输出：

使用通用句子编码器和Wikiqa创建QA模型