知识图谱:大模型的理想搭档
大型语言模型(LLM)具有生成流畅和连贯文本的能力,为人工智能的对话、创造性写作等领域带来了新的前景。然而,LLM也存在一些关键局限。首先,它们的知识仅限于从训练数据中识别出的模式,缺乏对世界的真正理解。其次,推理能力有限,不能进行逻辑推理或从多个数据源融合事实。面对更复杂、更开放的问题时,LLM的回答可能变得荒谬或矛盾,被称为“幻觉”。因此,尽管LLM在某些方面非常有用,但在处理复杂问题和真实世界情境时,仍存在一定的局限性。
为了弥补这些差距,近年来出现了检索增强生成(RAG)系统,其核心思想是通过从外部来源检索相关知识来为LLM提供上下文,以便作出更明智的反应。目前的系统大多使用向量嵌入的语义相似度来检索段落,然而,这种方法有其自身的缺点,例如缺乏真正的相关性、无法聚合事实,以及缺乏推理链。而知识图谱的应用领域正能够解决这些问题。知识图谱是一种对现实世界实体和关系进行结构化表达的方式。通过编码上下文事实之间的相互联系,知识图谱克服了纯向量搜索的缺陷,并且通过图搜索可以进行复杂的多级推理,跨越多种信息源。
向量嵌入和知识图谱的结合可以提升LLM的推理能力,增强其准确性和可解释性。这种合作关系将表层语义与结构化知识和逻辑完美融合,使得LLM能够同时应用统计学习和符号表示。
图片
1. 向量搜索的局限
大多数RAG系统通过文档集合中段落的向量搜索来查找LLM的上下文。这一过程有几个关键步骤。
- 文本编码: 系统使用像 BERT 这样的嵌入模型将文本从语料库中的段落编码成向量表示。每篇文章都被压缩成一个密集的向量来捕捉语义。
- 索引: 这些通道向量在高维向量空间中进行索引,以实现快速的最近邻搜索。流行的方法包括 Faiss 和 Pinecone等。
- 查询编码: 用户的查询语句也被编码为使用相同嵌入模型的向量表示。
- 相似性检索: 一个最近邻搜索在索引的段落中运行,根据距离指标(如余弦距离)找到与查询向量最接近的段落。
- 返回段落结果: 返回最相似的段落向量,提取原始文本为 LLM 提供上下文。
这种流水线有几个主要的局限性:
- 通道向量可能无法完全捕获查询的语义意图,嵌入不能表示某些推理连接,重要的上下文最终会被忽视。
- 把整个段落压缩成单个向量会丢失细微差别,嵌入在句子中的关键相关细节会变得模糊。
- 匹配是为每个段落独立完成的,没有跨越不同段落的联合分析,缺乏连接事实和得出需要汇总的答案。
- 排名和匹配过程是不透明的,没有透明度来解释为什么某些段落被认为更相关。
- 只有语义相似性被编码,没有表示关系,结构,规则和其他不同的连接之间的内容。
- 对语义向量相似性的单一关注导致检索缺乏真正的理解。
随着查询变得越来越复杂,这些限制在无法对检索到的内容进行推理方面变得越来越明显。
2. 整合知识图谱
知识图谱以实体和关系为基础,通过相互连接的网络传递信息,通过复杂推理提高检索能力。
- 显式的事实,事实直接作为节点和边捕获,而不是压缩成不透明的向量,这保留了关键的细节。
- 上下文细节,实体包含了丰富的属性,如提供关键上下文的描述、别名和元数据等。
- 网络结构表达了关系建模实体之间的真实连接、捕获规则、层次结构、时间线等。
- 多级推理基于关系遍历以及连接来自不同来源的事实,可以推导出需要跨多个步骤进行推理的答案。
- 联合推理通过实体解析链接到同一个现实世界的对象,从而允许进行集体分析。
- 可解释的相关性,图形拓扑提供了一种透明度,可以解释为什么某些基于连接的事实是相关的。
- 个性化,捕获用户属性、上下文和历史交互以定制结果。
知识图谱不仅仅是单纯的匹配,而是通过遍历图的过程来收集与查询相关的上下文事实。可解释的ranking方法利用图的拓扑结构,通过编码结构化事实、关系和上下文来提升检索能力,从而实现准确的多步推理。相对于纯向量搜索,这种方法提供了更强的相关性和解释能力。
3. 利用简单约束改进知识图谱的嵌入
在连续向量空间中嵌入知识图谱是当前的研究热点。知识图谱使用向量嵌入来表示实体和关系,以支持数学运算。此外,额外的约束可以进一步优化表示。
- 非负性约束,将实体嵌入限制为0到1之间的正值会导致稀疏性,明确地模拟了它们的正性质,并提高了可解释性。
- 蕴涵约束,将对称、反转、合成等逻辑规则直接编码为关系嵌入的约束来强制这些模式。
- 置信度建模,带松弛变量的软约束可以根据证据对逻辑规则的置信度进行编码。
- 正则化,施加了有用的归纳偏差,只增加了一个投影步骤,而没有使优化变得更加复杂。
- 可解释性,结构化约束为模型所学习的模式提供了透明度,这解释了推理过程。
- 精确性,约束通过将假设空间减少到符合要求的表示方法来提高泛化能力。
简单通用的约束增加到知识图谱的嵌入,从而产生更优化、更易于解释和逻辑兼容的表示。嵌入获得模仿真实世界结构和规则的归纳偏差,这对更准确和可解释的推理并没有引入太多额外的复杂性。
4. 集成多种推理框架
知识图谱需要推理来得出新的事实,回答问题,并做出预测,不同的技术有着互补的优势:
逻辑规则将知识表述为逻辑公理和本体,通过定理证明进行合理和完整的推理,实现有限的不确定性处理。而图嵌入用于向量空间运算的嵌入式知识图结构,能处理不确定性但缺乏表达性。神经网络结合向量查找具有自适应性,但推理不透明。通过对图结构和数据的统计分析能够自动创建规则,但质量不确定。混合流水线通过逻辑规则进行编码明确的约束,嵌入提供向量空间操作,神经网络通过联合训练获得融合的收益。使用基于案例、模糊或概率逻辑的方法来增加透明度,表达不确定性和对规则的置信度。通过将推断的事实和学到的规则具体化到图谱中来扩展知识,提供反馈循环。
关键是确定所需的推理类型,并将它们映射到适当的技术,结合逻辑形式、向量表示和神经元组件的可组合流水线提供了健壮性和可解释性。
4.1 保持 LLM 的信息流
为 LLM 检索知识图谱中的事实会引入信息瓶颈,需要通过设计保持相关性。将内容分成小块可以提高隔离性,但会失去周围的上下文,这会阻碍分块之间的推理。生成块的摘要可以提供更简洁的上下文,关键细节被压缩以突出显示意义。将附加摘要、标题、标记等作为元数据,以维护有关源内容的上下文。将原始查询重写为更详细的版本,可以更好地针对 LLM 的需求进行检索。知识图谱的遍历功能保持了事实之间的联系,维护上下文。按时间顺序或按相关性排序可以优化 LLM 的信息结构,将隐式知识转换为为 LLM 所陈述的显式事实可以使推理变得更容易。
目标是优化检索知识的相关性、上下文、结构和显性表达,以最大限度地提高推理能力。需要在粒度和内聚性之间取得平衡。知识图关系有助于为孤立的事实构建上下文。
4.2 解锁推理能力
知识图表和嵌入式技术结合起来都有克服对方弱点的优势。
知识图谱提供了实体和关系的结构化表达。通过遍历功能来增强复杂推理能力,处理多级推理;嵌入是在向量空间中为基于相似性的操作编码信息,支持在一定尺度上进行有效的近似搜索,将潜在模式表面化。联合编码为知识图谱中的实体和关系生成嵌入。图神经网络通过可微消息传递对图结构和嵌入元素进行操作。
知识图谱首先收集结构化知识,然后嵌入聚焦于相关内容的搜索和检索,外显知识图关系为推理过程提供了可解释性。推断知识可以扩展为图谱,GNN 提供了连续表示的学习。
这种伙伴关系可以通过模式识别!力和神经网络的可扩展性增强了结构化知识的表示。这是推进语言人工智能需要统计学习和符号逻辑的关键。
4.3 用协同过滤改进搜索
协同过滤利用实体之间的联系来加强搜索,一般过程如下:
- 构造一个节点表示实体和以边表示关系的知识图谱。
- 为某些关键节点属性(如标题、描述等)生成一个嵌入向量。
- 向量索引ーー构建节点嵌入的向量相似度索引。
- 最近邻搜索ーー对于搜索查询,查找具有大多数相似嵌入的节点。
- 协作调整ーー基于节点的连接,使用 PageRank 等算法传播和调整相似性得分。
- 边缘权重ー根据边缘类型、强度、置信度等进行权重调整。
- 分数标准化ーー将调整后的分数标准化以保持相对排名。
- 结果重新排序ーー基于调整后协作分数的初始结果重新排序。
- 用户上下文ーー进一步根据用户配置文件、历史记录和首选项进行调整。
图片
5. 为 RAG 引擎加油——数据飞轮
构建一个不断改进的高性能检索增强生成(RAG)系统可能需要实现数据飞轮。知识图谱通过提供结构化的世界知识为语言模型开启了新的推理能力。但是,构建高质量的图谱仍然具有挑战性。这就是数据飞轮的用武之地,通过分析系统交互,不断改进知识图。
记录所有系统查询、响应、分数、用户操作等数据,提供如何使用知识图表的可视性,使用数据聚合到表面不良响应,聚类并分析这些响应,以识别表明知识差距的模式。人工回顾那些有问题的系统响应,并将问题追溯到图谱中缺少的或不正确的事实。然后,直接修改图表以添加那些缺失的事实数据、改进结构、提高清晰度等。不断循环完成上述步骤,每次迭代都进一步增强知识图。
像新闻和社交媒体这样的流媒体实时数据源提供了新信息的不断流动,以保持知识图表的最新性。如果使用查询生成来识别和填补关键的知识空白,就超出了流提供的范围。发现图谱中的漏洞,提出问题,检索缺失的事实,然后添加它们。对于每个循环,通过分析使用模式和修复数据问题,知识图谱会逐渐增强,改进后的图增强了系统的性能。
这个飞轮过程使得知识图谱和语言模型能够基于来自现实世界使用的反馈进行协同演化。图谱被积极地修改以适应模型的需要。
总之,数据飞轮通过分析系统交互,为知识图谱的持续、自动改进提供了一个支架。这为依赖于图表的语言模型的准确性、相关性和适应性提供了动力。
6. 小结
人工智能需要结合外部知识和推理,这就是知识图谱的用武之地。知识图谱提供了真实世界实体和关系的结构化表示,编码了关于世界的事实以及它们之间的联系。通过遍历那些相互关联的事实,这使得复杂的逻辑推理可以跨越多个步骤
然而,知识图谱有其自身的局限性,如稀疏性和缺乏不确定性处理,这就是图谱嵌入的帮助所在。通过在向量空间中编码知识图谱元素,嵌入允许从大型语料库到潜在模式表征化的统计学习,还支持高效的基于相似性的操作。
无论是知识图谱还是向量嵌入本身都不足以形成类人的语言智能,但是,它们共同提供了结构化知识表示、逻辑推理和统计学习的有效结合,而知识图谱覆盖了神经网络模式识别能力之上的符号逻辑和关系,像图神经网络这样的技术通过信息传递图结构和嵌入进一步统一了这些方法。这种共生关系使得系统既能利用统计学习,又能利用符号逻辑,结合了神经网络和结构化知识表示的优势。
在构建高质量的知识图谱、基准测试、噪音处理等仍然存在着挑战。但是,跨越符号和神经网络的混合技术仍然是前景光明的。随着知识图谱和语言模型的不断发展,它们的集成将开辟了可解释AI 的新领域。
以上是知识图谱:大模型的理想搭档的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

本站6月27日消息,剪映是由字节跳动旗下脸萌科技开发的一款视频剪辑软件,依托于抖音平台且基本面向该平台用户制作短视频内容,并兼容iOS、安卓、Windows、MacOS等操作系统。剪映官方宣布会员体系升级,推出全新SVIP,包含多种AI黑科技,例如智能翻译、智能划重点、智能包装、数字人合成等。价格方面,剪映SVIP月费79元,年费599元(本站注:折合每月49.9元),连续包月则为59元每月,连续包年为499元每年(折合每月41.6元)。此外,剪映官方还表示,为提升用户体验,向已订阅了原版VIP

通过将检索增强生成和语义记忆纳入AI编码助手,提升开发人员的生产力、效率和准确性。译自EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG,作者JanakiramMSV。虽然基本AI编程助手自然有帮助,但由于依赖对软件语言和编写软件最常见模式的总体理解,因此常常无法提供最相关和正确的代码建议。这些编码助手生成的代码适合解决他们负责解决的问题,但通常不符合各个团队的编码标准、惯例和风格。这通常会导致需要修改或完善其建议,以便将代码接受到应

想了解更多AIGC的内容,请访问:51CTOAI.x社区https://www.51cto.com/aigc/译者|晶颜审校|重楼不同于互联网上随处可见的传统问题库,这些问题需要跳出常规思维。大语言模型(LLM)在数据科学、生成式人工智能(GenAI)和人工智能领域越来越重要。这些复杂的算法提升了人类的技能,并在诸多行业中推动了效率和创新性的提升,成为企业保持竞争力的关键。LLM的应用范围非常广泛,它可以用于自然语言处理、文本生成、语音识别和推荐系统等领域。通过学习大量的数据,LLM能够生成文本

大型语言模型(LLM)是在巨大的文本数据库上训练的,在那里它们获得了大量的实际知识。这些知识嵌入到它们的参数中,然后可以在需要时使用。这些模型的知识在训练结束时被“具体化”。在预训练结束时,模型实际上停止学习。对模型进行对齐或进行指令调优,让模型学习如何充分利用这些知识,以及如何更自然地响应用户的问题。但是有时模型知识是不够的,尽管模型可以通过RAG访问外部内容,但通过微调使用模型适应新的领域被认为是有益的。这种微调是使用人工标注者或其他llm创建的输入进行的,模型会遇到额外的实际知识并将其整合

编辑|ScienceAI问答(QA)数据集在推动自然语言处理(NLP)研究发挥着至关重要的作用。高质量QA数据集不仅可以用于微调模型,也可以有效评估大语言模型(LLM)的能力,尤其是针对科学知识的理解和推理能力。尽管当前已有许多科学QA数据集,涵盖了医学、化学、生物等领域,但这些数据集仍存在一些不足。其一,数据形式较为单一,大多数为多项选择题(multiple-choicequestions),它们易于进行评估,但限制了模型的答案选择范围,无法充分测试模型的科学问题解答能力。相比之下,开放式问答

机器学习是人工智能的重要分支,它赋予计算机从数据中学习的能力,并能够在无需明确编程的情况下改进自身能力。机器学习在各个领域都有着广泛的应用,从图像识别和自然语言处理到推荐系统和欺诈检测,它正在改变我们的生活方式。机器学习领域存在着多种不同的方法和理论,其中最具影响力的五种方法被称为“机器学习五大派”。这五大派分别为符号派、联结派、进化派、贝叶斯派和类推学派。1.符号学派符号学(Symbolism),又称为符号主义,强调利用符号进行逻辑推理和表达知识。该学派认为学习是一种逆向演绎的过程,通过已有的

编辑|KX在药物研发领域,准确有效地预测蛋白质与配体的结合亲和力对于药物筛选和优化至关重要。然而,目前的研究没有考虑到分子表面信息在蛋白质-配体相互作用中的重要作用。基于此,来自厦门大学的研究人员提出了一种新颖的多模态特征提取(MFE)框架,该框架首次结合了蛋白质表面、3D结构和序列的信息,并使用交叉注意机制进行不同模态之间的特征对齐。实验结果表明,该方法在预测蛋白质-配体结合亲和力方面取得了最先进的性能。此外,消融研究证明了该框架内蛋白质表面信息和多模态特征对齐的有效性和必要性。相关研究以「S

本站7月5日消息,格芯(GlobalFoundries)于今年7月1日发布新闻稿,宣布收购泰戈尔科技(TagoreTechnology)的功率氮化镓(GaN)技术及知识产权组合,希望在汽车、物联网和人工智能数据中心应用领域探索更高的效率和更好的性能。随着生成式人工智能(GenerativeAI)等技术在数字世界的不断发展,氮化镓(GaN)已成为可持续高效电源管理(尤其是在数据中心)的关键解决方案。本站援引官方公告内容,在本次收购过程中,泰戈尔科技公司工程师团队将加入格芯,进一步开发氮化镓技术。G
