首页 科技周边 人工智能 通过与 GPT 对话实现零样本信息抽取

通过与 GPT 对话实现零样本信息抽取

Apr 13, 2023 am 09:13 AM
信息 gpt

目前通用大模型取代为特定任务定制训练的专属模型的趋势逐渐显露,这种方式使AI模型应用的边际成本大幅下降。由此提出一个问题:不经过训练来实现零样本信息抽取是否可行?

信息抽取技术作为构建知识图谱的重要一环,如果完全不需要训练就可以实现,将使数据分析的门槛大幅降低,有利于实现自动化知识库构建。

我们通过对GPT-3.5用提示工程的方法建立一个通用的零样本IE系统——GPT4IE(GPT for Information Extraction),发现GPT3.5能够自动从原始句子中提取结构化信息。支持中英文,工具代码已开源。

工具网址:​https://cocacola-lab.github.io/GPT4IE/​ 

代码:​https://github.com/cocacola-lab/GPT4IE​

背景介绍

信息抽取(Information Extraction,IE)目标是从无结构文本中抽取结构化信息,包括实体-关系三元组抽取(Entity-relation Extract, RE)、命名实体识别(Named Entity Recognition, NER)和事件抽取(Event Extraction, EE)[1][2][3][4][5]。许多研究已经开始依赖IE技术来自动化进行零样本/少样本工作,例如clinical IE [6]。

近来大规模预训练语言模型(Large Pre-trained Language Model, LLMs)在许多下游任务上都表现极佳,甚至仅仅通过几个例子作为引导而不需要微调就能实现。由此我们提出一个问题:仅通过提示来实现零样本IE任务是否可行? 我们尝试对GPT-3.5用提示的方法建立一个通用的零样本IE系统——GPT4IE(GPT for Information Extraction)。在与GPT3.5和提示的结合下,它能够自动从原始句子中提取结构化信息。

技术框架

设计了特定任务的提示模板(task-specified prompt template), 然后将用户的输入填充模板中特定的槽值 (slot),形成提示(prompt),输入GPT-3.5中,进行IE。支持的任务有三种:RE、NER和EE,且这三种任务均支持中英文双语。用户需要输入句子和制定抽取类型列表(即关系列表、头实体列表、尾实体列表、实体类型列表或者事件列表)。具体如下:

RE任务的目标是从文本中抽取三元组,比如“(China, capital, Beijing)”, “(《如懿传》, 主演, 周迅)”。其要求的输入格式如下(带“*”的代表非必填项,我们为这些选项都设置了默认值,但是为了灵活性支持用户自定义指定列表,后同):

  • Input Sentence: 输入文本
  • Relation type list (rtl)* : ['关系类型1', '关系类型2', ...]
  • Subject type list (stl)* : ['头实体类型1', '头实体类型2', ...]
  • Object type list (otl)* : ['尾实体类型1', '尾实体类型2', ...]
  • OpenAI API key: OpenAI API 密钥(我们在Github中提供了部分可用key,以供示例使用。)

NER任务旨在从文本中抽取实体,例如“(LOC, Beijing)” , “(人物, 周恩来)”。在NER任务上,输入格式如下:

  • Input Sentence: 输入文本
  • Entity type list (etl)* : ['实体类型1', '实体类型2', ...]
  • OpenAI API key: OpenAI API 密钥

EE任务旨在从纯文本中提取事件,例如“{Life-Divorce: {Person: Bob, Time: today, Place: America}}“ , “{竞赛行为-晋级: {时间: 无, 晋级方: 西北狼, 晋级赛事: 中甲榜首之争}}”。输入格式如下:

  • Input Sentence: 输入文本
  • Event type list (etl)* : {'事件类型1': ['论元角色1', '论元角色2', ...], ...}
  • OpenAI API key: OpenAI API 密钥

工具使用示例

3.1 RE示例一

输入:

Input Sentence: Bob worked for Google in Beijing, the capital of China.

rtl: ['location-located_in', 'administrative_division-country', 'person-place_lived', 'person-company', 'person-nationality', 'company-founders', 'country-administrative_divisions', 'person-children', 'country-capital', 'deceased_person-place_of_death', 'neighborhood-neighborhood_of', 'person-place_of_birth']

stl: ['organization', 'person', 'location', 'country']

otl: ['person', 'location', 'country', 'organization', 'city']

输出:

图片

3.2 RE示例二

输入:

Input Sentence: 《如懿传》是一部古装宫廷情感电视剧,由汪俊执导,周迅、霍建华、张钧甯、董洁、辛芷蕾、童瑶、李纯、邬君梅等主演。

rtl: ['所属专辑', '成立日期', '海拔', '官方语言', '占地面积', '父亲', '歌手', '制片人', '导演', '首都', '主演', '董事长', '祖籍', '妻子', '母亲', '气候', '面积', '主角', '邮政编码', '简称', '出品公司', '注册资本', '编剧', '创始人', '毕业院校', '国籍', '专业代码', '朝代', '作者', '作词', '所在城市', '嘉宾', '总部地点', '人口数量', '代言人', '改编自', '校长', '丈夫', '主持人', '主题曲', '修业年限', '作曲', '号', '上映时间', '票房', '饰演', '配音', '获奖']

stl: ['国家', '行政区', '文学作品', '人物', '影视作品', '学校', '图书作品', '地点', '历史人物', '景点', '歌曲', '学科专业', '企业', '电视综艺', '机构', '企业/品牌', '娱乐人物']

otl: ['国家', '人物', 'Text', 'Date', '地点', '气候', '城市', '歌曲', '企业', 'Number', '音乐专辑', '学校', '作品', '语言']

输出:

图片

3.3 NER示例一

输入:

Input Sentence: Bob worked for Google in Beijing, the capital of China.

etl: ['LOC', 'MISC', 'ORG', 'PER']

输出:

图片

3.4 NER示例二

输入:

Input Sentence: 在过去的五年中,致公党在邓小平理论指引下,遵循社会主义初级阶段的基本路线,努力实践致公党十大提出的发挥参政党职能、加强自身建设的基本任务。

etl: ['组织机构', '地点', '人物']

输出:

图片

3.5 EE示例一

输入:

Input Sentence: Yesterday Bob and his wife got divorced in Guangzhou.

etl: {'Personnel:Elect': ['Person', 'Entity', 'Position', 'Time', 'Place'], 'Business:Declare-Bankruptcy': ['Org', 'Time', 'Place'], 'Justice:Arrest-Jail': ['Person', 'Agent', 'Crime', 'Time', 'Place'], 'Life:Divorce': ['Person', 'Time', 'Place'], 'Life:Injure': ['Agent', 'Victim', 'Instrument', 'Time', 'Place']}

输出:

图片

3.6 EE示例二

输入:

Input Sentence:: 在2022年卡塔尔世界杯决赛中,阿根廷以点球大战险胜法国。

etl: {'组织行为-罢工': ['时间', '所属组织', '罢工人数', '罢工人员'], '竞赛行为-晋级': ['时间', '晋级方', '晋级赛事'], '财经/交易-涨停':['时间', '涨停股'] , '组织关系-解雇': ['时间', '解雇方', '被解雇人员']}

输出:

图片

3.7 EE示例三(一个有意思的错误示例)

输入:

Input Sentence:: 我今天和他离婚了

etl: {'组织行为-罢工': ['时间', '所属组织', '罢工人数', '罢工人员'], '竞赛行为-晋级': ['时间', '晋级方', '晋级赛事'], '财经/交易-涨停':['时间', '涨停股'] , '组织关系-解雇': ['时间', '解雇方', '被解雇人员']}

输出:

图片

明显上面的输出使错误的,自定义etl为: {'离婚': ['时间', '人物']},输出为:

图片

以上是通过与 GPT 对话实现零样本信息抽取的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

如何在Microsoft Word中删除作者和上次修改的信息 如何在Microsoft Word中删除作者和上次修改的信息 Apr 15, 2023 am 11:43 AM

Microsoft Word文档在保存时包含一些元数据。这些详细信息用于在文档上识别,例如创建时间、作者是谁、修改日期等。它还具有其他信息,例如字符数,字数,段落数等等。如果您可能想要删除作者或上次修改的信息或任何其他信息,以便其他人不知道这些值,那么有一种方法。在本文中,让我们看看如何删除文档的作者和上次修改的信息。删除微软Word文档中的作者和最后修改的信息步骤 1 –转到

Kubernetes调试终极武器: K8sGPT Kubernetes调试终极武器: K8sGPT Feb 26, 2024 am 11:40 AM

随着人工智能和机器学习技术的不断发展,企业和组织开始积极探索创新战略,以利用这些技术来提升竞争力。K8sGPT[2]是该领域内功能强大的工具之一,它是基于k8s的GPT模型,兼具k8s编排的优势和GPT模型出色的自然语言处理能力。什么是K8sGPT?先看一个例子:根据K8sGPT官网解释:K8sgpt是一个专为扫描、诊断和分类kubernetes集群问题而设计的工具,它整合了SRE经验到其分析引擎中,以提供最相关的信息。通过人工智能技术的应用,K8sgpt不断丰富其内容,帮助用户更快速、准确地解

win7硬盘格式应该选择MBR还是GPT? win7硬盘格式应该选择MBR还是GPT? Jan 03, 2024 pm 08:09 PM

我们在使用win7操作系统的时候,有的情况下可能就会遇到需要我们重装系统,为硬盘分区的情况。对于win7硬盘格式要求mbr还是gpt这种问题小编觉得,还是要根据自己系统以及硬件配置的详细情况来进行选择即可。如果按兼容性来说的话最好还是选择mbr格式。详细内容还是来看下小编是怎么做的吧~win7硬盘格式要求mbr还是gpt1.如果系统装的是Win7的话,建议还是MBR,兼容性好。2.超过3T或装win8,可以用GPT。3.虽然GPT确实比MBR先进,但兼容性方面肯定是MBR无敌。GPT和MBR的区

获取 Windows 11 中 GPU 的方法及显卡详细信息检查 获取 Windows 11 中 GPU 的方法及显卡详细信息检查 Nov 07, 2023 am 11:21 AM

使用系统信息单击“开始”,然后输入“系统信息”。只需单击程序,如下图所示。在这里,您可以找到大多数系统信息,而显卡信息也是您可以找到的一件事。在“系统信息”程序中,展开“组件”,然后单击“显示”。让程序收集所有必要的信息,一旦准备就绪,您就可以在系统上找到特定于显卡的名称和其他信息。即使您有多个显卡,您也可以从这里找到与连接到计算机的专用和集成显卡相关的大多数内容。使用设备管理器Windows11就像大多数其他版本的Windows一样,您也可以从设备管理器中找到计算机上的显卡。单击“开始”,然后

深入了解Win10分区格式:GPT和MBR的比较 深入了解Win10分区格式:GPT和MBR的比较 Dec 22, 2023 am 11:58 AM

对自己的系统分区时由于用户使用的硬盘不同因此很多的用户也不知道win10分区格式gpt还是mbr,为此我们给大家带来了详细的介绍,帮助大家了解两者间的不同。win10分区格式gpt还是mbr:答:如果你使用的是超过3t的硬盘,可以用gpt。gpt相比mbr更加的先进,但是兼容性方面还是mbr更厉害。当然这也是完全可以根据用户的喜好来进行选择的。gpt和mbr的区别:一、支持的分区个数:1、MBR最多支持划分4个主分区。2、GPT则不受分区个数的限制。二、支持的硬盘大小:1、MBR最大仅支持2TB

如何确定电脑硬盘采用的是GPT还是MBR分区方式 如何确定电脑硬盘采用的是GPT还是MBR分区方式 Dec 25, 2023 pm 10:57 PM

何查看电脑硬盘是GPT分区还是MBR分区呢?当我们用到电脑硬盘的时候,需要进行GPT与MBR的区分,其实这个查看方法特别简单,下面跟我一起来看看吧。查看电脑硬盘是GPT还是MBR的方法1、右击桌面上的'计算机“点击”管理2、在”管理“中找得”磁盘管理“3、进入磁盘管理可以看到我们硬盘的一般情况,那么该如何查看我的硬盘的分区模式,右击”磁盘0“选择”属性“4、在”属性“中切换到”卷“标签,这时我们就可以看到”磁盘分区形式“可以看到为MBR分区win10磁盘相关问题如何将MBR分区转换成GPT分区>

如何与NameDrop共享联系人详细信息:iOS 17的操作指南 如何与NameDrop共享联系人详细信息:iOS 17的操作指南 Sep 16, 2023 pm 06:09 PM

在iOS17中,有一个新的AirDrop功能,让你通过触摸两部iPhone来与某人交换联系信息。它被称为NameDrop,这是它的工作原理。NameDrop允许您简单地将iPhone放在他们的iPhone附近以交换联系方式,而不是输入新人的号码来给他们打电话或发短信,以便他们拥有您的号码。将两个设备放在一起将自动弹出联系人共享界面。点击弹出窗口会显示一个人的联系信息及其联系人海报(您可以自定义和编辑自己的照片,也是iOS17的新功能)。该屏幕还包括“仅接收”或共享您自己的联系信息作为响应的选项。

利用多光照信息的单视角NeRF算法S^3-NeRF,可恢复场景几何与材质信息 利用多光照信息的单视角NeRF算法S^3-NeRF,可恢复场景几何与材质信息 Apr 13, 2023 am 10:58 AM

目前图像 3D 重建工作通常采用恒定自然光照条件下从多个视点(multi-view)捕获目标场景的多视图立体重建方法(Multi-view Stereo)。然而,这些方法通常假设朗伯表面,并且难以恢复高频细节。另一种场景重建方法是利用固定视点但不同点光源下捕获的图像。例如光度立体 (Photometric Stereo) 方法就采用这种设置并利用其 shading 信息来重建非朗伯物体的表面细节。然而,现有的单视图方法通常采用法线贴图(normal map)或深度图(depth map)来表征可

See all articles