首頁 科技週邊 人工智慧 透過與 GPT 對話實現零樣本資訊抽取

透過與 GPT 對話實現零樣本資訊抽取

Apr 13, 2023 am 09:13 AM
資訊 gpt

目前通用大模型取代為特定任務客製化訓練的專屬模型的趨勢逐漸顯露,這種方式使AI模型應用的邊際成本大幅下降。由此提出一個問題:不經過訓練來實現零樣本資訊抽取是否可行?

資訊擷取技術作為建立知識圖譜的重要一環,如果完全不需要訓練就可以實現,將使資料分析的門檻大幅降低,有利於實現自動化知識庫建置。

我們透過對GPT-3.5用提示工程的方法建立一個通用的零樣本IE系統-GPT4IE(GPT for Information Extraction),發現GPT3.5能夠自動從原始句子中提取結構化資訊。支援中英文,工具代碼已開源。

工具網址:https://cocacola-lab.github.io/GPT4IE/ 

程式碼:https://github.com/cocacola-lab/GPT4IE

#1 背景介紹

訊息抽取(Information Extraction,IE)目標是從無結構文本中抽取結構化訊息,包括實體-關係三元組抽取(Entity-relation Extract, RE)、命名實體識別(Named Entity Recognition, NER)和事件抽取( Event Extraction, EE)[1][2][3][4][5]。許多研究已經開始依賴IE技術來自動化進行零樣本/少樣本工作,例如clinical IE [6]。

最近大規模預訓練語言模型(Large Pre-trained Language Model, LLMs)在許多下游任務上都表現極佳,甚至僅僅透過幾個例子作為引導而不需要微調就能實現。由此我們提出一個問題:僅透過提示來實現零樣本IE任務是否可行?  我們嘗試對GPT-3.5用提示的方法建立一個通用的零樣本IE系統-GPT4IE(GPT for Information Extraction)。在與GPT3.5和提示的結合下,它能夠自動從原始句子中提取結構化資訊。

技術框架

設計了特定任務的提示範本(task-specified prompt template), 然後將使用者的輸入填入範本中特定的槽值(slot),形成提示(prompt),輸入GPT-3.5中,進行IE。支援的任務有三種:RE、NER和EE,這三種任務均支援中英文雙語。使用者需要輸入句子和製定抽取類型清單(即關係清單、頭實體清單、尾實體清單、實體類型清單或事件清單)。具體如下:

RE任務的目標是從文本中抽取三元組,例如「(China, capital, Beijing)」, “(《如懿傳》, 主演, 周迅)」。其要求的輸入格式如下(帶有“*”的代表非必填項,我們為這些選項都設置了默認值,但是為了靈活性支持用戶自定義指定列表,後同):

  • #Input Sentence: 輸入文字
  • Relation type list (rtl)* : ['關係型別1', '關係型別2', ...]
  • Subject type list (stl)* : ['頭實體類型1', '頭實體類型2', ...]
  • Object type list (otl)* : ['尾實體類型1', '尾實體類型2', ...]
  • OpenAI API key: OpenAI API 金鑰(我們在Github中提供了部分可用key,以供範例使用。)

#NER任務旨在從文字中抽取實體,例如「(LOC , Beijing)」 , 「(人物, 周恩來)」。在NER任務上,輸入格式如下:

  • Input Sentence: 輸入文字
  • Entity type list (etl)* : [ '實體類型1', '實體類型2', ...]
  • OpenAI API key: OpenAI API 金鑰

EE任務旨在從純文字中提取事件,例如「{Life-Divorce: {Person: Bob, Time: today, Place: America}}「 , 「{競賽行為-晉級: {時間: 無, 晉級方: 西北狼, 晉級賽事: 中甲榜首之爭}}」。輸入格式如下:

  • Input Sentence: 輸入文字
  • Event type list (etl)* : {'事件類型1': ['論元角色1', '論元角色2', ...], ...}
  • OpenAI API key: OpenAI API 金鑰

工具使用範例

3.1 RE範例一

##輸入:

Input Sentence: Bob worked for Google in Beijing, the capital of China.

rtl: [ 'location-located_in', 'administrative_division-country', 'person-place_lived', 'person-company', 'person-nationality', 'company-founders', 'country-administrative_divisions', 'person-children', 'country -capital', 'deceased_person-place_of_death', 'neighborhood-neighborhood_of', 'person-place_of_birth']

#stl: ['organization', '

stl: ['organization', '

stl

: ['organization', '

, 'location', 'country']透過與 GPT 對話實現零樣本資訊抽取

otl: ['person', 'location', 'country', 'organization', 'city']

輸出:

#3.2 RE範例二

輸入:

Input Sentence: 《如懿傳》是一部古裝宮廷情感電視劇,由汪俊執導,周迅、霍建華、張鈞甯、董潔、辛芷蕾、童瑤、李純、鄔君梅等人主演。

rtl: ['所屬專輯', '成立日期', '海拔', '官方語言', '佔地面積', '父親', '歌手', '製片人', '導演', '首都', '主演', '董事長', '祖籍', '妻子', '母親', '氣候', '面積', '主角' , '郵遞區號', '簡稱', '出品公司', '註冊資本', '編劇', '創辦人', '畢業院校', '國籍', '專業代碼', '朝代', '作者', '作詞', '所在城市', '嘉賓', '總部地點', '人口數量', '代言人', '改編自', '校長', '丈夫', '主持人', '主題曲', '修業年限', '作曲', '號', '上映時間', '票房', '飾演', '配音', '獲獎']

stl

: ['國家', '行政區', '文學作品', '人物', '影視作品', '學校', '圖書作品', '地點', '歷史人物', '景點' , '歌曲', '學科專業', '企業', '電視綜藝', '機構', '企業/品牌', '娛樂人物']

透過與 GPT 對話實現零樣本資訊抽取

otl : ['國家', '人物', 'Text', 'Date', '地點', '氣候', '城市', '歌曲', '企業', 'Number', '音樂專輯', '學校', '作品', '語言']

透過與 GPT 對話實現零樣本資訊抽取

##3.3 NER範例一

################輸入:###############Input Sentence :### Bob worked for Google in Beijing, the capital of China.###############etl###: ['LOC', 'MISC', 'ORG', ' PER']#############輸出:################################# 3.4 NER範例二##################輸入:######

Input Sentence: 在過去的五年中,致公黨在鄧小平理論指引下,遵循社會主義初級階段的基本路線,努力實踐致公黨十大提出的發揮參政黨職能、強化自身建設的基本任務。

etl: ['組織機構', '地點', '人物']

輸出:

透過與 GPT 對話實現零樣本資訊抽取

#3.5 EE範例一

##輸入:

Input Sentence: Yesterday Bob and his wife got divorced in Guangzhou.

#etl: {'Personnel:Elect': ['Person', 'Entity', 'Position', 'Time', 'Place'], 'Business:Declare-Bankruptcy': ['Org', 'Time ', 'Place'], 'Justice:Arrest-Jail': ['Person', 'Agent', 'Crime', 'Time', 'Place'], 'Life:Divorce': ['Person', 'Time ', 'Place'], 'Life:Injure': ['Agent', 'Victim', 'Instrument', 'Time', 'Place']}

輸出:

透過與 GPT 對話實現零樣本資訊抽取

3.6 EE範例二

輸入:

Input Sentence:: 在2022年卡達世界盃決賽中,阿根廷以點球大戰險勝法國。

etl: {'組織行為-罷工': ['時間', '所屬組織', '罷工人數', '罷工人員'], '競賽行為-晉級': ['時間', '晉級方', '晉級賽事'], '財經/交易-漲停':['時間', '漲停股'] , '組織關係-解僱': ['時間', '解僱方', '被解僱人員']}

輸出:

透過與 GPT 對話實現零樣本資訊抽取

##3.7 EE範例三(一個有意思的錯誤範例)

輸入:

##Input Sentence:

: 我今天和他離婚了

#etl

: {'組織行為-罷工': [ '時間', '所屬組織', '罷工人數', '罷工人員'], '競賽行為-晉級': ['時間', '晉級方', '晉級賽事'], '財經/交易-漲停' :['時間', '漲停股'] , '組織關係-解僱': ['時間', '解僱方', '被解僱人員']}輸出:

透過與 GPT 對話實現零樣本資訊抽取

明顯上面的輸出使錯誤的,自訂etl為: {'離婚': ['時間', '人物']},輸出為:

#

以上是透過與 GPT 對話實現零樣本資訊抽取的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

<🎜>:泡泡膠模擬器無窮大 - 如何獲取和使用皇家鑰匙
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
北端:融合系統,解釋
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
Mandragora:巫婆樹的耳語 - 如何解鎖抓鉤
3 週前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1664
14
CakePHP 教程
1423
52
Laravel 教程
1321
25
PHP教程
1269
29
C# 教程
1249
24
如何在Microsoft Word中刪除作者和上次修改的訊息 如何在Microsoft Word中刪除作者和上次修改的訊息 Apr 15, 2023 am 11:43 AM

Microsoft Word文件在儲存時包含一些元資料。這些詳細資訊用於在文件上識別,例如建立時間、作者是誰、修改日期等。它還具有其他信息,例如字元數,字數,段落數等等。如果您可能想要刪除作者或上次修改的資訊或任何其他訊息,以便其他人不知道這些值,那麼有一種方法。在本文中,讓我們看看如何刪除文件的作者和上次修改的資訊。刪除微軟Word文件中的作者和最後修改的資訊步驟 1 –前往

深入了解Win10分區格式:GPT和MBR的比較 深入了解Win10分區格式:GPT和MBR的比較 Dec 22, 2023 am 11:58 AM

對自己的系統分區時由於用戶使用的硬碟不同因此很多的用戶也不知道win10分區格式gpt還是mbr,為此我們給大家帶來了詳細的介紹,幫助大家了解兩者間的不同。 win10分區格式gpt還是mbr:答:如果你使用的是超過3t的硬碟,可以用gpt。 gpt比mbr更加的先進,但相容性方面還是mbr比較厲害。當然這也是完全可以依照使用者的喜好來進行選擇的。 gpt和mbr的差別:一、支援的分割個數:1、MBR最多支援劃分4個主分割區。 2、GPT則不受分區數的限制。二、支援的硬碟大小:1、MBR最大僅支援2TB

Kubernetes調試終極武器: K8sGPT Kubernetes調試終極武器: K8sGPT Feb 26, 2024 am 11:40 AM

隨著人工智慧和機器學習技術的不斷發展,企業和組織開始積極探索創新策略,以利用這些技術來提升競爭力。 K8sGPT[2]是該領域內強大的工具之一,它是基於k8s的GPT模型,兼具k8s編排的優勢和GPT模型出色的自然語言處理能力。什麼是K8sGPT?先看一個例子:根據K8sGPT官網解釋:K8sgpt是一個專為掃描、診斷和分類kubernetes集群問題而設計的工具,它整合了SRE經驗到其分析引擎中,以提供最相關的信息。透過人工智慧技術的應用,K8sgpt持續豐富其內容,幫助使用者更快速、更精確地解

利用多光照資訊的單視角NeRF演算法S^3-NeRF,可恢復場景幾何與材質訊息 利用多光照資訊的單視角NeRF演算法S^3-NeRF,可恢復場景幾何與材質訊息 Apr 13, 2023 am 10:58 AM

目前影像 3D 重建工作通常採用恆定自然光照條件下從多個視點(multi-view)捕捉目標場景的多視圖立體重建方法(Multi-view Stereo)。然而,這些方法通常假設朗伯表面,並且難以恢復高頻細節。另一種場景重建方法是利用固定視點但在不同點光源下捕捉的影像。例如光度立體 (Photometric Stereo) 方法就採用這種設定並利用其 shading 資訊來重建非朗伯物體的表面細節。然而,現有的單視圖方法通常採用法線貼圖(normal map)或深度圖(depth map)來表徵可

如何確定電腦硬碟採用的是GPT還是MBR分割方式 如何確定電腦硬碟採用的是GPT還是MBR分割方式 Dec 25, 2023 pm 10:57 PM

何看電腦硬碟是GPT分割區還是MBR分割區呢?當我們用到電腦硬碟的時候,需要進行GPT與MBR的區分,其實這個檢視方法特別簡單,下面跟我一起來看看吧。查看電腦硬碟是GPT還是MBR的方法1、右鍵點選桌面上的'電腦「點選」管理2、在」管理「中找得」磁碟管理「3、進入磁碟管理可以看到我們硬碟的一般情況,那麼該如何查看我的硬碟的分區模式,右鍵單擊”磁碟0“選擇”屬性“4、在”屬性“中切換到”卷“標籤,這時我們就可以看到”磁碟分區形式“可以看到為MBR分割區win10磁碟相關問題如何將MBR分割區轉換成GPT分割區>

win7硬碟格式應選擇MBR還是GPT? win7硬碟格式應選擇MBR還是GPT? Jan 03, 2024 pm 08:09 PM

我們在使用win7作業系統的時候,有的情況下可能會遇到需要我們重裝系統,為硬碟分割的情況。對於win7硬碟格式要求mbr還是gpt這種問題小編覺得,還是要根據自己系統以及硬體配置的詳細情況來進行選擇即可。如果按相容性來說的話最好還是選擇mbr格式。詳細內容還是來看下小編是怎麼做的吧~win7硬碟格式要求mbr還是gpt1.如果系統裝的是Win7的話,建議還是MBR,相容性好。 2.超過3T或裝win8,可以用GPT。 3.雖然GPT確實比MBR先進,但相容性方面肯定是MBR無敵。 GPT和MBR的區

取得 Windows 11 中 GPU 的方法及顯示卡詳細資料檢查 取得 Windows 11 中 GPU 的方法及顯示卡詳細資料檢查 Nov 07, 2023 am 11:21 AM

使用系統資訊按一下“開始”,然後輸入“系統資訊”。只需單擊程序,如下圖所示。在這裡,您可以找到大多數系統訊息,而顯示卡資訊也是您可以找到的一件事。在“系統資訊”程式中,展開“組件”,然後按一下“顯示”。讓程式收集所有必要的信息,一旦準備就緒,您就可以在系統上找到特定於顯示卡的名稱和其他資訊。即使您有多個顯示卡,您也可以從這裡找到與連接到電腦的專用和整合式顯示卡相關的大多數內容。使用裝置管理員Windows11就像大多數其他版本的Windows一樣,您也可以從裝置管理員中找到電腦上的顯示卡。按一下“開始”,然後

如何與NameDrop分享聯絡人詳細資訊:iOS 17的操作指南 如何與NameDrop分享聯絡人詳細資訊:iOS 17的操作指南 Sep 16, 2023 pm 06:09 PM

在iOS17中,有一個新的AirDrop功能,讓你透過觸摸兩部iPhone來與某人交換聯絡資訊。它被稱為NameDrop,這是它的工作原理。 NameDrop允許您簡單地將iPhone放在他們的iPhone附近以交換聯繫方式,而不是輸入新人的號碼來給他們打電話或發短信,以便他們擁有您的號碼。將兩個設備放在一起將自動彈出聯絡人共享介面。點擊彈出視窗會顯示一個人的聯絡資訊及其聯絡人海報(您可以自訂和編輯自己的照片,也是iOS17的新功能)。該畫面還包括「僅接收」或分享您自己的聯絡資訊作為回應的選項。

See all articles