特定のタスク向けにカスタマイズされた独自のモデルを汎用の大規模モデルに置き換えるという現在の傾向が徐々に現れており、このアプローチにより AI モデル アプリケーションの限界コストが大幅に削減されました。これにより次のような疑問が生じます: トレーニングなしでゼロサンプルの情報抽出を達成することは可能でしょうか?
情報抽出技術はナレッジ グラフを構築する上で重要な部分であり、まったくトレーニングなしで実装できれば、データ分析の敷居が大幅に下がり、次のような実現に役立ちます。自動化された知識、ライブラリの構築。
GPT-3.5のプロンプトエンジニアリング手法を用いて一般的なゼロサンプルIEシステムを構築します——GPT4IE(情報抽出用GPT) では、GPT3.5 では元の文章から構造化情報を自動的に抽出できることがわかりました。中国語と英語の両方をサポートしており、ツールコードはオープンソースです。
ツールの URL: https://cocacola-lab.github.io/GPT4IE/
コード: https://github.com/cocacola-lab/GPT4IE
情報 目標抽出 (情報抽出、IE) は、非構造化テキストから構造化情報を抽出することです。これには、エンティティ関係トリプル抽出 (エンティティ関係抽出、RE)、固有表現認識 (固有表現認識、NER)、およびイベント抽出 (イベント抽出、EE) が含まれます。 ) [1][2][3][4][5]。多くの研究は、臨床 IE など、ゼロショット/少数ショットの作業を自動化するために IE テクノロジーに依存し始めています [6]。
最近、大規模な事前トレーニング済み言語モデル (LLM) は、ガイドとしてほんの数例を使用しただけでも、多くの下流タスクで非常に優れたパフォーマンスを発揮しています。少し調整するだけで達成できます。ここから、次のような疑問が生じます。プロンプトを通じてのみゼロサンプル IE タスクを実装することは可能ですか? プロンプト方式を使用して、GPT-3.5 - GPT4IE (情報抽出用 GPT) 用の一般的なゼロサンプル IE システムを構築しようとします。 GPT3.5とヒントを組み合わせることで、元の文章から構造化情報を自動的に抽出できます。
タスク指定のプロンプト テンプレートを設計し、そのテンプレートにユーザー入力を入力します。 特定のスロット値 (スロット)プロンプト (プロンプト) を形成します。これは GPT-3.5 に入力され、IE で使用されます。 RE、NER、EE の 3 つのタスクがサポートされており、3 つのタスクはすべて中国語と英語のバイリンガルです。ユーザーは文を入力し、抽出タイプのリスト (つまり、関係リスト、先頭エンティティ リスト、末尾エンティティ リスト、エンティティ タイプ リスト、またはイベント リスト) を作成する必要があります。詳細は次のとおりです。
RE タスク の目標は、テキストから「(中国、首都、北京)」などのトリプルを抽出することです。 「(「如懿「伝記」、主演、周迅)」。必須の入力形式は次のとおりです (「*」が付いた項目は必須ではないフィールドを表します。これらのオプションにはデフォルト値を設定していますが、柔軟性を高めるために、ユーザー定義の指定リストをサポートしています。以下同様):
NER タスクは、テキストからエンティティを抽出するように設計されています。 「(LOC、北京)」、「(キャラクター、周恩来)」など。 NER タスクでの入力形式は次のとおりです。
EE タスクは、「{人生-離婚: {人物: ボブ、時刻: 今日、場所: アメリカ}}」、「{コンテスト行動-プロモーション: {時間 : なし、プロモーション側: ノースウェスト ウルブズ、プロモーション イベント: 中国プレミア リーグのトップの座を巡る戦い}}」入力形式は次のとおりです:
##3.1 RE 例 1
#入力:
入力文 : Bob は、中国の首都、北京の Google で働いていました。
rtl: [ 'location-located_in '、'行政区画-国'、'人-居住地'、'個人-会社'、'個人-国籍'、'会社設立者'、'国-行政区画'、'個人-子供'、'国 -首都'、 'deeased_person-place_of_death', 'neighborhood-neighborhood_of', 'person-place_of_birth']
stl: ['organization', 'person' , 'location' 、'国']
otl: ['個人', '場所', '国', '組織', '都市']
出力:
##3.2 RE 例 2入力文:
「如懿の宮廷愛」は、王軍監督、周迅、霍建華、張俊寧、董傑主演の古代衣装宮殿の感情的なテレビ シリーズです。 、シン・ジレイ、トン・ヤオ、リー・チュン、ウー・ジュンメイなど。
rtl: [「アルバム」、「設立年月日」、「標高」、「公用語」、「地域」、「父親」、「歌手」 '、'プロデューサー'、'監督'、'資本金'、'主演'、'会長'、'先祖代々の家'、'妻'、'母親'、'気候'、'地域'、'主人公'、'郵便番号'、'略称'、'制作会社'、'資本金'、'脚本家'、'創立者'、'出身校'、'国籍'、'職業コード'、'王朝'、'作者'、'歌詞'、 「都市」、「ゲスト」、「本社所在地」、「人口」、「広報担当者」、「原作者」、「校長」、「夫」、「司会者」、「テーマソング」、「学習年数」、 「構成」、「ナンバー」、「公開時期」、「興行収入」、「演技」、「吹き替え」、「受賞歴」]
# #stl: [「国」、「行政地域」、「文学作品」、「登場人物」、「映画・テレビ作品」、「学校」、「書籍作品」、「場所」、「歴史上の人物」、「観光スポット」、 '歌」、「専攻分野」、「企業」、「TV バラエティ番組」、「機関」、「企業/ブランド」、「エンターテイメント人物」]
otl: [「国」、「人」、「テキスト」、「日付」、「場所」、「気候」、「都市」、「曲」、「企業」、「番号」、「音楽アルバム」、「学校」 、「仕事」、「言語」]出力:
3.3 NER 例 1
入力: 入力文 : ボブは中国の首都北京の Google で働いていました。
etl
: ['LOC', 'MISC', 'ORG', ' PER'] 出力:
## 3.4 NER の例 2
入力:入力文: 過去 5 年間、鄧小平理論の指導の下、志公党は社会主義の初段階段階の基本路線に従い、政策の実施に懸命に取り組んできました。志公党第10回全国代表大会で提案された党活動への参加と自己建設の強化という基本的課題。 etl: ['組織', '場所', '人'] 出力:
3.5 EE 例 1
入力:
入力文: 昨日、ボブと彼の妻は広州で離婚しました。
# #etl : {'人事:選出': ['人物', 'エンティティ', '役職', '時刻', '場所'], '事業:破産宣告': ['組織', '時刻 ', '場所']、'正義:逮捕-刑務所': ['人', '代理人', '犯罪', '時間', '場所'], '人生:離婚': ['人', '時間', '場所']、'生命:傷害': ['エージェント'、'被害者'、'楽器'、'時間'、'場所']}
出力:
##3.6 EE 例 2
入力:
入力文:: 2022 年カタール ワールドカップ決勝では、アルゼンチンが PK 戦でフランスを辛くも破りました。
etl: {'組織行動-ストライキ': ['時間', '所属', 'ストライキ参加者の数', 'ストライキ要員'], '競争行為 - プロモーション': ['時間'、'プロモーション パーティー'、'プロモーション イベント']、'財務/トレーディング-在庫制限': ['時間'、'在庫制限']、'組織関係 - 解雇': [ ' 時間'、'解雇パーティー'、'解雇された人']}
出力:
3.7 EE 例 3 (興味深いエラーの例)
入力:
入力文:: 私は今日彼と離婚しました
##etl: {'組織行動ストライキ': [ '時間', '組織', 'ストライカーの数', 'ストライカー'], '競争行為-プロモーション': ['時間', 'プロモーションパーティー', 'プロモーションイベント'], '財務/取引-上限':['時間', '在庫制限'] , '組織関係 - 解雇': ['時間', '解雇当事者', '解雇された従業員']}出力:
明らかに上記の出力は間違っています。カスタム etl は次のとおりです: {'divorce': ['time', 'Character']},出力は次のとおりです:
#
以上がGPTとの対話によるゼロサンプル情報抽出の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。