Rumah > Peranti teknologi > AI > teks badan

Pengekstrakan maklumat sampel sifar dengan bercakap dengan GPT

WBOY
Lepaskan: 2023-04-13 09:13:02
ke hadapan
1716 orang telah melayarinya

Trend semasa model besar tujuan umum yang menggantikan model proprietari yang disesuaikan untuk tugasan tertentu secara beransur-ansur muncul. Pendekatan ini telah mengurangkan kos marginal aplikasi model AI dengan ketara. Ini menimbulkan persoalan: Adakah boleh mencapai pengekstrakan maklumat sampel sifar tanpa latihan?

Teknologi pengekstrakan maklumat merupakan bahagian penting dalam membina graf pengetahuan Jika ia boleh dilaksanakan tanpa latihan sama sekali, ia akan mengurangkan ambang analisis data dan membantu merealisasikan pengetahuan automatik.

Kami membina sistem IE sampel sifar am dengan menggunakan kaedah kejuruteraan segera untuk GPT-3.5 - GPT4IE (GPT untuk Pengekstrakan Maklumat) , mendapati bahawa GPT3.5 boleh mengekstrak maklumat berstruktur secara automatik daripada ayat asal. Menyokong kedua-dua bahasa Cina dan Inggeris, dan kod alat adalah sumber terbuka.

URL Alat: https://cocacola-lab.github.io/GPT4IE/​

Kod: ​https://github.com/cocacola-lab/GPT4IE​

1 Pengenalan latar belakang

Maklumat matlamat pengekstrakan (Ekstraksi Maklumat, IE) adalah untuk mengekstrak maklumat berstruktur daripada teks tidak berstruktur, termasuk pengekstrakan tiga kali ganda perhubungan entiti (Ekstrak Perhubungan Entiti, RE), pengiktirafan entiti bernama (Pengiktirafan Entiti Dinamakan, NER) dan pengekstrakan peristiwa ( Pengekstrakan Peristiwa, EE) [1][2][3][4][5]. Banyak kajian telah mula bergantung pada teknologi IE untuk mengautomasikan kerja sifar / beberapa pukulan, seperti IE klinikal [6].

Model bahasa pra-latihan berskala besar (LLM) baru-baru ini telah menunjukkan prestasi yang sangat baik pada banyak tugas hiliran, walaupun dengan hanya beberapa contoh sebagai panduan tanpa memerlukan Ia boleh dicapai dengan sedikit tweak. Daripada ini kami menimbulkan soalan: Adakah ia boleh dilaksanakan untuk melaksanakan tugasan IE pukulan sifar melalui gesaan sahaja? Kami cuba menggunakan kaedah segera untuk membina sistem IE tembakan sifar umum untuk GPT-3.5 - GPT4IE (GPT untuk Pengekstrakan Maklumat) . Digabungkan dengan GPT3.5 dan pembayang, ia dapat mengekstrak maklumat berstruktur secara automatik daripada ayat asal.

2 Rangka Kerja Teknikal

Mereka bentuk templat gesaan yang ditentukan tugas, dan kemudian mengisi templat dengan input pengguna Nilai slot tertentu (slot) membentuk gesaan (prompt), yang dimasukkan ke dalam GPT-3.5 dan digunakan untuk IE. Terdapat tiga tugasan yang disokong: RE, NER dan EE, dan ketiga-tiga tugasan adalah dwibahasa dalam bahasa Cina dan Inggeris. Pengguna perlu memasukkan ayat dan merumuskan senarai jenis pengekstrakan (iaitu, senarai perhubungan, senarai entiti kepala, senarai entiti ekor, senarai jenis entiti atau senarai acara). Butirannya adalah seperti berikut:

Matlamat tugas RE adalah untuk mengekstrak tiga kali ganda daripada teks, seperti "(China, ibu kota, Beijing)", " ("Ruyi "Biografi", lakonan, Zhou Xun)". Format input yang diperlukan adalah seperti berikut (item dengan "*" mewakili medan yang tidak diperlukan. Kami telah menetapkan nilai lalai untuk pilihan ini, tetapi untuk fleksibiliti, kami menyokong senarai yang ditentukan yang ditentukan pengguna, sama seperti di bawah):

  • Ayat Input: Teks input
  • Senarai jenis hubungan (rtl)* : ['Jenis hubungan 1', 'Jenis hubungan 2' , ...]
  • Senarai jenis subjek (stl)* : ['Jenis entiti pengepala 1', 'Jenis entiti pengepala 2', ...]
  • Senarai jenis objek (otl)* : ['Jenis entiti ekor 1', 'Jenis entiti ekor 2', ...]
  • Kunci API OpenAI: OpenAI Kunci API (kami Beberapa kunci yang tersedia disediakan dalam Github sebagai contoh )

tugas NER direka untuk mengekstrak entiti daripada teks, seperti " (LOC , Beijing)”, “(Watak, Zhou Enlai)”. Pada tugasan NER, format input adalah seperti berikut:

  • Ayat Input: Teks input
  • Senarai jenis entiti (etl) * : [ 'Jenis entiti 1', 'Jenis entiti 2', ...]
  • Kunci API OpenAI: Kunci API OpenAI

Tugas EE bertujuan untuk mengeluarkan peristiwa daripada teks biasa, seperti "{Life-Divorce: {Orang: Bob, Masa: hari ini, Tempat: Amerika}}", "{Contest Behavior-Promotion: {Time" : Tiada, Bahagian promosi: Northwest Wolves, Acara promosi: Pertempuran untuk tempat teratas Liga Perdana China}}". Format input adalah seperti berikut:

  • Ayat Input: Teks input
  • Senarai jenis acara (etl)* : {'Jenis peristiwa 1': ['Peranan hujah 1', ' Hujah peranan 2', ...], ...}
  • Kunci API OpenAI: Kunci API OpenAI

3 Contoh penggunaan alatan

3.1 RE Contoh 1

Input:

Ayat Input: Bob bekerja untuk Google di Beijing, ibu negara China.

rtl: [ 'lokasi- terletak_dalam', 'negara-bahagian_pentadbiran', 'orang-tempat_diami', 'orang-syarikat', 'orang-kewarganegaraan', 'pengasas-syarikat', 'bahagian_pentadbiran-negara', 'orang-anak', 'negara-modal' , 'orang-orang-tempat_mati', 'kejiranan-kejiranan', 'orang-tempat_kelahiran']

stl: ['organisasi', 'orang' , 'lokasi ', 'negara']

otl: ['orang', 'lokasi', 'negara', 'organisasi', 'bandar']

Output:

Pengekstrakan maklumat sampel sifar dengan bercakap dengan GPT

3.2 RE Contoh 2

Input:

Ayat Input: "Cinta Diraja Ruyi di Istana" ialah siri TV emosi istana pakaian kuno, diterbitkan oleh Diarahkan oleh Wang Jun, dibintangi oleh Zhou Xun, Huo Jianhua, Zhang Junning, Dong Jie, Xin Zhilei, Tong Yao, Li Chun, Wu Junmei dan lain-lain.

rtl: ['Album', 'Tarikh Penubuhan', 'Altitud', 'Bahasa Rasmi', 'Kawasan', 'Bapa', 'Penyanyi ', 'Penerbit', 'Pengarah', 'Modal', 'Dibintangi', 'Pengerusi', 'rumah pusaka', 'Isteri', 'Ibu', 'Iklim', 'Kawasan', 'Protagonis' , 'Poskod ', 'Singkatan', 'Syarikat pengeluaran', 'Modal berdaftar', 'Penulis Skrin', 'Pengasas', 'Sekolah tamat pengajian', 'Kewarganegaraan', 'Kod profesional', 'Dinasti', 'Pengarang', 'lirik', 'bandar', 'tetamu', 'lokasi ibu pejabat', 'populasi', 'jurucakap', 'diadaptasi daripada', 'pengetua', 'suami', 'tuan rumah', 'lagu tema' ', 'tahun belajar', 'komposisi', 'nombor', 'masa keluaran', 'box office', 'lakonan', 'dubbing', 'anugerah']

stl: ['Negara', 'Wilayah Pentadbiran', 'Karya Sastera', 'Watak', 'Karya Filem dan Televisyen', 'Sekolah', 'Karya Buku', 'Tempat', 'Tokoh Sejarah', 'Tempat Tarikan' , 'Lagu ', 'Subject Major', 'Enterprise', 'TV Variety Show', 'Institution', 'Enterprise/Brand', 'Entertainment Figure']

otl : ['Negara', 'Orang', 'Teks', 'Tarikh', 'Tempat', 'Iklim', 'Bandar', 'Lagu', 'Perusahaan', 'Nombor', 'Album Muzik', 'sekolah ', 'kerja', 'bahasa']

Output:

Pengekstrakan maklumat sampel sifar dengan bercakap dengan GPT

3.3 NER Contoh 1

Input:

Ayat Input : Bob bekerja untuk Google di Beijing, ibu negara China.

etl: ['LOC', 'MISC', 'ORG', ' PER' ]

Output:

Pengekstrakan maklumat sampel sifar dengan bercakap dengan GPT

3.4 NER contoh dua

Input:

Ayat Input: Dalam tempoh lima tahun yang lalu, di bawah bimbingan Teori Deng Xiaoping, Parti Zhigong telah mengikuti garis asas tahap utama sosialisme dan bekerja keras untuk melaksanakan dasar dicadangkan pada Kongres Kebangsaan ke-10 Parti Zhigong Tugas asas untuk mengambil bahagian dalam fungsi parti dan mengukuhkan pembinaan diri.

etl: ['organisasi', 'lokasi', 'orang']

Output:

Pengekstrakan maklumat sampel sifar dengan bercakap dengan GPT

3.5 EE Contoh 1

Ayat Input:Semalam Bob dan isterinya bercerai di Guangzhou.

etl: {'Personnel:Elect': ['Orang', 'Entiti', 'Jawatan', 'Masa', 'Tempat'], 'Perniagaan:Isytihar-Muflis': ['Org', 'Masa', 'Tempat'], 'Keadilan:Tangkapan-Penjara': ['Orang ', 'Ejen', 'Jenayah', 'Masa', 'Tempat'], 'Hidup:Perceraian': ['Orang', 'Masa', 'Tempat'], 'Hidup:Mencederakan': ['Ejen', 'Mangsa', 'Alat', 'Masa', 'Tempat']}

Output:

Pengekstrakan maklumat sampel sifar dengan bercakap dengan GPT3.6 EE Contoh 2

Input:

Ayat Input: : Pada perlawanan akhir Piala Dunia Qatar 2022, Argentina menewaskan Perancis secara tipis dalam penentuan sepakan penalti.

etl: {'Gelagat organisasi-mogok': ['masa', 'organisasi', 'bilangan mogok', 'kakitangan mogok'], ' Kelakuan Persaingan-Promosi': ['Masa', 'Pesta Promosi', 'Acara Promosi'], 'Kewangan/Stok Terhad Dagangan': ['Masa', 'Stok Terhad'], 'Perhubungan Organisasi-Pembuangan': [ ' Time', 'Firing Party', 'Fired Person']}

Output:

Pengekstrakan maklumat sampel sifar dengan bercakap dengan GPT

3.7 EE contoh tiga (contoh ralat yang menarik)

Input:

Ayat Input:: Saya ceraikan dia hari ini

etl: {'Tingkah Laku Organisasi - Mogok': [ 'Masa' , 'Afiliasi', 'Bilangan mogok', 'Kakitangan mogok'], 'Kelakuan-Kelakuan Persaingan': ['Masa', 'Pesta Kenaikan Pangkat', 'Acara Promosi'], 'Kewangan/Had Lebih Tinggi' ; . ']}, outputnya ialah:

Atas ialah kandungan terperinci Pengekstrakan maklumat sampel sifar dengan bercakap dengan GPT. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Label berkaitan:
sumber:51cto.com
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan