Rumah web3.0 Mengenalpasti Klien yang Dikaitkan dengan Dokumen Undang-undang

Mengenalpasti Klien yang Dikaitkan dengan Dokumen Undang-undang

Nov 19, 2024 am 10:22 AM
ner Czech Documents XLM-RoBERTa Accelerate

Objektif utama adalah untuk mengenal pasti pelanggan yang dikaitkan dengan setiap dokumen melalui salah satu pengecam berikut:

Mengenalpasti Klien yang Dikaitkan dengan Dokumen Undang-undang

Matlamatnya adalah untuk mengekstrak nama pelanggan daripada dokumen undang-undang menggunakan Pengecaman Entiti Dinamakan (NER). Begini cara saya menghampiri tugas:

Data: Saya mempunyai koleksi dokumen undang-undang dalam format PDF. Tugasnya adalah untuk mengenal pasti pelanggan yang disebut dalam setiap dokumen menggunakan salah satu pengecam berikut:

Anggaran nama pelanggan (cth., "John Doe")

Nama pelanggan yang tepat (cth., "Doe, John A.")

Anggaran nama firma (cth., "Firma Guaman Doe")

Nama firma yang tepat (cth., "Doe, John A. Firma Undang-undang")

Kira-kira 5% daripada dokumen tidak termasuk mana-mana entiti pengecam.

Set Data: Untuk membangunkan model, saya menggunakan 710 dokumen PDF "benar", yang dibahagikan kepada tiga set: 600 untuk latihan, 55 untuk pengesahan dan 55 untuk ujian.

Label: Saya diberi fail Excel dengan entiti yang diekstrak sebagai teks biasa, yang perlu dilabelkan secara manual dalam teks dokumen. Menggunakan format penandaan BIO, saya melakukan langkah berikut:

Tandai permulaan entiti dengan "B-".

Teruskan menandakan token berikutnya dalam entiti yang sama dengan "I-".

Jika token bukan milik mana-mana entiti, tandakannya sebagai "O".

Pendekatan Alternatif: Model seperti LayoutLM, yang turut mempertimbangkan kotak sempadan untuk token input, berpotensi meningkatkan prestasi tugas NER. Walau bagaimanapun, saya memilih untuk tidak menggunakan pendekatan ini kerana, seperti yang sering berlaku, saya telah menghabiskan sebahagian besar masa projek untuk menyediakan data (cth., memformat semula fail Excel, membetulkan ralat data, pelabelan). Untuk menyepadukan model berasaskan kotak terikat, saya perlu memperuntukkan lebih banyak masa.

Walaupun regex dan heuristik secara teorinya boleh digunakan untuk mengenal pasti entiti mudah ini, saya menjangkakan bahawa pendekatan ini akan menjadi tidak praktikal, kerana ia akan memerlukan peraturan yang terlalu rumit untuk mengenal pasti entiti yang betul dengan tepat di kalangan calon berpotensi lain (mis., nama peguam, kes nombor, peserta lain dalam prosiding). Sebaliknya, model ini mampu belajar membezakan entiti yang berkaitan, menjadikan penggunaan heuristik tidak diperlukan.

Atas ialah kandungan terperinci Mengenalpasti Klien yang Dikaitkan dengan Dokumen Undang-undang. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Harga Pi Rangkaian (PI) jatuh walaupun acara Pifest 2025 yang berjaya Harga Pi Rangkaian (PI) jatuh walaupun acara Pifest 2025 yang berjaya Apr 03, 2025 am 10:08 AM

Rangkaian PI baru -baru ini mengadakan Pifest 2025, satu acara yang bertujuan untuk meningkatkan penggunaan token. Lebih 125,000 penjual dan 58,000 peniaga mengambil bahagian

Ruvi Ai (Ruvi) Token Presale Might 20x selepas pelancaran letupan Ruvi Ai (Ruvi) Token Presale Might 20x selepas pelancaran letupan Apr 03, 2025 am 11:08 AM

Pasaran crypto terus menghadapi pergolakan, dengan Cardano (ADA) menjatuhkan 12% hingga $ 0.64, mendorong keprihatinan di seluruh sektor altcoin.

Blockdag melancarkan Beta TestNet dengan $ 200 juta yang dibangkitkan, Ethereum mendekati $ 2,000 & tether berkembang ke media Blockdag melancarkan Beta TestNet dengan $ 200 juta yang dibangkitkan, Ethereum mendekati $ 2,000 & tether berkembang ke media Apr 03, 2025 am 10:34 AM

Ethereum (ETH) Tepi harga ke arah rintangan, Tether News mendedahkan perjanjian media € 10 juta, dan blockdag mencapai tonggak baru dengan beta testnet dan penerimaan yang semakin meningkat.

'Notorious' Conor McGregor melancarkan Cryptocurrency Venture, berjanji untuk 'menukar permainan crypto' dengan duit syiling $ sebenar 'Notorious' Conor McGregor melancarkan Cryptocurrency Venture, berjanji untuk 'menukar permainan crypto' dengan duit syiling $ sebenar Apr 06, 2025 am 10:14 AM

"Notorious hampir tidak pernah berlaku. Anda mahukan kisah sebenar? Kisah McGregor mungkin tentang anak lelaki yang tidak pernah meninggalkan Dublin. Saya menunjukkan kebesaran ..."

Blockdag (BDAG) memecahkan rekod dengan lompat harga presale 2,380%, melampaui Dogecoin (Doge) dan KASPA (KAS) Blockdag (BDAG) memecahkan rekod dengan lompat harga presale 2,380%, melampaui Dogecoin (Doge) dan KASPA (KAS) Apr 04, 2025 am 10:16 AM

Dengan crypto mendapat daya tarikan sekali lagi, tiga nama menangkap perhatian yang serius -KASPA (KAS), Dogecoin (Doge), dan Blockdag (BDAG)

Circle Internet Group Inc. Fail S-1 dengan SEC untuk pergi ke umum Circle Internet Group Inc. Fail S-1 dengan SEC untuk pergi ke umum Apr 02, 2025 am 10:18 AM

Syarikat di belakang USDC StableCoin yang popular hari ini mengumumkan hari ini bahawa ia telah memfailkan penyata pendaftaran S-1 dengan Suruhanjaya Sekuriti dan Bursa A.S. untuk tawaran awam awal.

Pasaran duit syiling meme bukan hanya hidup - ia terbakar Pasaran duit syiling meme bukan hanya hidup - ia terbakar Apr 02, 2025 am 11:16 AM

Sebagai ikan paus dan FOMO mencapai tahap puncak, gelombang baru jutawan crypto mengunci awal ke generasi akan datang duit syiling dengan potensi 100x.

Kucing Troller ($ TCAT) adalah projek duit syiling meme besar seterusnya yang perlu anda tonton Kucing Troller ($ TCAT) adalah projek duit syiling meme besar seterusnya yang perlu anda tonton Apr 04, 2025 am 11:22 AM

Pernah tertanya -tanya apa yang membuat duit syiling meme melambung ke bulan dan menangkap imaginasi berjuta -juta? Dari pulangan besar ke komuniti dalam talian virus