Mengenalpasti Klien yang Dikaitkan dengan Dokumen Undang-undang
Objektif utama adalah untuk mengenal pasti pelanggan yang dikaitkan dengan setiap dokumen melalui salah satu pengecam berikut:
Matlamatnya adalah untuk mengekstrak nama pelanggan daripada dokumen undang-undang menggunakan Pengecaman Entiti Dinamakan (NER). Begini cara saya menghampiri tugas:
Data: Saya mempunyai koleksi dokumen undang-undang dalam format PDF. Tugasnya adalah untuk mengenal pasti pelanggan yang disebut dalam setiap dokumen menggunakan salah satu pengecam berikut:
Anggaran nama pelanggan (cth., "John Doe")
Nama pelanggan yang tepat (cth., "Doe, John A.")
Anggaran nama firma (cth., "Firma Guaman Doe")
Nama firma yang tepat (cth., "Doe, John A. Firma Undang-undang")
Kira-kira 5% daripada dokumen tidak termasuk mana-mana entiti pengecam.
Set Data: Untuk membangunkan model, saya menggunakan 710 dokumen PDF "benar", yang dibahagikan kepada tiga set: 600 untuk latihan, 55 untuk pengesahan dan 55 untuk ujian.
Label: Saya diberi fail Excel dengan entiti yang diekstrak sebagai teks biasa, yang perlu dilabelkan secara manual dalam teks dokumen. Menggunakan format penandaan BIO, saya melakukan langkah berikut:
Tandai permulaan entiti dengan "B-
Teruskan menandakan token berikutnya dalam entiti yang sama dengan "I-
Jika token bukan milik mana-mana entiti, tandakannya sebagai "O".
Pendekatan Alternatif: Model seperti LayoutLM, yang turut mempertimbangkan kotak sempadan untuk token input, berpotensi meningkatkan prestasi tugas NER. Walau bagaimanapun, saya memilih untuk tidak menggunakan pendekatan ini kerana, seperti yang sering berlaku, saya telah menghabiskan sebahagian besar masa projek untuk menyediakan data (cth., memformat semula fail Excel, membetulkan ralat data, pelabelan). Untuk menyepadukan model berasaskan kotak terikat, saya perlu memperuntukkan lebih banyak masa.
Walaupun regex dan heuristik secara teorinya boleh digunakan untuk mengenal pasti entiti mudah ini, saya menjangkakan bahawa pendekatan ini akan menjadi tidak praktikal, kerana ia akan memerlukan peraturan yang terlalu rumit untuk mengenal pasti entiti yang betul dengan tepat di kalangan calon berpotensi lain (mis., nama peguam, kes nombor, peserta lain dalam prosiding). Sebaliknya, model ini mampu belajar membezakan entiti yang berkaitan, menjadikan penggunaan heuristik tidak diperlukan.
Atas ialah kandungan terperinci Mengenalpasti Klien yang Dikaitkan dengan Dokumen Undang-undang. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

Video Face Swap
Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Rangkaian PI baru -baru ini mengadakan Pifest 2025, satu acara yang bertujuan untuk meningkatkan penggunaan token. Lebih 125,000 penjual dan 58,000 peniaga mengambil bahagian

Pasaran crypto terus menghadapi pergolakan, dengan Cardano (ADA) menjatuhkan 12% hingga $ 0.64, mendorong keprihatinan di seluruh sektor altcoin.

Ethereum (ETH) Tepi harga ke arah rintangan, Tether News mendedahkan perjanjian media € 10 juta, dan blockdag mencapai tonggak baru dengan beta testnet dan penerimaan yang semakin meningkat.

"Notorious hampir tidak pernah berlaku. Anda mahukan kisah sebenar? Kisah McGregor mungkin tentang anak lelaki yang tidak pernah meninggalkan Dublin. Saya menunjukkan kebesaran ..."

Dengan crypto mendapat daya tarikan sekali lagi, tiga nama menangkap perhatian yang serius -KASPA (KAS), Dogecoin (Doge), dan Blockdag (BDAG)

Syarikat di belakang USDC StableCoin yang popular hari ini mengumumkan hari ini bahawa ia telah memfailkan penyata pendaftaran S-1 dengan Suruhanjaya Sekuriti dan Bursa A.S. untuk tawaran awam awal.

Sebagai ikan paus dan FOMO mencapai tahap puncak, gelombang baru jutawan crypto mengunci awal ke generasi akan datang duit syiling dengan potensi 100x.

Pernah tertanya -tanya apa yang membuat duit syiling meme melambung ke bulan dan menangkap imaginasi berjuta -juta? Dari pulangan besar ke komuniti dalam talian virus