Rumah > web3.0 > Mengenalpasti Klien yang Dikaitkan dengan Dokumen Undang-undang

Mengenalpasti Klien yang Dikaitkan dengan Dokumen Undang-undang

Linda Hamilton
Lepaskan: 2024-11-19 10:22:17
asal
327 orang telah melayarinya

Objektif utama adalah untuk mengenal pasti pelanggan yang dikaitkan dengan setiap dokumen melalui salah satu pengecam berikut:

Mengenalpasti Klien yang Dikaitkan dengan Dokumen Undang-undang

Matlamatnya adalah untuk mengekstrak nama pelanggan daripada dokumen undang-undang menggunakan Pengecaman Entiti Dinamakan (NER). Begini cara saya menghampiri tugas:

Data: Saya mempunyai koleksi dokumen undang-undang dalam format PDF. Tugasnya adalah untuk mengenal pasti pelanggan yang disebut dalam setiap dokumen menggunakan salah satu pengecam berikut:

Anggaran nama pelanggan (cth., "John Doe")

Nama pelanggan yang tepat (cth., "Doe, John A.")

Anggaran nama firma (cth., "Firma Guaman Doe")

Nama firma yang tepat (cth., "Doe, John A. Firma Undang-undang")

Kira-kira 5% daripada dokumen tidak termasuk mana-mana entiti pengecam.

Set Data: Untuk membangunkan model, saya menggunakan 710 dokumen PDF "benar", yang dibahagikan kepada tiga set: 600 untuk latihan, 55 untuk pengesahan dan 55 untuk ujian.

Label: Saya diberi fail Excel dengan entiti yang diekstrak sebagai teks biasa, yang perlu dilabelkan secara manual dalam teks dokumen. Menggunakan format penandaan BIO, saya melakukan langkah berikut:

Tandai permulaan entiti dengan "B-".

Teruskan menandakan token berikutnya dalam entiti yang sama dengan "I-".

Jika token bukan milik mana-mana entiti, tandakannya sebagai "O".

Pendekatan Alternatif: Model seperti LayoutLM, yang turut mempertimbangkan kotak sempadan untuk token input, berpotensi meningkatkan prestasi tugas NER. Walau bagaimanapun, saya memilih untuk tidak menggunakan pendekatan ini kerana, seperti yang sering berlaku, saya telah menghabiskan sebahagian besar masa projek untuk menyediakan data (cth., memformat semula fail Excel, membetulkan ralat data, pelabelan). Untuk menyepadukan model berasaskan kotak terikat, saya perlu memperuntukkan lebih banyak masa.

Walaupun regex dan heuristik secara teorinya boleh digunakan untuk mengenal pasti entiti mudah ini, saya menjangkakan bahawa pendekatan ini akan menjadi tidak praktikal, kerana ia akan memerlukan peraturan yang terlalu rumit untuk mengenal pasti entiti yang betul dengan tepat di kalangan calon berpotensi lain (mis., nama peguam, kes nombor, peserta lain dalam prosiding). Sebaliknya, model ini mampu belajar membezakan entiti yang berkaitan, menjadikan penggunaan heuristik tidak diperlukan.

Atas ialah kandungan terperinci Mengenalpasti Klien yang Dikaitkan dengan Dokumen Undang-undang. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Artikel terbaru oleh pengarang
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan