Mengenalpasti Klien yang Dikaitkan dengan Dokumen Undang-undang
Objektif utama adalah untuk mengenal pasti pelanggan yang dikaitkan dengan setiap dokumen melalui salah satu pengecam berikut:
Matlamatnya adalah untuk mengekstrak nama pelanggan daripada dokumen undang-undang menggunakan Pengecaman Entiti Dinamakan (NER). Begini cara saya menghampiri tugas:
Data: Saya mempunyai koleksi dokumen undang-undang dalam format PDF. Tugasnya adalah untuk mengenal pasti pelanggan yang disebut dalam setiap dokumen menggunakan salah satu pengecam berikut:
Anggaran nama pelanggan (cth., "John Doe")
Nama pelanggan yang tepat (cth., "Doe, John A.")
Anggaran nama firma (cth., "Firma Guaman Doe")
Nama firma yang tepat (cth., "Doe, John A. Firma Undang-undang")
Kira-kira 5% daripada dokumen tidak termasuk mana-mana entiti pengecam.
Set Data: Untuk membangunkan model, saya menggunakan 710 dokumen PDF "benar", yang dibahagikan kepada tiga set: 600 untuk latihan, 55 untuk pengesahan dan 55 untuk ujian.
Label: Saya diberi fail Excel dengan entiti yang diekstrak sebagai teks biasa, yang perlu dilabelkan secara manual dalam teks dokumen. Menggunakan format penandaan BIO, saya melakukan langkah berikut:
Tandai permulaan entiti dengan "B-
Teruskan menandakan token berikutnya dalam entiti yang sama dengan "I-
Jika token bukan milik mana-mana entiti, tandakannya sebagai "O".
Pendekatan Alternatif: Model seperti LayoutLM, yang turut mempertimbangkan kotak sempadan untuk token input, berpotensi meningkatkan prestasi tugas NER. Walau bagaimanapun, saya memilih untuk tidak menggunakan pendekatan ini kerana, seperti yang sering berlaku, saya telah menghabiskan sebahagian besar masa projek untuk menyediakan data (cth., memformat semula fail Excel, membetulkan ralat data, pelabelan). Untuk menyepadukan model berasaskan kotak terikat, saya perlu memperuntukkan lebih banyak masa.
Walaupun regex dan heuristik secara teorinya boleh digunakan untuk mengenal pasti entiti mudah ini, saya menjangkakan bahawa pendekatan ini akan menjadi tidak praktikal, kerana ia akan memerlukan peraturan yang terlalu rumit untuk mengenal pasti entiti yang betul dengan tepat di kalangan calon berpotensi lain (mis., nama peguam, kes nombor, peserta lain dalam prosiding). Sebaliknya, model ini mampu belajar membezakan entiti yang berkaitan, menjadikan penggunaan heuristik tidak diperlukan.
Atas ialah kandungan terperinci Mengenalpasti Klien yang Dikaitkan dengan Dokumen Undang-undang. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Platform aplikasi mata wang digital maya 10 teratas di dunia, sepuluh platform perdagangan mata wang maya teratas pada tahun 2025

PI Node Teaching: Apakah nod pi? Bagaimana cara memasang dan menyediakan nod pi?

Pelbagai penerbit ETF bersaing untuk memohon Solana ETF! Tetapi mengapa BlackRock masih tidak hadir?
![Bitcoin [BTC] berada di aliran menurun selepas kehilangan tahap sokongan $ 92,000 pada minggu terakhir Februari](https://img.php.cn/upload/article/001/246/273/174209101774967.jpg?x-oss-process=image/resize,m_fill,h_207,w_330)
Bitcoin [BTC] berada di aliran menurun selepas kehilangan tahap sokongan $ 92,000 pada minggu terakhir Februari

Memahami situasi semasa dan masa depan MEV dalam satu artikel

Ramalan Harga PI: Berapa tinggi duit syiling PI boleh meningkat?

Top 10 Pertukaran Mata Wang Maya Percuma Percuma Sepuluh Platform Perdagangan Mata Wang Mata Wang Terbaik Sepuluh Maya