Das Hauptziel bestand darin, die mit jedem Dokument verknüpften Kunden anhand einer der folgenden Kennungen zu identifizieren:
Ziel war es, mithilfe der Named Entity Recognition (NER) Mandantennamen aus Rechtsdokumenten zu extrahieren. So bin ich an die Aufgabe herangegangen:
Daten: Ich hatte eine Sammlung juristischer Dokumente im PDF-Format. Die Aufgabe bestand darin, die in jedem Dokument genannten Kunden anhand einer der folgenden Kennungen zu identifizieren:
Ungefährer Name des Kunden (z. B. „John Doe“)
Präziser Kundenname (z. B. „Doe, John A.“)
Ungefährer Firmenname (z. B. „Doe Law Firm“)
Präziser Firmenname (z. B. „Doe, John A. Law Firm“)
Etwa 5 % der Dokumente enthielten keine identifizierenden Entitäten.
Datensatz: Für die Entwicklung des Modells habe ich 710 „echte“ PDF-Dokumente verwendet, die in drei Sätze aufgeteilt wurden: 600 für das Training, 55 für die Validierung und 55 für Tests.
Beschriftungen: Ich erhielt eine Excel-Datei mit als Klartext extrahierten Entitäten, die im Dokumenttext manuell beschriftet werden mussten. Unter Verwendung des BIO-Tagging-Formats habe ich die folgenden Schritte ausgeführt:
Markieren Sie den Anfang einer Entität mit „B-
Markieren Sie nachfolgende Token innerhalb derselben Entität weiterhin mit „I-
Wenn ein Token zu keiner Entität gehört, markieren Sie es als „O“.
Alternativer Ansatz: Modelle wie LayoutLM, die auch Begrenzungsrahmen für Eingabetoken berücksichtigen, könnten möglicherweise die Leistung der NER-Aufgabe verbessern. Ich habe mich jedoch gegen diesen Ansatz entschieden, da ich, wie so oft, bereits den Großteil der Projektzeit mit der Aufbereitung der Daten verbracht hatte (z. B. Excel-Dateien neu formatieren, Datenfehler korrigieren, Beschriftung). Um Bounding-Box-basierte Modelle zu integrieren, hätte ich noch mehr Zeit einplanen müssen.
Während Regex und Heuristik theoretisch zur Identifizierung dieser einfachen Entitäten angewendet werden könnten, ging ich davon aus, dass dieser Ansatz unpraktisch wäre, da übermäßig komplexe Regeln erforderlich wären, um die richtigen Entitäten unter anderen potenziellen Kandidaten (z. B. Name des Anwalts, Fall) genau zu identifizieren Nummer, weitere Verfahrensbeteiligte). Im Gegensatz dazu kann das Modell lernen, die relevanten Entitäten zu unterscheiden, wodurch der Einsatz von Heuristiken überflüssig wird.
Das obige ist der detaillierte Inhalt vonIdentifizieren des mit einem Rechtsdokument verbundenen Kunden. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!