L'objectif principal était d'identifier le(s) client(s) associé(s) à chaque document à travers l'un des identifiants suivants :
L'objectif était d'extraire les noms des clients de documents juridiques à l'aide de la reconnaissance d'entités nommées (NER). Voici comment j'ai abordé la tâche :
Données : J'avais une collection de documents juridiques au format PDF. La tâche consistait à identifier les clients mentionnés dans chaque document à l'aide de l'un des identifiants suivants :
Nom approximatif du client (par exemple, "John Doe")
Nom précis du client (par exemple, "Doe, John A.")
Nom approximatif du cabinet (par exemple, « Doe Law Firm »)
Nom précis du cabinet (par exemple, "Doe, John A. Law Firm")
Environ 5 % des documents ne contenaient aucune entité permettant d'identifier.
Ensemble de données : pour développer le modèle, j'ai utilisé 710 "vrais" documents PDF, qui ont été divisés en trois ensembles : 600 pour la formation, 55 pour la validation et 55 pour les tests.
Étiquettes : on m'a donné un fichier Excel avec des entités extraites sous forme de texte brut, qui devaient être étiquetées manuellement dans le texte du document. En utilisant le format de marquage BIO, j'ai effectué les étapes suivantes :
Marquez le début d'une entité avec "B-
Continuez à marquer les jetons suivants au sein de la même entité avec "I-
Si un jeton n'appartient à aucune entité, marquez-le comme "O".
Approche alternative : des modèles tels que LayoutLM, qui prennent également en compte les cadres de délimitation pour les jetons d'entrée, pourraient potentiellement améliorer les performances de la tâche NER. Cependant, j'ai choisi de ne pas utiliser cette approche car, comme c'est souvent le cas, j'avais déjà consacré la majorité du temps du projet à préparer les données (par exemple, reformater les fichiers Excel, corriger les erreurs de données, étiqueter). Pour intégrer des modèles basés sur des boîtes englobantes, j'aurais dû y consacrer encore plus de temps.
Bien que les expressions rationnelles et les heuristiques puissent théoriquement être appliquées pour identifier ces entités simples, j'avais prévu que cette approche serait peu pratique, car elle nécessiterait des règles trop complexes pour identifier précisément les entités correctes parmi d'autres candidats potentiels (par exemple, le nom de l'avocat, le dossier). numéro, autres participants à la procédure). En revanche, le modèle est capable d'apprendre à distinguer les entités pertinentes, rendant superflu le recours à l'heuristique.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!