주요 목표는 다음 식별자 중 하나를 통해 각 문서와 연결된 클라이언트를 식별하는 것이었습니다.
목표는 NER(Named Entity Recognition)를 사용하여 법률 문서에서 고객 이름을 추출하는 것이었습니다. 제가 이 작업에 접근한 방법은 다음과 같습니다.
데이터: PDF 형식의 법률 문서 모음이 있었습니다. 임무는 다음 식별자 중 하나를 사용하여 각 문서에 언급된 고객을 식별하는 것이었습니다.
대략적인 고객 이름(예: "John Doe")
정확한 고객 이름(예: "Doe, John A.")
대략적인 회사 이름(예: "Doe Law Firm")
정확한 회사 이름(예: "Doe, John A. Law Firm")
문서의 약 5%에는 식별 가능한 주체가 포함되어 있지 않습니다.
데이터 세트: 모델 개발을 위해 710개의 "진정한" PDF 문서를 사용했는데, 이 문서는 훈련용 600개, 검증용 55개, 테스트용 55개의 세 세트로 나뉩니다.
레이블: 일반 텍스트로 추출된 항목이 포함된 Excel 파일을 받았는데, 문서 텍스트에 수동으로 레이블을 지정해야 했습니다. BIO 태깅 형식을 사용하여 다음 단계를 수행했습니다.
엔티티의 시작을 "B-
동일한 엔터티 내의 후속 토큰에 "I-
토큰이 어떤 엔터티에도 속하지 않는 경우 "O"로 표시하세요.
대체 접근 방식: 입력 토큰에 대한 경계 상자도 고려하는 LayoutLM과 같은 모델은 잠재적으로 NER 작업의 성능을 향상시킬 수 있습니다. 그러나 나는 종종 그렇듯이 이미 대부분의 프로젝트 시간을 데이터 준비(예: Excel 파일 형식 변경, 데이터 오류 수정, 라벨 지정)에 소비했기 때문에 이 접근 방식을 사용하지 않기로 결정했습니다. 경계 상자 기반 모델을 통합하려면 더 많은 시간을 할당해야 했을 것입니다.
정규식과 휴리스틱을 이론적으로 적용하여 이러한 간단한 엔터티를 식별할 수 있지만, 다른 잠재적 후보 중에서 올바른 엔터티(예: 변호사 이름, 사례)를 정확하게 식별하려면 지나치게 복잡한 규칙이 필요하기 때문에 이 접근 방식은 비실용적일 것이라고 예상했습니다. 번호, 절차의 다른 참가자). 대조적으로, 모델은 관련 엔터티를 구별하는 방법을 학습할 수 있으므로 휴리스틱 사용이 불필요해집니다.
위 내용은 법률 문서와 관련된 클라이언트 식별의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!