主要目標是透過以下識別碼之一來識別與每個文件關聯的客戶:
目標是使用命名實體識別 (NER) 從法律文件中提取客戶名稱。以下是我完成任務的方法:
資料:我收集了 PDF 格式的法律文件。任務是使用以下標識符之一來識別每個文件中提到的客戶:
大概的客戶名稱(例如「John Doe」)
準確的顧客名稱(例如「Doe, John A.」)
大概的公司名稱(例如「Doe Law Firm」)
準確的公司名稱(例如「Doe, John A. Law Firm」)
大約 5% 的文件不包含任何識別實體。
資料集:為了開發模型,我使用了 710 個「真實」PDF 文檔,這些文檔分為三組:600 個用於訓練,55 個用於驗證,55 個用於測試。
標籤:我收到了一個 Excel 文件,其中的實體被提取為純文本,需要在文檔文本中手動標記。使用 BIO 標記格式,我執行了以下步驟:
用「B-
繼續以「I-
如果令牌不屬於任何實體,則將其標記為「O」。
替代方法:像 LayoutLM 這樣的模型也考慮了輸入標記的邊界框,可能會提高 NER 任務的效能。然而,我選擇不使用這種方法,因為通常情況下,我已經花了專案的大部分時間來準備資料(例如,重新格式化 Excel 檔案、更正資料錯誤、標記)。要整合基於邊界框的模型,我需要分配更多時間。
雖然理論上可以應用正規表示式和啟發式來識別這些簡單的實體,但我預計這種方法是不切實際的,因為它需要過於複雜的規則來精確識別其他潛在候選者中的正確實體(例如,律師姓名、案件)人數、訴訟程序的其他參與者)。相較之下,該模型能夠學習區分相關實體,從而使啟發式方法的使用變得多餘。
以上是識別與法律文件相關的客戶的詳細內容。更多資訊請關注PHP中文網其他相關文章!