识别与法律文件相关的客户
主要目标是通过以下标识符之一识别与每个文档关联的客户:
目标是使用命名实体识别 (NER) 从法律文档中提取客户名称。以下是我完成任务的方法:
数据:我收集了 PDF 格式的法律文件。任务是使用以下标识符之一来识别每个文档中提到的客户:
大概的客户名称(例如“John Doe”)
准确的客户名称(例如“Doe, John A.”)
大概的公司名称(例如“Doe Law Firm”)
准确的公司名称(例如“Doe, John A. Law Firm”)
大约 5% 的文档不包含任何识别实体。
数据集:为了开发模型,我使用了 710 个“真实”PDF 文档,这些文档分为三组:600 个用于训练,55 个用于验证,55 个用于测试。
标签:我收到了一个 Excel 文件,其中的实体被提取为纯文本,需要在文档文本中手动标记。使用 BIO 标记格式,我执行了以下步骤:
用“B-
继续用“I-
如果令牌不属于任何实体,则将其标记为“O”。
替代方法:像 LayoutLM 这样的模型也考虑了输入标记的边界框,可能会提高 NER 任务的性能。然而,我选择不使用这种方法,因为通常情况下,我已经花费了项目的大部分时间来准备数据(例如,重新格式化 Excel 文件、更正数据错误、标记)。要集成基于边界框的模型,我需要分配更多时间。
虽然理论上可以应用正则表达式和启发式来识别这些简单的实体,但我预计这种方法是不切实际的,因为它需要过于复杂的规则来精确识别其他潜在候选者中的正确实体(例如,律师姓名、案件)人数、诉讼程序的其他参与者)。相比之下,该模型能够学习区分相关实体,从而使启发式方法的使用变得多余。
以上是识别与法律文件相关的客户的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

在今天早些时候的公告中,日本公司Metaplanet透露已收购了另外319个比特币(BTC),将其总公司持有量推高了4,500 BTC。

领先的数字资产经理Bitwise已宣布在伦敦证券交易所(LSE)上列出了其四个加密交易所交易产品(ETP)。

随着Binance Coin(BNB)的增长趋势

在过去的24小时内,最大的加密货币增长了1.6%,现在的交易价格不到85,000美元。以太(ETH),同时,增长了2.7%

NT Labs和运动网络基金会启动独立调查,以进行代币营销违规行为
![一波资本从以太坊(ETH)流出,进入TRON [TRX]](https://img.php.cn/upload/article/001/246/273/174477326297054.jpg?x-oss-process=image/resize,m_fill,h_207,w_330)
有15.2亿美元的Stablecoins迁移到TRON,投资者似乎赞成低成本的连锁店和超出传统美元支持资产的多元化。

截至发稿时,PI于4月12日与ChainLink集成后,交易价格为0.6711美元。该公告导致PI价格上涨