复旦大学团队发布中文智慧法律系统DISC-LawLLM，构建司法评测基准，开源30万微调数据-人工智能-PHP中文网

首页

科技周边

人工智能

复旦大学团队发布中文智慧法律系统DISC-LawLLM，构建司法评测基准，开源30万微调数据

PHPz

Sep 29, 2023 pm 01:17 PM

产业 disc-lawllm disc-law-sft

随着智慧司法的兴起，智能化方法驱动的智能法律系统有望惠及不同群体。例如，为法律专业人员减轻文书工作，为普通民众提供法律咨询服务，为法学学生提供学习和考试辅导。

由于法律知识的独特性和司法任务的多样性，此前的智慧司法研究方面主要着眼于为特定任务设计自动化算法，难以满足对司法领域提供支撑性服务的需求，离应用落地有不小的距离。而大型语言模型（LLMs）在不同的传统任务上展示出强大的能力，为智能法律系统的进一步发展带来希望。

近日，复旦大学数据智能与社会计算实验室（FudanDISC）发布大语言模型驱动的中文智慧法律系统 ——DISC-LawLLM。该系统可以面向不同用户群体，提供多样的法律服务。此外，实验室还构建了评测基准 DISC-Law-Eval，从客观和主观两个方面来评测法律大语言模型，模型在评测中的表现相较现有的法律大模型有明显优势。

课题组同时公开包含 30 万高质量的监督微调（SFT）数据集 ——DISC-Law-SFT，模型参数和技术报告也一并开源。

复旦大学团队发布中文智慧法律系统DISC-LawLLM，构建司法评测基准，开源30万微调数据

主页地址：https://law.fudan-disc.com
Github 地址：https://github.com/FudanDISC/DISC-LawLLM
技术报告：https://arxiv.org/abs/2309.11325

01 样例展示

用户有法律方面的疑问时，可以向模型咨询，描述疑问，模型会给出相关的法律规定和解释、推荐的解决方案等。

复旦大学团队发布中文智慧法律系统DISC-LawLLM，构建司法评测基准，开源30万微调数据

^{图 1 法律咨询示例}

专业法律者和司法机关，可以利用模型完成法律文本摘要、司法事件检测、实体和关系抽取等，减轻文书工作，提高工作效率。复旦大学团队发布中文智慧法律系统DISC-LawLLM，构建司法评测基准，开源30万微调数据

^{图 2 司法文书分析}

法律专业的学生在准备司法考试过程中，可以向模型提出问题，帮助巩固法律知识，解答法律考试题。

复旦大学团队发布中文智慧法律系统DISC-LawLLM，构建司法评测基准，开源30万微调数据

^{图 3 考试助手示例}

在需要外部法条做支撑时，模型会根据问题在知识库中检索相关内容，给出回复。

复旦大学团队发布中文智慧法律系统DISC-LawLLM，构建司法评测基准，开源30万微调数据

^{图 4 检索增强场景下的对话}

02 DISC-LawLLM 介绍

DISC-LawLLM 是基于我们构建的高质量数据集 DISC-Law-SFT 在通用领域中文大模型 Baichuan-13B 上进行全参指令微调得到的法律大模型。值得注意的是，我们的训练数据和训练方法可以被适配到任何基座大模型之上。

DISC-LawLLM 具有三个核心能力：

1. 基础的法律文本处理能力。针对法律文本理解与生成的不同基础能力，包括信息抽取、文本摘要等，我们基于现有的 NLP 司法任务公开数据和真实世界的法律相关文本进行了微调数据的构建。

2. 法律推理思维能力。针对智慧司法领域任务的需求，我们使用法律三段论这一法官的基本法律推理过程重构了指令数据，有效地提高了模型的法律推理能力。

3. 司法领域知识检索遵循能力非常重要。在解决智慧司法领域的问题时，通常需要根据问题的相关背景法条或案例进行检索。为了增强智能法律处理系统的检索和遵循能力，我们为其配备了检索增强的模块

模型的整体框架如图 5 所示：

复旦大学团队发布中文智慧法律系统DISC-LawLLM，构建司法评测基准，开源30万微调数据

^{图5 模型在不同的法律场景下服务于不同的用户}

03 方法：数据集 DISC-Law-SFT 的构造

复旦大学团队发布中文智慧法律系统DISC-LawLLM，构建司法评测基准，开源30万微调数据

^{图 6 DISC-Law-SFT 的构造}

DISC-Law-SFT 分为两个子数据集，分别是 DISC-Law-SFT-Pair 和 DISC-Law-SFT-Triplet，前者向 LLM 中引入了法律推理能力，而后者则有助于提高模型利用外部知识的能力。

复旦大学团队发布中文智慧法律系统DISC-LawLLM，构建司法评测基准，开源30万微调数据

^{表 1：DISC-Law-SFT 数据集内容介绍}

数据来源

DISC-Law-SFT 数据集的数据来源于三部分，一是与中国法律相关的 NLP 司法任务公开数据集，包括法律信息抽取、实体与关系抽取、司法文本摘要、司法考试问答、司法阅读理解、罪名 / 刑期预测等；二是收集了来自真实世界的法律相关的原始文本，如法律法规、司法案件、裁判文书、司法相关的考试等；三是通用的开源数据集，我们使用了 alpaca_gpt4_data_zh 和 Firefly，这样可以丰富训练集的多样性，减轻模型在 SFT 训练阶段出现基础能力降级的风险。

指令对构造

对上述一、二来源的数据转换为 “输入 - 输出” 指令对后，我们采用以下三种方式对指令数据重构，以提高数据质量。

行为塑造

在法律三段论中，大前提为适用的法律规则，小前提为案件事实，结论为法律判断。这构成了法官的一个基本的法律推理过程。每一个案例都可以通过三段论得出一个明确的结论，如下所述：

大前提：法律规则
小前提：案件事实
结论：法律判断

我们利用 GPT-3.5-turbo 来完成行为塑造的重构，细化输出，确保每个结论都从一个法律条款和一个案例事实中得出。

知识扩充

对于行为塑造不适用的多项选择题，我们直接使用法律知识扩展输出，以提供更多的推理细节。许多与法律相关的考试和知识竞赛只提供答案选项，我们使用 LLM 来扩展所涉及的法律知识，给出正确的答案，并重建指令对。

思维培养

思维链（CoT）已被证明能有效地提高模型的推理能力。为了进一步赋予模型法律推理能力，我们设计了具有特定法律意义的思维链，称为 LCoT，要求模型用法律三段论来推导答案。LCoT 将输入 X 转换为如下的提示：

在法律三段论中，大前提是适用的法律规则，小前提是案件事实，结论是对案件的法律判断。
案件：X
让我们用法律三段论来思考和输出判断：

指令三元组构造

为了训练检索增强后的模型，我们构造了 DISC-Law-SFT-Triplet 子数据集，数据为形式的三元组，我们使用指令对构造中列出的三种策略对原始数据进行处理，获得输入和输出，并设计启发式规则来从原始数据中提取参考信息。

04 实验

训练

DISC-LawLLM 的训练过程分为 SFT 和检索增强两个阶段。

检索增强

虽然我们使用了高质量的指令数据对 LLM 进行微调，但它可能会由于幻觉或过时的知识而产生不准确的反应。为了解决这个问题，我们设计了一个检索模块来增强 DISC-LawLLM。

给定一个用户输入，检索器通过计算它们与输入的相似性，从知识库返回最相关的 Top-K 文档。这些候选文档，连同用户输入，用我们设计的模板构造后输入到 DISC-LawLLM 中。通过查询知识库，模型可以更好地理解主要前提，从而得到更准确可靠的答案。

复旦大学团队发布中文智慧法律系统DISC-LawLLM，构建司法评测基准，开源30万微调数据

^{图 7：检索增强的 DISC-LawLLM}

评测方法

评测基准 DISC-Law-Eval

我们构建了一个公平的智能法律系统评估基准 DISC-Law-Eval，从客观和主观的角度来评估，填补了目前还没有基准来对智能法律体系全面评估这一空白。

复旦大学团队发布中文智慧法律系统DISC-LawLLM，构建司法评测基准，开源30万微调数据

^{图 8：DISC-Law-Eval 评测基准}

客观评测

为了客观、定量地评估智能法律系统的法律知识和推理能力，我们设计了一个客观的评价数据集，由一系列中国法律标准化考试和知识竞赛的单项和多项选择题组成，并根据内容复杂性和演绎难度，将问题分为困难、正常和容易三个层次。它可以提供一个更具挑战性和可靠的方法来衡量模型是否可以利用其知识来推理正确的答案。我们通过计算精度来表明性能。

主观评测

主观评测部分，我们采用问答的范式进行评估，模拟主观考试问题的过程。我们从法律咨询、在线论坛、与司法相关的出版物和法律文件中手工构建了一个高质量的测试集。我们用 GPT- 3.5-turbo 作为裁判模型来评估模型的输出，并用准确性、完整性和清晰度这三个标准提供 1 到 5 的评分。

评测结果

比较模型

将我们的模型 DISC-LawLLM (不外接知识库) 与 4 个通用 LLM 和 4 个中文法律 LLM 进行比较，包括 GPT-3.5-turbo、ChatGLM-6B 、Baichuan-13B-Chat 、Chinese-Alpaca2-13B ；LexiLaw 、LawGPT、Lawyer LLaMA、ChatLaw 。

客观评测结果

DISC-LawLLM 在所有不同难度水平的测试中超过所有比较的同等参数量的大模型。即使与具有 175B 参数的 GPT- 3.5-turbo 相比，DISC-LawLLM 在部分测试上也表现出了更优越的性能。表 2 是客观评测结果，其中加粗表示最佳结果，下划线表示次佳结果。

复旦大学团队发布中文智慧法律系统DISC-LawLLM，构建司法评测基准，开源30万微调数据 ^{表 2：客观评测结果}

主观评测结果

在客观评测中，DISC-LawLLM 获得了最高的综合得分，并在准确性和清晰度这两项标准中得分最高。表 3 是主观评测结果，其中加粗表示最佳结果。

复旦大学团队发布中文智慧法律系统DISC-LawLLM，构建司法评测基准，开源30万微调数据

^{表 3：主观评测结果}

05 总结

我们发布了 DISC-LawLLM，一个提供多应用场景下法律服务的智能法律系统。基于公开的法律领域 NLP 任务数据集、法律原始文本和开源通用指令数据集，按照法律三段论重构了法律指令进行监督微调。为了提高输出的可靠性，我们加入了一个外部检索模块。通过提高法律推理和知识检索能力，DISC-LawLLM 在我们构建的法律基准评测集上优于现有的法律 LLM。该领域的研究将为实现法律资源平衡等带来更多前景和可能性，我们发布了所构建的数据集和模型权重，以促进进一步的研究。

以上是复旦大学团队发布中文智慧法律系统DISC-LawLLM，构建司法评测基准，开源30万微调数据的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

AI Hentai Generator

免费生成ai无尽的。

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

gmail邮箱登陆入口在哪里

7547

CakePHP 教程

1382

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

显示更多

Related knowledge

DeepMind机器人打乒乓球，正手、反手溜到飞起，全胜人类初学者 Aug 09, 2024 pm 04:01 PM

但可能打不过公园里的老大爷？巴黎奥运会正在如火如荼地进行中，乒乓球项目备受关注。与此同时，机器人打乒乓球也取得了新突破。刚刚，DeepMind提出了第一个在竞技乒乓球比赛中达到人类业余选手水平的学习型机器人智能体。论文地址：https://arxiv.org/pdf/2408.03906DeepMind这个机器人打乒乓球什么水平呢？大概和人类业余选手不相上下：正手反手都会：对手采用多种打法，该机器人也能招架得住：接不同旋转的发球：不过，比赛激烈程度似乎不如公园老大爷对战。对机器人来说，乒乓球运动

首配机械爪！元萝卜亮相2024世界机器人大会，发布首个走进家庭的国际象棋机器人 Aug 21, 2024 pm 07:33 PM

8月21日，2024世界机器人大会在北京隆重召开。商汤科技旗下家用机器人品牌“元萝卜SenseRobot”家族全系产品集体亮相，并最新发布元萝卜AI下棋机器人——国际象棋专业版（以下简称“元萝卜国象机器人”），成为全球首个走进家庭的国际象棋机器人。作为元萝卜的第三款下棋机器人产品，全新的国象机器人在AI和工程机械方面进行了大量专项技术升级和创新，首次在家用机器人上实现了通过机械爪拾取立体棋子，并进行人机对弈、人人对弈、记谱复盘等功能，

Claude也变懒了！网友：学会给自己放假了 Sep 02, 2024 pm 01:56 PM

开学将至，该收心的不止有即将开启新学期的同学，可能还有AI大模型。前段时间，Reddit上挤满了吐槽Claude越来越懒的网友。「它的水平下降了很多，经常停顿，甚至输出也变得很短。在发布的第一周，它可以一次性翻译整整4页文稿，现在连半页都输出不了了！」https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/在一个名为「对Claude彻底失望了的帖子里」，满满地

世界机器人大会上，这家承载「未来养老希望」的国产机器人被包围了 Aug 22, 2024 pm 10:35 PM

正在北京举行的世界机器人大会上，人形机器人的展示成为了现场绝对的焦点，在星尘智能的展台上，由于AI机器人助理S1在一个展区上演扬琴、武术、书法三台大戏，能文能武，吸引了大量专业观众和媒体的驻足。在带弹性的琴弦上的优雅演奏，让S1展现出速度、力度、精度兼具的精细操作和绝对掌控。央视新闻对「书法」背后的模仿学习和智能控制进行了专题报道，公司创始人来杰解释到，丝滑动作的背后，是硬件侧追求最好力控和最仿人身体指标（速度、负载等），而是在AI侧则采集人的真实动作数据，让机器人遇强则强，快速学习进化。而敏捷

ACL 2024奖项公布：华科大破译甲骨文最佳论文之一、GloVe时间检验奖 Aug 15, 2024 pm 04:37 PM

本届ACL大会，投稿者「收获满满」。为期六天的ACL2024正在泰国曼谷举办。ACL是计算语言学和自然语言处理领域的顶级国际会议，由国际计算语言学协会组织，每年举办一次。一直以来，ACL在NLP领域的学术影响力都位列第一，它也是CCF-A类推荐会议。今年的ACL大会已是第62届，接收了400余篇NLP领域的前沿工作。昨天下午，大会公布了最佳论文等奖项。此次，最佳论文奖7篇（两篇未公开）、最佳主题论文奖1篇、杰出论文奖35篇。大会还评出了资源论文奖（ResourceAward）3篇、社会影响力奖（

鸿蒙智行享界S9及全场景新品发布会，多款重磅新品齐发 Aug 08, 2024 am 07:02 AM

今天下午，鸿蒙智行正式迎来了新品牌与新车。 8月6日，华为举行鸿蒙智行享界S9及华为全场景新品发布会，带来了全景智慧旗舰轿车享界S9、问界新M7Pro和华为novaFlip、MatePadPro12.2英寸、全新MatePadAir、华为毕升激光打印机X1系列、FreeBuds6i、WATCHFIT3和智慧屏S5Pro等多款全场景智慧新品，从智慧出行、智慧办公到智能穿戴，华为全场景智慧生态持续构建，为消费者带来万物互联的智慧体验。鸿蒙智行：深度赋能，推动智能汽车产业升级华为联合中国汽车产业伙伴，为

李飞飞团队提出ReKep，让机器人具备空间智能，还能整合GPT-4o Sep 03, 2024 pm 05:18 PM

视觉与机器人学习的深度融合。当两只机器手丝滑地互相合作叠衣服、倒茶、将鞋子打包时，加上最近老上头条的1X人形机器人NEO，你可能会产生一种感觉：我们似乎开始进入机器人时代了。事实上，这些丝滑动作正是先进机器人技术+精妙框架设计+多模态大模型的产物。我们知道，有用的机器人往往需要与环境进行复杂精妙的交互，而环境则可被表示成空间域和时间域上的约束。举个例子，如果要让机器人倒茶，那么机器人首先需要抓住茶壶手柄并使之保持直立，不泼洒出茶水，然后平稳移动，一直到让壶口与杯口对齐，之后以一定角度倾斜茶壶。这

分布式人工智能盛会DAI 2024征稿：Agent Day，强化学习之父Richard Sutton将出席！颜水成、Sergey Levine以及DeepMind科学家将做主旨报告 Aug 22, 2024 pm 08:02 PM

会议简介随着科技的飞速发展，人工智能已经成为了推动社会进步的重要力量。在这个时代，我们有幸见证并参与到分布式人工智能（DistributedArtificialIntelligence，DAI）的创新与应用中。分布式人工智能是人工智能领域的重要分支，这几年引起了越来越多的关注。基于大型语言模型（LLM）的智能体（Agent）异军突起，通过结合大模型的强大语言理解和生成能力，展现出了在自然语言交互、知识推理、任务规划等方面的巨大潜力。AIAgent正在接棒大语言模型，成为当前AI圈的热点话题。Au

See all articles

复旦大学团队发布中文智慧法律系统DISC-LawLLM，构建司法评测基准，开源30万微调数据

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题