首頁 科技週邊 人工智慧 復旦大學團隊發表中文智慧法律系統DISC-LawLLM,建構司法評測基準,開源30萬微調數據

復旦大學團隊發表中文智慧法律系統DISC-LawLLM,建構司法評測基準,開源30萬微調數據

Sep 29, 2023 pm 01:17 PM
產業 disc-lawllm disc-law-sft

隨著智慧司法的興起,以智慧化方法驅動的智慧法律系統可望惠及不同群體。例如,為法律專業人員減輕文書工作,為一般民眾提供法律諮詢服務,為法學學生提供學習和考試輔導。

由於法律知識的獨特性和司法任務的多樣性,先前的智慧司法研究方面主要著眼於為特定任務設計自動化演算法,難以滿足對司法領域提供支撐性服務的需求,離應用落地有不小的距離。而大型語言模型(LLMs)在不同的傳統任務上展現出強大的能力,為智慧法律系統的進一步發展帶來希望。

近日,復旦大學資料智慧與社會運算實驗室(FudanDISC)發表大語言模式驅動的中文智慧法律系統 ——DISC-LawLLM。該系統可以面向不同使用者群體,提供多元的法律服務。此外,實驗室也建構了評測基準 DISC-Law-Eval,從客觀和主觀兩個面向來評測法律大語言模型,模型在評測中的表現相較現有的法律大模型有明顯優勢。

主題組同時公開包含 30 萬高品質的監督微調(SFT)資料集 ——DISC-Law-SFT,模型參數和技術報告也一併開源。

復旦大學團隊發表中文智慧法律系統DISC-LawLLM,建構司法評測基準,開源30萬微調數據

  • 主頁網址:https://law.fudan-disc.com
  • Github 網址: https://github.com/FudanDISC/DISC-LawLLM
  • #技術報告:https://arxiv.org/abs/2309.11325

#01 範例展示

#用戶有法律上的疑問時,可以向模型諮詢,描述疑問,模型會給予相關的法律規定和解釋、建議的解決方案等。

復旦大學團隊發表中文智慧法律系統DISC-LawLLM,建構司法評測基準,開源30萬微調數據

                                 圖1 法律諮詢示例

專業法律者和司法機關,可以利用模型完成法律文本摘要、司法事件偵測、實體和關係抽取等,減輕文書工作,提高工作效率。 復旦大學團隊發表中文智慧法律系統DISC-LawLLM,建構司法評測基準,開源30萬微調數據
                                 中,可以向模型提出問題,幫助鞏固法律知識,並解答法律考試題。

                                 之後排上法條做支撐時,模型會根據問題在知識庫中檢索相關內容,給予回應。

復旦大學團隊發表中文智慧法律系統DISC-LawLLM,建構司法評測基準,開源30萬微調數據

                                圖4 檢索增強場景下的對話

02 DISC-LawLLM 簡介

復旦大學團隊發表中文智慧法律系統DISC-LawLLM,建構司法評測基準,開源30萬微調數據

DISC-LawLLM 是基於我們建構的高品質資料集DISC-Law-SFT 在通用領域中中文大模式Baichuan -13B 上進行全參指令微調所得的法律大模型。值得注意的是,我們的訓練資料和訓練方法可以被適配到任何基座大模型之上。

DISC-LawLLM 有三個核心能力:
1. 基礎的法律文本處理能力。針對法律文本理解與生成的不同基礎能力,包括資訊抽取、文本摘要等,我們基於現有的 NLP 司法任務公開數據和真實世界的法律相關文本進行了微調數據的建構。

2. 法律推理思考能力。針對智慧司法領域任務的需求,我們使用法律三段論這一法官的基本法律推理過程重構了指令數據,有效地提高了模型的法律推理能力。

3. 司法領域知識檢索遵循能力非常重要。在解決智慧司法領域的問題時,通常需要根據問題的相關背景法條或案例進行檢索。為了增強智慧法律處理系統的檢索和遵循能力,我們為其配備了檢索增強的模組

模型的整體框架如圖5 所示:

復旦大學團隊發表中文智慧法律系統DISC-LawLLM,建構司法評測基準,開源30萬微調數據

                                   圖5 模型在不同的法律場景下服務於不同的用戶

03 方法:數據集合DISC-Law-SFT 的構念

復旦大學團隊發表中文智慧法律系統DISC-LawLLM,建構司法評測基準,開源30萬微調數據

##                      系統
DISC-Law-SFT 分成兩個子資料集,分別是DISC-Law-SFT-Pair 和DISC-Law-SFT-Triplet,前者在LLM 中引入了法律推理能力,而後者則有助於提升模型利用外部知識的能力。

                                     表上中:DISC-Law-SFT 資料集內容說明

DISC-Law-SFT 資料集的資料來自三部分,一是與中國法律相關的NLP 司法任務公開資料集,包括法律資訊抽取、實體與關係抽取、司法文本摘要、司法考試問答、司法閱讀理解、罪名/ 刑期預測等;二是收集了來自真實世界的法律相關的原始文本,如法律法規、司法案件、裁判文書、司法相關的考試等;三是通用的開源資料集,我們使用了alpaca_gpt4_data_zh 和Firefly,這樣可以豐富訓練集的多樣性,減輕模型在SFT 訓練階段出現基礎能力降級的風險。

指令對建構

#對上述一、二來源的資料轉換為「輸入- 輸出」 指令對後,我們採用以下三種方式對指令資料重構,以提高資料品質。

行為塑造

    #在法律三段論中,大前提為適用的法律規則,小前提為案件事實,結論為法律判斷。這構成了法官的一個基本的法律推理過程。每一個案例都可以透過三段論得出一個明確的結論,如下所述:
#大前提:法律規則

小前提:案件事實
結論:法律判斷
#我們利用GPT-3.5-turbo 來完成行為塑造的重構,精進輸出,確保每個結論都從一個法律條款和一個案例事實中得出。

知識擴充

    #對於行為塑造不適用的多項選擇題,我們直接使用法律知識來擴展輸出,以提供更多的推理細節。許多與法律相關的考試和知識競賽只提供答案選項,我們使用 LLM 來擴展所涉及的法律知識,給出正確的答案,並重建指令對。

思維培養

    #思考鏈(CoT)已被證明能有效地提高模型的推理能力。為了進一步賦予模型法律推理能力,我們設計了具有特定法律意義的思維鏈,稱為 LCoT,要求模型用法律三段論來推導答案。 LCoT 將輸入X 轉換為如下的提示:
在法律三段論中,大前提是適用的法律規則,小前提是案件事實,結論是對案件的法律判斷。

案例:X
讓我們用法律三段論來思考與輸出判斷:
##指令三元組建構
為了訓練檢索增強後的模型,我們建構了DISC-Law-SFT-Triplet 子資料集,資料為
形式的三元組,我們使用指令對建構中列出的三種策略對原始資料進行處理,獲得輸入和輸出,並設計啟發式規則來從原始資料中提取參考資訊。
04 實驗

訓練
DISC-LawLLM 的訓練過程分為SFT 和檢索增強兩個階段。
檢索增強

#雖然我們使用了高品質的指令數據對LLM 進行微調,但它可能會由於幻覺或過時的知識而產生不準確的反應。為了解決這個問題,我們設計了一個檢索模組來增強 DISC-LawLLM。
  • 給定一個使用者輸入,檢索器透過計算它們與輸入的相似性,從知識庫傳回最相關的 Top-K 文件。這些候選文檔,連同使用者輸入,用我們設計的範本構造後輸入到 DISC-LawLLM 中。透過查詢知識庫,模型可以更好地理解主要前提,從而得到更準確可靠的答案。

                                   圖7中:擷取中增強的DISC-1

評測基準DISC-Law-Eval

##我們建構了一個公平的智慧法律系統評估基準DISC-Law-Eval,從客觀和主觀的角度來評估,填補了目前還沒有基準來對智慧法律體系全面評估這一空白。
                                勾選

##客觀評測

復旦大學團隊發表中文智慧法律系統DISC-LawLLM,建構司法評測基準,開源30萬微調數據

為了客觀、定量地評估智慧法律系統的法律知識和推理能力,我們設計了一個客觀的評估資料集,由一系列中國法律標準化考試和知識競賽的單一項目和多項選擇題組成,並根據內容複雜性和演繹難度,將問題分為困難、正常和容易三個層次。它可以提供一個更具挑戰性和可靠的方法來衡量模型是否可以利用其知識來推理正確的答案。我們透過計算精度來表明性能。

主觀評測
#主觀評測部分,我們採用問答的範式進行評估,模擬主觀考試問題的過程。我們從法律諮詢、線上論壇、與司法相關的出版物和法律文件中手工建立了一個高品質的測試集。我們以 GPT- 3.5-turbo 作為裁判模型來評估模型的輸出,並以準確性、完整性和清晰度這三個標準提供 1 到 5 的評分。

評測結果
比較模型


將我們的模型DISC-LawLLM (不外接知識庫) 與4 個通用LLM 和4 個中文法律LLM 進行比較,包括GPT-3.5-turbo 、ChatGLM-6B 、Baichuan-13B-Chat 、Chinese-Alpaca2-13B ;LexiLaw 、LawGPT、Lawyer LLaMA、ChatLaw 。

客觀評測結果
DISC-LawLLM 在所有不同難度等級的測試中超過所有比較的同等參數量的大模型。即使與具有 175B 參數的 GPT- 3.5-turbo 相比,DISC-LawLLM 在部分測試上也表現出了更優越的性能。表 2 是客觀評測結果,其中加粗表示最佳結果,底線表示次佳結果。

                               與「

    #在客觀評測中,DISC-LawLLM 獲得了最高的綜合得分,並在準確度和清晰度這兩項標準中得分最高。表 3 是主觀評測結果,其中加粗表示最佳結果。

                                 # #05 總結

復旦大學團隊發表中文智慧法律系統DISC-LawLLM,建構司法評測基準,開源30萬微調數據我們發布了DISC-LawLLM,一個提供多重應用情境下法律服務的智慧法律系統。基於公開的法律領域 NLP 任務資料集、法律原始文本和開源通用指令資料集,按照法律三段論重構了法律指令進行監督微調。為了提高輸出的可靠性,我們加入了一個外部檢索模組。透過提高法律推理和知識檢索能力,DISC-LawLLM 在我們建構的法律基準評測集上優於現有的法律 LLM。該領域的研究將為實現法律資源平衡等帶來更多前景和可能性,我們發布了所建構的資料集和模型權重,以促進進一步的研究。

以上是復旦大學團隊發表中文智慧法律系統DISC-LawLLM,建構司法評測基準,開源30萬微調數據的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

DeepMind機器人打乒乓球,正手、反手溜到飛起,全勝人類初學者 DeepMind機器人打乒乓球,正手、反手溜到飛起,全勝人類初學者 Aug 09, 2024 pm 04:01 PM

但可能打不過公園裡的老大爺?巴黎奧運正在如火如荼地進行中,乒乓球項目備受關注。同時,機器人打乒乓球也取得了新突破。剛剛,DeepMind提出了第一個在競技乒乓球比賽中達到人類業餘選手等級的學習型機器人智能體。論文地址:https://arxiv.org/pdf/2408.03906DeepMind這個機器人打乒乓球什麼程度呢?大概和人類業餘選手不相上下:正手反手都會:對手採用多種打法,機器人也能招架得住:接不同旋轉的發球:不過,比賽激烈程度似乎不如公園老大爺對戰。對機器人來說,乒乓球運動

首配機械爪!元蘿蔔亮相2024世界機器人大會,發布首個走進家庭的西洋棋機器人 首配機械爪!元蘿蔔亮相2024世界機器人大會,發布首個走進家庭的西洋棋機器人 Aug 21, 2024 pm 07:33 PM

8月21日,2024世界機器人大會在北京隆重召開。商湯科技旗下家用機器人品牌「元蘿蔔SenseRobot」家族全系產品集體亮相,並最新發布元蘿蔔AI下棋機器人-國際象棋專業版(以下簡稱「元蘿蔔國象機器人」),成為全球首個走進家庭的西洋棋機器人。作為元蘿蔔的第三款下棋機器人產品,全新的國象機器人在AI和工程機械方面進行了大量專項技術升級和創新,首次在家用機器人上實現了透過機械爪拾取立體棋子,並進行人機對弈、人人對弈、記譜複盤等功能,

Claude也變懶了!網友:學會給自己放假了 Claude也變懶了!網友:學會給自己放假了 Sep 02, 2024 pm 01:56 PM

開學將至,該收心的不只即將開啟新學期的同學,可能還有AI大模型。前段時間,Reddit擠滿了吐槽Claude越來越懶的網友。 「它的水平下降了很多,經常停頓,甚至輸出也變得很短。在發布的第一周,它可以一次性翻譯整整4頁文稿,現在連半頁都輸出不了!」https:// www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/在一個名為“對Claude徹底失望了的帖子裡”,滿滿地

世界機器人大會上,這家承載「未來養老希望」的國產機器人被包圍了 世界機器人大會上,這家承載「未來養老希望」的國產機器人被包圍了 Aug 22, 2024 pm 10:35 PM

在北京舉行的世界機器人大會上,人形機器人的展示成為了現場絕對的焦點,在星塵智能的展台上,由於AI機器人助理S1在一個展區上演揚琴、武術、書法三台大戲,能文能武,吸引了大量專業觀眾和媒體的駐足。在有彈性的琴弦上優雅的演奏,讓S1展現出速度、力度、精準度兼具的精細操作與絕對掌控。央視新聞對「書法」背後的模仿學習和智慧控制進行了專題報道,公司創始人來傑解釋到,絲滑動作的背後,是硬體側追求最好力控和最仿人身體指標(速度、負載等),而是在AI側則採集人的真實動作數據,讓機器人遇強則強,快速學習進化。而敏捷

ACL 2024獎項發表:華科大破解甲骨文最佳論文之一、GloVe時間檢驗獎 ACL 2024獎項發表:華科大破解甲骨文最佳論文之一、GloVe時間檢驗獎 Aug 15, 2024 pm 04:37 PM

本屆ACL大會,投稿者「收穫滿滿」。為期六天的ACL2024正在泰國曼谷舉辦。 ACL是計算語言學和自然語言處理領域的頂級國際會議,由國際計算語言學協會組織,每年舉辦一次。一直以來,ACL在NLP領域的學術影響力都名列第一,它也是CCF-A類推薦會議。今年的ACL大會已是第62屆,接收了400餘篇NLP領域的前沿工作。昨天下午,大會公佈了最佳論文等獎項。此次,最佳論文獎7篇(兩篇未公開)、最佳主題論文獎1篇、傑出論文獎35篇。大會也評出了資源論文獎(ResourceAward)3篇、社會影響力獎(

李飛飛團隊提出ReKep,讓機器人具備空間智能,還能整合GPT-4o 李飛飛團隊提出ReKep,讓機器人具備空間智能,還能整合GPT-4o Sep 03, 2024 pm 05:18 PM

視覺與機器人學習的深度融合。當兩隻機器手絲滑地互相合作疊衣服、倒茶、將鞋子打包時,加上最近老上頭條的1X人形機器人NEO,你可能會產生一種感覺:我們似乎開始進入機器人時代了。事實上,這些絲滑動作正是先進機器人技術+精妙框架設計+多模態大模型的產物。我們知道,有用的機器人往往需要與環境進行複雜精妙的交互,而環境則可被表示成空間域和時間域上的限制。舉個例子,如果要讓機器人倒茶,那麼機器人首先需要抓住茶壺手柄並使之保持直立,不潑灑出茶水,然後平穩移動,一直到讓壺口與杯口對齊,之後以一定角度傾斜茶壺。這

鴻蒙智行享界S9全場景新品發表會,多款重磅新品齊發 鴻蒙智行享界S9全場景新品發表會,多款重磅新品齊發 Aug 08, 2024 am 07:02 AM

今天下午,鸿蒙智行正式迎来了新品牌与新车。8月6日,华为举行鸿蒙智行享界S9及华为全场景新品发布会,带来了全景智慧旗舰轿车享界S9、问界新M7Pro和华为novaFlip、MatePadPro12.2英寸、全新MatePadAir、华为毕昇激光打印机X1系列、FreeBuds6i、WATCHFIT3和智慧屏S5Pro等多款全场景智慧新品,从智慧出行、智慧办公到智能穿戴,华为全场景智慧生态持续构建,为消费者带来万物互联的智慧体验。鸿蒙智行:深度赋能,推动智能汽车产业升级华为联合中国汽车产业伙伴,为

分散式人工智慧盛會DAI 2024徵稿:Agent Day,強化學習之父Richard Sutton將出席!顏水成、Sergey Levine以及DeepMind科學家將做主旨報告 分散式人工智慧盛會DAI 2024徵稿:Agent Day,強化學習之父Richard Sutton將出席!顏水成、Sergey Levine以及DeepMind科學家將做主旨報告 Aug 22, 2024 pm 08:02 PM

會議簡介隨著科技的快速發展,人工智慧成為了推動社會進步的重要力量。在這個時代,我們有幸見證並參與分散式人工智慧(DistributedArtificialIntelligence,DAI)的創新與應用。分散式人工智慧是人工智慧領域的重要分支,這幾年引起了越來越多的關注。基於大型語言模型(LLM)的智能體(Agent)異軍突起,透過結合大模型的強大語言理解和生成能力,展現了在自然語言互動、知識推理、任務規劃等方面的巨大潛力。 AIAgent正在接棒大語言模型,成為目前AI圈的熱門話題。 Au

See all articles