首頁 科技週邊 人工智慧 中文大語言模式趕考:商湯與上海AI Lab等新發表「書生‧浦文」

中文大語言模式趕考:商湯與上海AI Lab等新發表「書生‧浦文」

Jun 07, 2023 pm 07:19 PM

機器之心發布

機器之心編輯部

#今天,一年一度的高考正式拉開序幕。

與往年不同的是,當全國考生奔赴考場的同時,還有一些大語言模型也成為了這場角逐中的特殊選手。

隨著 AI 大語言模型越來越多地表現出接近人類智能,面向人類設計的高難度、綜合性考試被越來越多地引入到對語言模型的智能水平進行評測。

例如,在關於 GPT-4 的技術報告中,OpenAI 就主要透過各領域的考試對模型能力進行檢驗,而 GPT-4 展現出的優秀「應試能力」也是出人意料。

中文大語言模型挑戰高考卷的成績如何?是否能夠趕上 ChatGPT ?讓我們來看看一位「考生」的答案表現。

綜合 「大考」:「書生・浦語」 多項成績領先 ChatGPT

近日,商湯科技、上海 AI 實驗室聯合香港中文大學、復旦大學及上海交通大學發布千億級參數大語言模型 “書生・浦語”(InternLM)。

「書生・浦語」 具有 1040 億參數,是在包含 1.6 兆 token 的多語種高品質資料集上訓練而成。

全面評測結果顯示,「書生・浦語」 不僅在知識掌握、閱讀理解、數學推理、多語翻譯等多個測驗任務上表現優秀,而且具備很強的綜合能力,因而在綜合性考試中表現突出,在多項中文考試中取得超越ChatGPT 的成績,其中就包括中國高考各科目的資料集(GaoKao)。

「書生・浦語」 聯合團隊選取了 20 餘項評測對其進行檢驗,其中包含全球最具影響力的四個綜合性考試評測集

  • 由柏克萊加州大學等大學建構的多工考試評測集 MMLU;
  • 微軟研究院推出的學科考試評測集 AGIEval(含中國高考、司法考試及美國 SAT、LSAT、GRE 和 GMAT 等);
  • 由上海交通大學、清華大學和愛丁堡大學合作建構的中文語言模式為導向的綜合性考試評測集 C-Eval;
  • 以及由復旦大學研究團隊建構的高考題目評測集 Gaokao;

實驗室聯合團隊對 「書生・浦語」、GLM-130B、LLaMA-65B、ChatGPT 和 GPT-4 進行了全面測試,針對上述四個評測集的成績對比如下(滿分 100 分)。

中文大语言模型赶考:商汤与上海AI Lab等新发布「书生·浦语」

「書生・浦語」 不僅顯著超越了GLM-130B 和LLaMA-65B 等學術開源模型,還在AGIEval、C-Eval,以及Gaokao 等多個綜合性考試中領先於ChatGPT;在以美國考試為主的MMLU 上實作和ChatGPT 持平。這些綜合性考試的成績反映出 「書生・浦語」 紮實的知識掌握程度和優秀的綜合能力

雖然 「書生・浦語」 在考試評測上取得優秀成績,但在測評中也可以看到,大語言模型仍有不少能力限制。 「書生・浦語」 受限於 2K 的語境窗口長度(GPT-4 的語境窗口長度為 32K),在長文理解、複雜推理、寫作代碼以及數理邏輯演繹等方面還存在明顯局限。另外,在實際對話中,大語言模型還普遍存在幻覺、概念混淆等問題。這些限制使得大語言模型在開放場景中的使用還有很長的路要走。

四個綜合性考試評測資料集結果

MMLU 是由柏克萊加州大學(UC Berkeley)聯合哥倫比亞大學、芝加哥大學和UIUC 共同建構的多工考試評測集,涵蓋了初等數學、物理、化學、電腦科學、美國歷史、法律、經濟、外交等多個學科。

細分科目結果如下表所示。

中文大语言模型赶考:商汤与上海AI Lab等新发布「书生·浦语」

圖中粗體表示結果最佳,底線表示結果第二

AGIEval 是由微軟研究院在今年新提出的學科考試評測集,主要目標是透過面向的考試來評估語言模型的能力,從而實現模型智能和人類智能的對比。

這個評測集基於中國和美國各類考試建構了 19 個評測大項,包括了中國各科高考、司法考試以及美國的 SAT、LSAT、GRE 和 GMAT 等重要考試。值得一提的是,這 19 個大項有 9 個大項是中國高考,通常也列為一個重要的評測子集 AGIEval (GK)。

下列表格中,有 GK 的是中國高考科目。

中文大语言模型赶考:商汤与上海AI Lab等新发布「书生·浦语」

圖中粗體表示結果最佳,底線表示結果第二

C-Eval 是由上海交通大學、清華大學和愛丁堡大學合作建構的中文語言模型的綜合性考試評測集。

它包含了 52 個科目的近 14000 道考題,涵蓋數學、物理、化學、生物、歷史、政治、電腦等學科考試,以及公務員、註冊會計師、律師、醫生的職業考試。

測試結果可以透過 leaderboard 取得。

中文大语言模型赶考:商汤与上海AI Lab等新发布「书生·浦语」

此連結是CEVA評測競賽的排行榜

Gaokao 是由復旦大學研究團隊建構的基於中國高考題目的綜合性考試評測集,包含了中國高考的各個科目,以及選擇、填空、問答等多種題型。

在 GaoKao 評測中,「書生・浦語」 在超過 75% 的專案中均領先 ChatGPT。

中文大语言模型赶考:商汤与上海AI Lab等新发布「书生·浦语」

分項評測:閱讀理解、推理能力表現優異

#為避免 “偏科”,研究人員還通過多個學術評測集,對 “書生・浦語” 等語言模型的分項能力進行了評測對比。

結果顯示,「書生・浦語」 不僅在中英文的閱讀理解方面表現突出,並且在數學推理、程式設計能力等評測中也取得較好成績

中文大语言模型赶考:商汤与上海AI Lab等新发布「书生·浦语」

知識問答方面,「書生・浦語」 在 TriviaQA 和 NaturalQuestions 兩項評測上得分為 69.8 和 27.6,均超越 LLaMA-65B(得分為 68.2 和 23.8)。

閱讀理解(英文)方面,「書生・浦語」 明顯領先 LLaMA-65B 和 ChatGPT。浦語在國中和高中英語閱讀理解中得分為 92.7 和 88.9,ChatGPT 得分為 85.6 和 81.2,LLaMA-65B 則更低。

中文理解方面,「書生・浦語」 成績全面超越主要的兩個中文語言模型 ERNIE-260B 和 GLM-130B。

多語翻譯方面,「書生・浦語」 在多語種互譯的平均分數為 33.9,顯著超越 LLaMA (平均分數 15.1)。

數學推理方面,「書生・浦語」 在GSM8K 和MATH 這兩項被廣泛用於評測的數學考試中,分別取得62.9 和14.9 的得分,明顯領先於Google 的PaLM -540B(得分為56.5 和8.8)與LLaMA-65B(得分為50.9 和10.9)。

程式設計能力方面,「書生・浦語」 在HumanEval 和MBPP 這兩項最具代表性的考評中,分別取得28.1 和41.4 的得分(其中經過在代碼領域的微調後,在HumanEval 上的得分可以提升至45.7),明顯領先PaLM-540B(得分為26.2 和36.8)與LLaMA-65B(得分為23.7 和37.7)。

此外,研究人員也對「書生・浦語」 的安全性進行評測,在TruthfulQA(主要評價回答的事實準確性) 以及CrowS-Pairs(主要評價回答是否含有偏見)上,「書生・浦語” 均達到領先水準。

以上是中文大語言模式趕考:商湯與上海AI Lab等新發表「書生‧浦文」的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

<🎜>:泡泡膠模擬器無窮大 - 如何獲取和使用皇家鑰匙
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
北端:融合系統,解釋
3 週前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1664
14
CakePHP 教程
1423
52
Laravel 教程
1319
25
PHP教程
1269
29
C# 教程
1248
24
開始使用Meta Llama 3.2 -Analytics Vidhya 開始使用Meta Llama 3.2 -Analytics Vidhya Apr 11, 2025 pm 12:04 PM

Meta的Llama 3.2:多模式和移動AI的飛躍 Meta最近公佈了Llama 3.2,這是AI的重大進步,具有強大的視覺功能和針對移動設備優化的輕量級文本模型。 以成功為基礎

10個生成AI編碼擴展,在VS代碼中,您必須探索 10個生成AI編碼擴展,在VS代碼中,您必須探索 Apr 13, 2025 am 01:14 AM

嘿,編碼忍者!您當天計劃哪些與編碼有關的任務?在您進一步研究此博客之前,我希望您考慮所有與編碼相關的困境,這是將其列出的。 完畢? - 讓&#8217

AV字節:Meta&#039; llama 3.2,Google的雙子座1.5等 AV字節:Meta&#039; llama 3.2,Google的雙子座1.5等 Apr 11, 2025 pm 12:01 PM

本週的AI景觀:進步,道德考慮和監管辯論的旋風。 OpenAI,Google,Meta和Microsoft等主要參與者已經釋放了一系列更新,從開創性的新車型到LE的關鍵轉變

GPT-4O vs OpenAI O1:新的Openai模型值得炒作嗎? GPT-4O vs OpenAI O1:新的Openai模型值得炒作嗎? Apr 13, 2025 am 10:18 AM

介紹 Openai已根據備受期待的“草莓”建築發布了其新模型。這種稱為O1的創新模型增強了推理能力,使其可以通過問題進行思考

視覺語言模型(VLMS)的綜合指南 視覺語言模型(VLMS)的綜合指南 Apr 12, 2025 am 11:58 AM

介紹 想像一下,穿過​​美術館,周圍是生動的繪畫和雕塑。現在,如果您可以向每一部分提出一個問題並獲得有意義的答案,該怎麼辦?您可能會問:“您在講什麼故事?

3種運行Llama 3.2的方法-Analytics Vidhya 3種運行Llama 3.2的方法-Analytics Vidhya Apr 11, 2025 am 11:56 AM

Meta's Llama 3.2:多式聯運AI強力 Meta的最新多模式模型Llama 3.2代表了AI的重大進步,具有增強的語言理解力,提高的準確性和出色的文本生成能力。 它的能力t

如何在SQL中添加列? - 分析Vidhya 如何在SQL中添加列? - 分析Vidhya Apr 17, 2025 am 11:43 AM

SQL的Alter表語句:動態地將列添加到數據庫 在數據管理中,SQL的適應性至關重要。 需要即時調整數據庫結構嗎? Alter表語句是您的解決方案。本指南的詳細信息添加了Colu

pixtral -12b:Mistral AI&#039;第一個多模型模型 - 分析Vidhya pixtral -12b:Mistral AI&#039;第一個多模型模型 - 分析Vidhya Apr 13, 2025 am 11:20 AM

介紹 Mistral發布了其第一個多模式模型,即Pixtral-12b-2409。該模型建立在Mistral的120億參數Nemo 12B之上。是什麼設置了該模型?現在可以拍攝圖像和Tex

See all articles