商湯商量取得SuperCLUE9月評測總榜子榜雙第一，AI智能體方向受矚目-人工智慧-PHP中文網

商湯商量取得SuperCLUE9月評測總榜子榜雙第一，AI智能體方向受矚目

PHPz

發布： 2023-10-13 17:49:01

轉載

993 人瀏覽過

最近，SuperCLUE發布了9月份的總排行榜和各個分類任務榜單，商湯的SenseChat 3.0在中文大模型總榜中排名第一。在新增的AI Agent（AI智能體）子榜中，SenseChat 3.0同樣位居第一，超過了所有國內中文大模型以及GPT-3.5和Claude 2，僅次於GPT-4的表現。這展示了商湯在大模型領域創新發展和釋放生產力的優勢，以及在探索AGI道路上的累積和潛力

商湯商量取得SuperCLUE9月評測總榜子榜雙第一，AI智能體方向受矚目

註：國外代表性模型（GPT4.0/Claude2/gpt-3.5）不參與排名。

SuperCLUE是中文通用大模型的綜合性評測基準，旨在對大模型在各個能力維度上的表現進行全方位的評估，是國內最具專業性和代表性的中文大模型評測基準之一。此評測選取了目前國內外最具代表性的20個通用大語言模式

商量總榜第一，客觀題成績超GPT-3.5

最新發布的SuperCLUE總排行榜和各個分類任務榜單，主要關注大模型的四個能力像限，分別是語言理解與生成，包括語言理解與抽取、上下文對、生成與創作、角色扮演；專業技能與知識，包括知識與百科全書、運算、程式碼、邏輯與推理；Agent智能體，包括工具使用、任務規劃；安全性，包括系統安全、指令攻擊，共12項基礎能力

商湯科技的SenseChat 3.0在總排行榜中以62.75分的總分位居第一，其中在OPT客觀題部分，SenseChat 3.0的得分甚至超過了GPT-3.5，展示了在中文大模型方面極強的綜合競爭力

商湯商量SenseChat於2023年4月正式推出，是國內最早的以千億參數大語言模型為基礎之一，並持續迭代更新。背後依託的是商湯AI大裝置SenseCore，目前上線GPU數量約30,000塊，算力規模提升至6 ExaFLOPS，有效支援語言大模型的訓練、升級迭代與服務。

加速推動人工智慧智能體的發展，加速邁向強人工智慧

#隨著大模型發展，「聊天」已遠遠無法滿足人們的要求，能夠準確地使用工具成為解放大模型生產力的關鍵。 SuperCLUE新增的AI Agent（AI智能體）子榜，是業界首個AI Agent榜單，它重點評估了AI Agent在「工具使用」和「任務規劃」兩個關鍵能力上的表現。評測顯示商湯商量SenseChat 3.0具備作為人類超級助手的潛力，可以根據人類需求自主完成任務，進而充分釋放大模型的生產力，使其在AI Agent 榜單上表現僅次於GPT-4，全面領先其餘參評大模型。

商湯商量取得SuperCLUE9月評測總榜子榜雙第一，AI智能體方向受矚目

目前全球領先的AI 智能體，幾乎都以領先大模型GPT-4為核心驅動，它們借助強大的工具使用能力等，可將複雜問題拆解成可實現的子任務、類人的自然語言互動等能力。商量SenseChat 3.0作為領先的中文大模型，透過使用代碼解釋器、API調用和搜尋三類常用工具來解決複雜任務，靈活建構AI智能體應用，支撐企業的生產力革新。

目前，商湯科技已經與金融、手機、醫療、汽車、房地產、能源、媒體、工業製造等多個垂直行業的500多家客戶建立了緊密合作關係。商湯SenseChat作為一個功能強大的大型模型，不斷快速提升，為商湯科技發展更強大、能夠像人類一樣進行交互的人工智能智能體，以及朝著通往人工通用智能的道路進行探索，提供了重要的基礎和支持

以上是商湯商量取得SuperCLUE9月評測總榜子榜雙第一，AI智能體方向受矚目的詳細內容。更多資訊請關注PHP中文網其他相關文章！