社群

學習

工具庫

AI工具

休閒

繁体中文

首頁 > 科技週邊 > 人工智慧 > GPT-4王冠沒掉！ Claude 3競技場人類投票成績出爐：僅居第三

GPT-4王冠沒掉！ Claude 3競技場人類投票成績出爐：僅居第三

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

發布： 2024-03-08 15:07:27

轉載

510 人瀏覽過

Claude 3的競技場排名終於來了：

短短3天內，20000張投票，將榜單的流量推向空前。

最終，Claude 3最強的「大盃」模型Opus得分1233，成為第一位能和GPT-4-Turbo一較高下的選手。

「中盃」Sonnet也還不錯，和GPT-4的兩個舊版本不相上下。

GPT-4王冠没掉！Claude 3竞技场人类投票成绩出炉：仅居第三圖片

不過總的來說，還是GPT-4系列佔上風。

Claude 3的表演和宣傳有些許出入。如網友總結：

GPT-4還是大模型之王！

但，免費的「中盃」Claude 3（Sonnet）更物超所值。

GPT-4王冠没掉！Claude 3竞技场人类投票成绩出炉：仅居第三圖片

大模型競技場出爐，「新王」排第三

Claude 3發佈時官方的宣傳是全面超過了GPT-4，但沒提是哪個版本的GPT-4。

GPT-4王冠没掉！Claude 3竞技场人类投票成绩出炉：仅居第三圖片

競技場榜單（LMSYS Chatbot Arena Leaderboard）的最新更新，幫咱摸清了。

來看詳細情況。

排在第一名的是OpenAI去年11月推出的GPT-4 Turbo，也就是：

GPT-4-1106-preview。

它功能更強價格也更便宜，具有128k上下文，訓練資料從先前的2021年9月更新到2023年4月。

與它並列第一的是GPT-4 Turbo最新的版本，今年一月發布的：

GPT-4-0125-preview。

它的訓練資料更廣，擴展到了2023年12月。

兩者都取得了1251的分數。

接著才是Claude 3（訓練資料截止到2023年8月）。

它的最強版本Opus得分1233，比GPT-4 Turbo低了18分。

GPT-4王冠没掉！Claude 3竞技场人类投票成绩出炉：仅居第三圖片

這個差距相比起來不算太大，畢竟再往下看：

它比GPT-4的兩個版本（0314、0613）分別高了48分、72分。

至於中等性能的Claude 3 Sonnet，則排名第6，位於GPT-4這兩個版本之間：

#不過只比0314版低5分，大有潛力一舉超越。

GPT-4王冠没掉！Claude 3竞技场人类投票成绩出炉：仅居第三圖片

所以總的來說，官方宣傳的也算沒大毛病，全面超越老版GPT-4，但離GPT-4 Turbo還有點距離，雖然不算太大。

——從此榜單的評比機制等情況來看，它的結果還是相當有業界認可的。

它是由「小羊駝」（Vicuna）的作者團隊發起。

但裁判官不是“小羊駝”，更不是GPT-4，而是基於人類偏好。

詳細來說，也就我們隨機向兩個匿名模型提出任意問題，然後評價它們各自的回答，把票投給更好的那一個。

GPT-4王冠没掉！Claude 3竞技场人类投票成绩出炉：仅居第三圖片

如果一輪投不出，咱可以選擇繼續提問。如果聊天中模型不小心透露了自己的身份，投票則作廢。

特別的，計分規則採用Elo機制來保證公平（玩王者榮耀的朋友都熟）。

舉個例子：如果某個模型輸了，但它的分數不一定低，因為它本身實力就弱，這是預料之中。

截止目前，這個榜單可以說是非常火爆，已經有全球73個模型參與挑戰，共收到了網友們37萬張投票。

通義千問擠進前10

除了Claude 3，我們再看看其他表現亮眼的選手。

首先要提的是基於Gemini Pro的Bard，排名第四，僅次於GPT-4Turbo和Claude 3。

GPT-4王冠没掉！Claude 3竞技场人类投票成绩出炉：仅居第三圖片

可以說有點讓人驚訝。

網友戲謔：

Google這是生生在排行榜上開了個「洞」啊。

並連忙艾特JeffDean和DeepMind負責人：餵，加把勁兒啊（旺柴）

GPT-4王冠没掉！Claude 3竞技场人类投票成绩出炉：仅居第三圖片

然後要說的是阿里通義千問（1.5版本，上個月發布）。

它在本次排名中擠進了前十名、並列第九，是國內選手中表現最好的。

GPT-4王冠没掉！Claude 3竞技场人类投票成绩出炉：仅居第三圖片

被它甩在身後的，除了其他國產選手，還有Claude 2、Gemini Pro和GPT-3.5等等。

完整名單：https://www.php.cn/link/e39505ef839c38f61139ae78da3f7615
#參考連結：https://www.php.cn/link/ 30637ce29549ac951061fd211d43c3b0

以上是GPT-4王冠沒掉！ Claude 3競技場人類投票成績出爐：僅居第三的詳細內容。更多資訊請關注PHP中文網其他相關文章！

相關標籤：

gpt-4 王者榮耀 claude 3 opus

上一篇：CLRNet：一種用於自動駕駛車道偵測的分層細化網路演算法下一篇：「AI透視眼」，三次馬爾獎得主Andrew帶隊解決任意物體遮蔽補全難題

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

作者最新文章

LLM的工作方式：培訓前訓練，神經網絡，幻覺和推理

2025-02-26 03:58:14
我將區塊鍊和AI組合在一起以生成藝術。接下來發生了什麼。

2025-02-26 03:38:10
高級及時工程：思想鏈（COT）

2025-02-26 03:17:10
在Sqlite中檢索增強發電

2025-02-26 02:49:09
如何使用LLM驅動的樣板構建自己的節點。JSAPI

2025-02-26 01:08:13
2024年編碼的LLM：價格，性能和爭取最佳的戰鬥

2025-02-26 00:46:10
提示視覺語言模型

2025-02-25 23:42:08
如何衡量大語模型的響應的可靠性

2025-02-25 22:50:13
生活的幻想

2025-02-25 21:54:11
科學家對大型語言模型的認真反映了人類思維

2025-02-25 20:45:11

最新問題

為什麼當流參數設定為false時，OpenAI Chat GPT (GPT-3.5) API沒有回應？

來自於 1970-01-01 08:00:00

0

0

0

chat gpt響應的格式化

來自於 1970-01-01 08:00:00

0

0

0

3章3-4 循環中為什麼是V

來自於 1970-01-01 08:00:00

0

0

0

javascript - 陣列[2,4,8]怎麼樣運算讓他變成（2 | 4 | 8）

來自於 1970-01-01 08:00:00

0

0

0

javascript - bootstrap 4 什麼時候發布正式版？

來自於 1970-01-01 08:00:00

0

0

0

相關專題

更多>

熱門推薦

熱門教學

更多>

相關教學

熱門推薦

最新課程

最新ThinkPHP 5.1全球首發影片教學(60天成就PHP大牛線上訓練課程)

1437729
php入門教程之一週學會PHP

4298228
JAVA 初級入門影片教學

2669295
小甲魚零基礎入門學習Python影片教學

517003
PHP 零基礎入門教學

877929

最新下載

更多>

網站特效

網站源碼

網站素材

前端模板