GPT-4不服被Bard反超：最新模型已入場-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

GPT-4不服被Bard反超：最新模型已入場

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Feb 01, 2024 pm 05:39 PM

Google bard gpt-4

「大模型排位賽」權威榜單Chatbot Arena刷新：

GoogleBard超越GPT-4，排名位居第二，僅次於GPT-4 Turbo。

GPT-4不服被Bard反超：最新模型已入場

然鵝，眾多網友對此表示「不服」、「不公平」。

原來，GoogleAI掌門人Jeff Dean透露，Bard效能大幅提升，是因為搭載了新版大機型－Gemini Pro-scale。

GPT-4不服被Bard反超：最新模型已入場

這也意味著，打「排位賽」的Bard具備了連網功能。

GPT-4不服被Bard反超：最新模型已入場

網友的質疑正是圍繞著這一點：

在同一個排行榜上混合在線和離線大模型，是極易引起誤會的。

GPT-4不服被Bard反超：最新模型已入場

Hugging Face的「首席羊駝官」Omar Sanseviero也表示：

##既然如此…我也可以向lmsys提交具有搜尋功能的Mixtral嗎？

GPT-4不服被Bard反超：最新模型已入場

面對種種質疑聲，Imsys官方做出了回應，其中指出：

投票數據公開透明，還會即將發布關於用戶提示多樣性和投票質量的研究以及相應的數據集；

對於網友們最關心的被Bard超越的GPT-4是不聯網版本的問題，Imsys表示「如果即時數據的存取能夠提升用戶體驗，排行榜將予以體現」。

並且直接@了OpenAI和Bing以及微軟高管Mikhail Parakhin，表示非常樂意在競技場中加入GPT-4聯網版或Bing Copilot。

最新消息是，OpenAI的最新模型gpt-4-0125-preview現已入駐競技場，等待用戶參與投票。

GPT-4不服被Bard反超：最新模型已入場

Bard超越GPT-4是怎麼回事？

Chatbot Arena是一個大模型權威名單，由UC柏克萊研究人員主導的Imsys（Large Model Systems Organization）組織創建。

此排行榜採用匿名1V1battle的投票規則，基於Elo評級系統排名。

具體來說，投票頁面如下，兩個模型Model A和B都匿名，用戶在提出多個問題後對模型的回答打分，總共有四個選項：A更好、B更好、A和B一樣好，A和B都不好。

GPT-4不服被Bard反超：最新模型已入場

值得一提的是，如果在問答過程中，模型身分洩露，那麼該投票作廢。

GPT-4不服被Bard反超：最新模型已入場

根據目前榜單，競技場中有56個大模型：

GPT-4不服被Bard反超：最新模型已入場

先前GPT-4憑藉著“遙遙領先」的評分，長期霸榜，然而新版Bard發布後，直接超越GPT-4的兩個版本衝到了第二名，和第一名的GPT-4 Turbo只差34分：

GPT-4不服被Bard反超：最新模型已入場

更詳細一點，在所有沒有平手的Model A對B的對決中，Model A獲勝的比例如下：

GPT-4不服被Bard反超：最新模型已入場

還有每一對模型組合的單挑次數

（無平手）：

GPT-4不服被Bard反超：最新模型已入場

此外，Chatbot Arena排行榜也使用自助法對Elo評分估計進行1000次隨機抽樣，從而評估信賴區間等。

GPT-4不服被Bard反超：最新模型已入場

單一模型相對於其他所有模型的平均勝率如下：

GPT-4不服被Bard反超：最新模型已入場

不過值得注意的是，Arena排行榜是即時的，Bard目前雖然排名第二，但總共只有3000多票。

相對而言，GPT-4 Turbo的票數已經達到了30000 ，被超越的兩個版本的票數也都是Bard的數倍。

GPT-4不服被Bard反超：最新模型已入場

而現在GPT-4最新版本已入場（雖然還沒有在排行榜上更新），後續結果還要再坐等一波～

#參考連結：https://twitter.com/lmsysorg/status/1752035632489300239。

以上是GPT-4不服被Bard反超：最新模型已入場的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

熱工具

熱門話題

gmail信箱登陸入口在哪裡

7496

CakePHP 教程

1377

steam的賬戶名稱是什麼格式

win11激活密鑰永久

NYT連接提示和答案

Related knowledge

deepseek怎麼評論 Feb 19, 2025 pm 05:42 PM

DeepSeek是一款功能強大的信息檢索工具，其優勢在於能夠深入挖掘信息，但缺點是速度較慢、結果呈現方式較簡單且數據庫覆蓋範圍有限，需要根據具體需求權衡其利弊。

deepseek怎麼搜索 Feb 19, 2025 pm 05:39 PM

DeepSeek是一個專有搜索引擎，僅在特定數據庫或系統中搜索，速度更快，準確性更高。使用時，建議用戶閱讀文檔、嘗試不同的搜索策略、尋求幫助和反饋使用體驗，以便充分利用其優勢。

芝麻開門交易所網頁註冊鏈接 gate交易app註冊網址最新 Feb 28, 2025 am 11:06 AM

本文詳細介紹了芝麻開門交易所（Gate.io）網頁版和Gate交易App的註冊流程。無論是網頁註冊還是App註冊，都需要訪問官方網站或應用商店下載正版App，然後填寫用戶名、密碼、郵箱和手機號等信息，並完成郵箱或手機驗證。

Bybit交易所鏈接為什麼不能直接下載安裝？ Feb 21, 2025 pm 10:57 PM

為什麼Bybit交易所鏈接無法直接下載安裝？ Bybit是一個加密貨幣交易所，為用戶提供交易服務。該交易所的移動應用程序不能直接通過AppStore或GooglePlay下載，原因如下：1.應用商店政策限制蘋果公司和谷歌公司對應用商店中允許的應用程序類型有嚴格的要求。加密貨幣交易所應用程序通常不符合這些要求，因為它們涉及金融服務，需要遵循特定的法規和安全標準。 2.法律法規合規在許多國家/地區，與加密貨幣交易相關的活動都受到監管或限制。為了遵守這些規定，Bybit應用程序只能通過官方網站或其他授權渠

芝麻開門交易平台下載手機版 gateio交易平台下載地址 Feb 28, 2025 am 10:51 AM

選擇正規渠道下載App，保障您的賬戶安全至關重要。

加密數字資產交易APP推薦top10（2025全球排名） Mar 18, 2025 pm 12:15 PM

本文推荐十大值得关注的加密货币交易平台，涵盖币安(Binance)、OKX、Gate.io、BitFlyer、KuCoin、Bybit、Coinbase Pro、Kraken、BYDFi和XBIT去中心化交易所。这些平台在交易币种数量、交易类型、安全性、合规性、特色功能等方面各有千秋，例如币安以其全球最大的交易量和丰富的功能著称，而BitFlyer则凭借其日本金融厅牌照和高安全性吸引亚洲用户。选择合适的平台需要根据自身交易经验、风险承受能力和投资偏好进行综合考量。希望本文能帮助您找到最适合自

幣安binance官網最新版登錄入口 Feb 21, 2025 pm 05:42 PM

訪問幣安官方網站最新版登錄入口，只需遵循這些簡單步驟。前往官方網址，點擊右上角的“登錄”按鈕。選擇您現有的登錄方式，如果是新用戶，請“註冊”。輸入您的註冊手機號或郵箱和密碼，並完成身份驗證（例如手機驗證碼或谷歌身份驗證器）。成功驗證後，即可訪問幣安官方網站的最新版登錄入口。

2025年Bitget最新下載地址：獲取官方App的步驟 Feb 25, 2025 pm 02:54 PM

本指南提供了 Bitget 交易所官方 App 的詳細下載和安裝步驟，適用於安卓和 iOS 系統。指南整合了來自多個權威來源的信息，包括官網、App Store 和 Google Play，並強調了下載和賬戶管理過程中的注意事項。用戶可以從官方渠道下載 App，包括應用商店、官網 APK 下載和官網跳轉，並完成註冊、身份驗證和安全設置。此外，指南還涵蓋了常見問題和注意事項，例如

See all articles

GPT-4不服被Bard反超：最新模型已入場

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題