CMU進行詳細比較研究,發現GPT-3.5比Gemini Pro更優,確保公平透明可重複性
GoogleGemini的實力究竟如何?卡內基美隆大學進行了一項專業客觀的第三方比較
為保證公平,所有模型使用相同的提示和生成參數,並提供可重複的程式碼和完全透明的結果。
不會像Google官方發表會那樣,用CoT@32比較5-shot了。
一句話結果:Gemini Pro版本接近但略遜於GPT-3.5 Turbo,GPT-4還是遙遙領先。
在深入分析中也發現Gemini一些奇怪特性,例如選擇題喜歡選D##…
- 知識問答:MMLU
- 推理:BIG-Bench Hard
- 數學:GSM8k、SVAMP、ASDIV、MAWPS
- 程式碼:HumanEval、ODEX
- ##翻譯:FLORES
- #上網衝浪:WebArena
- 知識問答:喜歡選D
根據結果可以看出,在這類任務中使用思維鏈提示並不一定能夠提升效果
在MMLU資料集中,所有的題目都是多選題。進一步分析結果後,發現了一個奇怪的現象:Gemini更喜歡選擇D選項
GPT系列在4個選項上的分佈就要平衡很多,團隊提出這可能是
Gemini沒針對多選題做大量指令微調造成的。
另外,Gemini的安全過濾非常嚴格。在涉及道德問題時,它只能回答85%的問題。而在涉及人類性行為相關問題時,它只能回答28%的問題
Gemini Pro在安全研究和高中微觀經濟學方面的表現超過了GPT- 3.5,但差距並不大,團隊表示無法找出任何特別之處
#推理:長問題不擅長
GPT系列在處理更長、更複雜的問題時表現更出色,相較之下,Gemini Pro的表現較為不佳
特別是在長篇問題上,GPT-4 Turbo幾乎沒有效能下降,這表明它具備了理解複雜問題的強大能力
根據問題類型進行分析,Gemini在「追蹤交換物品」這類問題上表現不佳,這類問題涉及人們進行物品交換,最終需要AI判斷每個人擁有哪些物品
Gemini擅長的任務包括理解世界各種體育運動知識、操作符號堆疊、按字母順序排序單字以及解析表格
數學:複雜任務反超
問題本身太長,導致Gemini Pro和GPT-3.5的表現同時下降,只有GPT-4能夠維持一貫的水準
當思維鏈的長度達到最長時,Gemini超過了GPT-3.5
程式碼:擅長matplotlib
對於程式碼問題,Gemini在參考答案較長的問題上表現不佳
#GPT系列在大多數類型中更強大,但在matplotlib方面表現完全不佳
翻譯:只要回答了,品質就很高
在翻譯任務中,Gemini拒絕回答了12種類型的問題,但只要回答了的翻譯品質都非常出色,整體表現超過了GPT-4
#雙子座拒絕翻譯的語言主要涉及拉丁語和阿拉伯語
網路導航:擅長跨站點衝浪
WebArena為AI模擬了一個網路環境,包括電子商務、社交論壇、GitLab協作開發、內容管理系統和線上地圖等。 AI需要在這個環境中尋找資訊或跨站點完成任務
Gemini在整體表現不如GPT-3.5 Turbo,但在跨多個站點的任務中表現稍好。
網友:但是它免費啊
最終,CMU副教授格雷厄姆·紐比格承認了這項研究的一些限制
- #基於API的模型行為可能隨時變化
- 只嘗試了有限數量的提示,對不同模型來說適用的提示詞可能不一樣
- 無法控制測試集是否洩漏
Google大型模型推理團隊的負責人周登勇指出,將Gemini的溫度設定為0可以提高5-10個百分點,對於推理任務非常有幫助
在這項測試中,除了Gemini和GPT系列,還引入了最近備受關注的開源MoE模型Mixtral
不過,強化學習專家Noam Brown認為可以不考慮Mixtral的結果,因為它使用的是第三方API而不是官方實作
Mistral AI創辦人為團隊提供了官方版呼叫權限,他相信這將帶來更好的結果
#雖然Gemini Pro還不及GPT-3.5,但它的優勢在於每分鐘調用不超過60次就可以免費使用
因此,許多個人開發者已經改變了陣營
目前Gemini的最高版本Ultra版尚未發布,屆時CMU團隊也打算繼續進行這項研究
你認為雙子座Ultra能夠達到GPT-4的水平嗎?
本文詳細介紹了論文:https://arxiv.org/abs/2312.11444
參考連結:
#[1]https://twitter.com/gneubig/status/17371089777954251216。
以上是CMU進行詳細比較研究,發現GPT-3.5比Gemini Pro更優,確保公平透明可重複性的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

2025幣圈交易所平台排名:1. OKX,2. Binance,3. Gate.io,4. Coinbase,5. Kraken,6. Huobi Global,7. Crypto.com,8. KuCoin,9. Gemini,10. Bitstamp。這些平台在安全措施、用戶評價和市場表現方面表現優異,適合用戶選擇進行數字貨幣交易。

本文詳細介紹了歐易OKEx賬號的註冊、使用和註銷流程。註冊需下載APP,輸入手機號或郵箱註冊,完成實名認證。使用方面涵蓋登錄、充值提現、交易以及安全設置等操作步驟。而註銷賬號則需要聯繫歐易OKEx客服,提供必要信息並等待處理,最終獲得賬號註銷確認。 通過本文,用戶可以輕鬆掌握歐易OKEx賬號的完整生命週期管理,安全便捷地進行數字資產交易。

2025年安全好用的虚拟币交易平台推荐,本文汇总了Binance、OKX、火币、Gate.io、Coinbase、Kraken、KuCoin、Bitfinex、Crypto.com和Gemini等十个全球主流虚拟货币交易平台。它们在交易对数量、24小时成交额、安全性、用户体验等方面各有优势,例如Binance交易速度快,OKX期货交易热门,Coinbase适合新手,Kraken则以安全性著称。 但需注意,虚拟货币交易风险极高,投资需谨慎,中国大陆地区不受法律保护。选择平台前请务必仔细评估自身风

2025年安全的數字貨幣App交易所排名:1. OKX,2. Binance,3. Gate.io,4. Coinbase,5. Kraken,6. Huobi Global,7. Crypto.com,8. KuCoin,9. Gemini,10. Bitstamp。這些平台在安全措施、用戶評價和市場表現方面表現優異,適合用戶選擇進行數字貨幣交易。

要預測2025年加密貨幣交易所的排名很困難,因為市場變化迅速。重要的不是具體的排名,而是要了解影響排名的因素:監管合規、機構投資、DeFi整合、用戶體驗、安全性和全球化。 Binance、Coinbase、Kraken等都有望進入前十,但也可能出現黑天鵝事件。 關注市場趨勢和交易所的動態,不要盲信排名,投資前做好調研。

2025年,選擇“正規”的以太坊交易平台意味著安全、合規、透明。 持牌經營、資金安全、透明運營、AML/KYC、數據保護和公平交易是關鍵。 Coinbase、Kraken、Gemini 等合規交易所值得關注。 幣安和歐易有機會通過加強合規性成為正規平台。 DeFi 是一個選擇,但也存在風險。 務必關注安全性、合規性、費用,分散風險,備份私鑰,並進行自己的研究 。

如何優化jieba分詞以改善景區評論的關鍵詞提取?在使用jieba分詞處理景區評論數據時,如果發現分詞結果不理�...

十大交易平台數字貨幣app排名:1. OKX,2. Binance,3. Gate.io,4. Coinbase,5. Kraken,6. Huobi,7. KuCoin,8. Crypto.com,9. Bitfinex,10. Gemini,選擇交易所需考慮安全性、費用、幣種選擇、用戶體驗、客戶支持和監管,投資需謹慎。
