目錄
根據結果可以看出,在這類任務中使用思維鏈提示並不一定能夠提升效果
數學:複雜任務反超
程式碼:擅長matplotlib
翻譯:只要回答了,品質就很高
網路導航:擅長跨站點衝浪
網友:但是它免費啊
首頁 科技週邊 人工智慧 CMU進行詳細比較研究,發現GPT-3.5比Gemini Pro更優,確保公平透明可重複性

CMU進行詳細比較研究,發現GPT-3.5比Gemini Pro更優,確保公平透明可重複性

Dec 21, 2023 am 08:13 AM
Google gpt-3.5 gemini

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

GoogleGemini的實力究竟如何?卡內基美隆大學進行了一項專業客觀的第三方比較

為保證公平,所有模型使用相同的提示和生成參數,並提供可重複的程式碼和完全透明的結果

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

不會像Google官方發表會那樣,用CoT@32比較5-shot了

一句話結果:Gemini Pro版本接近但略遜於GPT-3.5 Turbo,GPT-4還是遙遙領先。

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

在深入分析中也發現Gemini一些奇怪特性,例如選擇題喜歡選D##…

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

有許多研究者表示,Gemini剛發布沒幾天就進行了非常詳細的測試,這是非常了不起的成就

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

六大任務深入測試

這個測試具體比較了6個不同的任務,並且為每個任務選擇了對應的資料集

    知識問答:MMLU
  • 推理:BIG-Bench Hard
  • 數學:GSM8k、SVAMP、ASDIV、MAWPS
  • 程式碼:HumanEval、ODEX
  • ##翻譯:FLORES
  • #上網衝浪:WebArena
  • 知識問答:喜歡選D

根據結果可以看出,在這類任務中使用思維鏈提示並不一定能夠提升效果

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复在MMLU資料集中,所有的題目都是多選題。進一步分析結果後,發現了一個奇怪的現象:Gemini更喜歡選擇D選項

GPT系列在4個選項上的分佈就要平衡很多,團隊提出這可能是

Gemini沒針對多選題做大量指令微調造成的

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复另外,Gemini的安全過濾非常嚴格。在涉及道德問題時,它只能回答85%的問題。而在涉及人類性行為相關問題時,它只能回答28%的問題

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复Gemini Pro在安全研究和高中微觀經濟學方面的表現超過了GPT- 3.5,但差距並不大,團隊表示無法找出任何特別之處

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复#推理:長問題不擅長

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复GPT系列在處理更長、更複雜的問題時表現更出色,相較之下,Gemini Pro的表現較為不佳

特別是在長篇問題上,GPT-4 Turbo幾乎沒有效能下降,這表明它具備了理解複雜問題的強大能力

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复根據問題類型進行分析,Gemini在「追蹤交換物品」這類問題上表現不佳,這類問題涉及人們進行物品交換,最終需要AI判斷每個人擁有哪些物品

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Gemini擅長的任務包括理解世界各種體育運動知識、操作符號堆疊、按字母順序排序單字以及解析表格

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

數學:複雜任務反超

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

問題本身太長,導致Gemini Pro和GPT-3.5的表現同時下降,只有GPT-4能夠維持一貫的水準

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

當思維鏈的長度達到最長時,Gemini超過了GPT-3.5

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

程式碼:擅長matplotlib

對於程式碼問題,Gemini在參考答案較長的問題上表現不佳

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

#GPT系列在大多數類型中更強大,但在matplotlib方面表現完全不佳

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

翻譯:只要回答了,品質就很高

在翻譯任務中,Gemini拒絕回答了12種類型的問題,但只要回答了的翻譯品質都非常出色,整體表現超過了GPT-4

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

#雙子座拒絕翻譯的語言主要涉及拉丁語和阿拉伯語

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

網路導航:擅長跨站點衝浪

WebArena為AI模擬了一個網路環境,包括電子商務、社交論壇、GitLab協作開發、內容管理系統和線上地圖等。 AI需要在這個環境中尋找資訊或跨站點完成任務

Gemini在整體表現不如GPT-3.5 Turbo,但在跨多個站點的任務中表現稍好。

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

網友:但是它免費啊

最終,CMU副教授格雷厄姆·紐比格承認了這項研究的一些限制

  • #基於API的模型行為可能隨時變化
  • 只嘗試了有限數量的提示,對不同模型來說適用的提示詞可能不一樣
  • 無法控制測試集是否洩漏

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Google大型模型推理團隊的負責人周登勇指出,將Gemini的溫度設定為0可以提高5-10個百分點,對於推理任務非常有幫助

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

在這項測試中,除了Gemini和GPT系列,還引入了最近備受關注的開源MoE模型Mixtral

不過,強化學習專家Noam Brown認為可以不考慮Mixtral的結果,因為它使用的是第三方API而不是官方實作

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Mistral AI創辦人為團隊提供了官方版呼叫權限,他相信這將帶來更好的結果

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

#雖然Gemini Pro還不及GPT-3.5,但它的優勢在於每分鐘調用不超過60次就可以免費使用

因此,許多個人開發者已經改變了陣營

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

目前Gemini的最高版本Ultra版尚未發布,屆時CMU團隊也打算繼續進行這項研究

你認為雙子座Ultra能夠達到GPT-4的水平嗎?

本文詳細介紹了論文:https://arxiv.org/abs/2312.11444

參考連結:
#[1]https://twitter.com/gneubig/status/17371089777954251216。

以上是CMU進行詳細比較研究,發現GPT-3.5比Gemini Pro更優,確保公平透明可重複性的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
4 週前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
4 週前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
4 週前 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
1 個月前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

2025幣圈交易所平台哪個好  十大熱門貨幣交易app最新推薦 2025幣圈交易所平台哪個好 十大熱門貨幣交易app最新推薦 Mar 25, 2025 pm 06:18 PM

2025幣圈交易所平台排名:1. OKX,2. Binance,3. Gate.io,4. Coinbase,5. Kraken,6. Huobi Global,7. Crypto.com,8. KuCoin,9. Gemini,10. Bitstamp。這些平台在安全措施、用戶評價和市場表現方面表現優異,適合用戶選擇進行數字貨幣交易。

歐易okex賬號怎麼註冊、使用、註銷教程 歐易okex賬號怎麼註冊、使用、註銷教程 Mar 31, 2025 pm 04:21 PM

本文詳細介紹了歐易OKEx賬號的註冊、使用和註銷流程。註冊需下載APP,輸入手機號或郵箱註冊,完成實名認證。使用方面涵蓋登錄、充值提現、交易以及安全設置等操作步驟。而註銷賬號則需要聯繫歐易OKEx客服,提供必要信息並等待處理,最終獲得賬號註銷確認。 通過本文,用戶可以輕鬆掌握歐易OKEx賬號的完整生命週期管理,安全便捷地進行數字資產交易。

2025年安全好用的虛擬幣交易平台榜單匯總 2025年安全好用的虛擬幣交易平台榜單匯總 Mar 25, 2025 pm 06:15 PM

2025年安全好用的虚拟币交易平台推荐,本文汇总了Binance、OKX、火币、Gate.io、Coinbase、Kraken、KuCoin、Bitfinex、Crypto.com和Gemini等十个全球主流虚拟货币交易平台。它们在交易对数量、24小时成交额、安全性、用户体验等方面各有优势,例如Binance交易速度快,OKX期货交易热门,Coinbase适合新手,Kraken则以安全性著称。 但需注意,虚拟货币交易风险极高,投资需谨慎,中国大陆地区不受法律保护。选择平台前请务必仔细评估自身风

2025數字貨幣交易所APP哪個好  十大虛擬幣app交易所排行 2025數字貨幣交易所APP哪個好 十大虛擬幣app交易所排行 Mar 25, 2025 pm 06:06 PM

2025年安全的數字貨幣App交易所排名:1. OKX,2. Binance,3. Gate.io,4. Coinbase,5. Kraken,6. Huobi Global,7. Crypto.com,8. KuCoin,9. Gemini,10. Bitstamp。這些平台在安全措施、用戶評價和市場表現方面表現優異,適合用戶選擇進行數字貨幣交易。

2025全球十大加密貨幣交易所最新排名 2025全球十大加密貨幣交易所最新排名 Mar 26, 2025 pm 05:09 PM

要預測2025年加密貨幣交易所的排名很困難,因為市場變化迅速。重要的不是具體的排名,而是要了解影響排名的因素:監管合規、機構投資、DeFi整合、用戶體驗、安全性和全球化。 Binance、Coinbase、Kraken等都有望進入前十,但也可能出現黑天鵝事件。 關注市場趨勢和交易所的動態,不要盲信排名,投資前做好調研。

以太坊正規交易平台最新匯總2025 以太坊正規交易平台最新匯總2025 Mar 26, 2025 pm 04:45 PM

2025年,選擇“正規”的以太坊交易平台意味著安全、合規、透明。 持牌經營、資金安全、透明運營、AML/KYC、數據保護和公平交易是關鍵。 Coinbase、Kraken、Gemini 等合規交易所值得關注。 幣安和歐易有機會通過加強合規性成為正規平台。 DeFi 是一個選擇,但也存在風險。 務必關注安全性、合規性、費用,分散風險,備份私鑰,並進行自己的研究 。

如何優化jieba分詞以改善景區評論的關鍵詞提取效果? 如何優化jieba分詞以改善景區評論的關鍵詞提取效果? Apr 01, 2025 pm 06:24 PM

如何優化jieba分詞以改善景區評論的關鍵詞提取?在使用jieba分詞處理景區評論數據時,如果發現分詞結果不理�...

十大數字貨幣交易所排行榜 最新虛擬數字貨幣交易平台app 十大數字貨幣交易所排行榜 最新虛擬數字貨幣交易平台app Mar 25, 2025 pm 06:21 PM

十大交易平台數字貨幣app排名:1. OKX,2. Binance,3. Gate.io,4. Coinbase,5. Kraken,6. Huobi,7. KuCoin,8. Crypto.com,9. Bitfinex,10. Gemini,選擇交易所需考慮安全性、費用、幣種選擇、用戶體驗、客戶支持和監管,投資需謹慎。

See all articles