CMU進行詳細比較研究，發現GPT-3.5比Gemini Pro更優，確保公平透明可重複性-人工智慧-PHP中文網

根據結果可以看出，在這類任務中使用思維鏈提示並不一定能夠提升效果

數學：複雜任務反超

程式碼：擅長matplotlib

翻譯：只要回答了，品質就很高

網路導航：擅長跨站點衝浪

網友：但是它免費啊

首頁

科技週邊

人工智慧

CMU進行詳細比較研究，發現GPT-3.5比Gemini Pro更優，確保公平透明可重複性

PHPz

Dec 21, 2023 am 08:13 AM

Google gpt-3.5 gemini

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

GoogleGemini的實力究竟如何？卡內基美隆大學進行了一項專業客觀的第三方比較

為保證公平，所有模型使用相同的提示和生成參數，並提供可重複的程式碼和完全透明的結果。

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

不會像Google官方發表會那樣，用CoT@32比較5-shot了。

一句話結果：Gemini Pro版本接近但略遜於GPT-3.5 Turbo，GPT-4還是遙遙領先。

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

在深入分析中也發現Gemini一些奇怪特性，例如選擇題喜歡選D##…

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

有許多研究者表示，Gemini剛發布沒幾天就進行了非常詳細的測試，這是非常了不起的成就

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

六大任務深入測試

這個測試具體比較了6個不同的任務，並且為每個任務選擇了對應的資料集

數學：GSM8k、SVAMP、ASDIV、MAWPS
程式碼：HumanEval、ODEX
##翻譯：FLORES
#上網衝浪：WebArena
知識問答：喜歡選D

根據結果可以看出，在這類任務中使用思維鏈提示並不一定能夠提升效果

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复在MMLU資料集中，所有的題目都是多選題。進一步分析結果後，發現了一個奇怪的現象：Gemini更喜歡選擇D選項

GPT系列在4個選項上的分佈就要平衡很多，團隊提出這可能是

Gemini沒針對多選題做大量指令微調造成的。

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复另外，Gemini的安全過濾非常嚴格。在涉及道德問題時，它只能回答85%的問題。而在涉及人類性行為相關問題時，它只能回答28%的問題

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复 Gemini Pro在安全研究和高中微觀經濟學方面的表現超過了GPT- 3.5，但差距並不大，團隊表示無法找出任何特別之處

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复 #推理：長問題不擅長

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复 GPT系列在處理更長、更複雜的問題時表現更出色，相較之下，Gemini Pro的表現較為不佳

特別是在長篇問題上，GPT-4 Turbo幾乎沒有效能下降，這表明它具備了理解複雜問題的強大能力

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复根據問題類型進行分析，Gemini在「追蹤交換物品」這類問題上表現不佳，這類問題涉及人們進行物品交換，最終需要AI判斷每個人擁有哪些物品

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

Gemini擅長的任務包括理解世界各種體育運動知識、操作符號堆疊、按字母順序排序單字以及解析表格

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

數學：複雜任務反超

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

問題本身太長，導致Gemini Pro和GPT-3.5的表現同時下降，只有GPT-4能夠維持一貫的水準

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

當思維鏈的長度達到最長時，Gemini超過了GPT-3.5

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

程式碼：擅長matplotlib

對於程式碼問題，Gemini在參考答案較長的問題上表現不佳

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

#GPT系列在大多數類型中更強大，但在matplotlib方面表現完全不佳

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

翻譯：只要回答了，品質就很高

在翻譯任務中，Gemini拒絕回答了12種類型的問題，但只要回答了的翻譯品質都非常出色，整體表現超過了GPT-4

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

#雙子座拒絕翻譯的語言主要涉及拉丁語和阿拉伯語

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

網路導航：擅長跨站點衝浪

WebArena為AI模擬了一個網路環境，包括電子商務、社交論壇、GitLab協作開發、內容管理系統和線上地圖等。 AI需要在這個環境中尋找資訊或跨站點完成任務

Gemini在整體表現不如GPT-3.5 Turbo，但在跨多個站點的任務中表現稍好。

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

網友：但是它免費啊

最終，CMU副教授格雷厄姆·紐比格承認了這項研究的一些限制

#基於API的模型行為可能隨時變化
只嘗試了有限數量的提示，對不同模型來說適用的提示詞可能不一樣
無法控制測試集是否洩漏

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

Google大型模型推理團隊的負責人周登勇指出，將Gemini的溫度設定為0可以提高5-10個百分點，對於推理任務非常有幫助

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

在這項測試中，除了Gemini和GPT系列，還引入了最近備受關注的開源MoE模型Mixtral

不過，強化學習專家Noam Brown認為可以不考慮Mixtral的結果，因為它使用的是第三方API而不是官方實作

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

Mistral AI創辦人為團隊提供了官方版呼叫權限，他相信這將帶來更好的結果

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

#雖然Gemini Pro還不及GPT-3.5，但它的優勢在於每分鐘調用不超過60次就可以免費使用

因此，許多個人開發者已經改變了陣營

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

目前Gemini的最高版本Ultra版尚未發布，屆時CMU團隊也打算繼續進行這項研究

你認為雙子座Ultra能夠達到GPT-4的水平嗎？

本文詳細介紹了論文：https://arxiv.org/abs/2312.11444

參考連結：
#[1]https://twitter.com/gneubig/status/17371089777954251216。

以上是CMU進行詳細比較研究，發現GPT-3.5比Gemini Pro更優，確保公平透明可重複性的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

熱工具

熱門話題

gmail信箱登陸入口在哪裡

7504

CakePHP 教程

1378

steam的賬戶名稱是什麼格式

win11激活密鑰永久

NYT連接提示和答案

Related knowledge

2025幣圈交易所平台哪個好十大熱門貨幣交易app最新推薦 Mar 25, 2025 pm 06:18 PM

2025幣圈交易所平台排名：1. OKX，2. Binance，3. Gate.io，4. Coinbase，5. Kraken，6. Huobi Global，7. Crypto.com，8. KuCoin，9. Gemini，10. Bitstamp。這些平台在安全措施、用戶評價和市場表現方面表現優異，適合用戶選擇進行數字貨幣交易。

歐易okex賬號怎麼註冊、使用、註銷教程 Mar 31, 2025 pm 04:21 PM

本文詳細介紹了歐易OKEx賬號的註冊、使用和註銷流程。註冊需下載APP，輸入手機號或郵箱註冊，完成實名認證。使用方面涵蓋登錄、充值提現、交易以及安全設置等操作步驟。而註銷賬號則需要聯繫歐易OKEx客服，提供必要信息並等待處理，最終獲得賬號註銷確認。通過本文，用戶可以輕鬆掌握歐易OKEx賬號的完整生命週期管理，安全便捷地進行數字資產交易。

2025年安全好用的虛擬幣交易平台榜單匯總 Mar 25, 2025 pm 06:15 PM

2025年安全好用的虚拟币交易平台推荐，本文汇总了Binance、OKX、火币、Gate.io、Coinbase、Kraken、KuCoin、Bitfinex、Crypto.com和Gemini等十个全球主流虚拟货币交易平台。它们在交易对数量、24小时成交额、安全性、用户体验等方面各有优势，例如Binance交易速度快，OKX期货交易热门，Coinbase适合新手，Kraken则以安全性著称。但需注意，虚拟货币交易风险极高，投资需谨慎，中国大陆地区不受法律保护。选择平台前请务必仔细评估自身风

2025數字貨幣交易所APP哪個好十大虛擬幣app交易所排行 Mar 25, 2025 pm 06:06 PM

2025年安全的數字貨幣App交易所排名：1. OKX，2. Binance，3. Gate.io，4. Coinbase，5. Kraken，6. Huobi Global，7. Crypto.com，8. KuCoin，9. Gemini，10. Bitstamp。這些平台在安全措施、用戶評價和市場表現方面表現優異，適合用戶選擇進行數字貨幣交易。

2025全球十大加密貨幣交易所最新排名 Mar 26, 2025 pm 05:09 PM

要預測2025年加密貨幣交易所的排名很困難，因為市場變化迅速。重要的不是具體的排名，而是要了解影響排名的因素：監管合規、機構投資、DeFi整合、用戶體驗、安全性和全球化。 Binance、Coinbase、Kraken等都有望進入前十，但也可能出現黑天鵝事件。關注市場趨勢和交易所的動態，不要盲信排名，投資前做好調研。

以太坊正規交易平台最新匯總2025 Mar 26, 2025 pm 04:45 PM

2025年，選擇“正規”的以太坊交易平台意味著安全、合規、透明。持牌經營、資金安全、透明運營、AML/KYC、數據保護和公平交易是關鍵。 Coinbase、Kraken、Gemini 等合規交易所值得關注。幣安和歐易有機會通過加強合規性成為正規平台。 DeFi 是一個選擇，但也存在風險。務必關注安全性、合規性、費用，分散風險，備份私鑰，並進行自己的研究。

如何優化jieba分詞以改善景區評論的關鍵詞提取效果？ Apr 01, 2025 pm 06:24 PM

如何優化jieba分詞以改善景區評論的關鍵詞提取？在使用jieba分詞處理景區評論數據時，如果發現分詞結果不理�...

十大數字貨幣交易所排行榜最新虛擬數字貨幣交易平台app Mar 25, 2025 pm 06:21 PM

十大交易平台數字貨幣app排名：1. OKX，2. Binance，3. Gate.io，4. Coinbase，5. Kraken，6. Huobi，7. KuCoin，8. Crypto.com，9. Bitfinex，10. Gemini，選擇交易所需考慮安全性、費用、幣種選擇、用戶體驗、客戶支持和監管，投資需謹慎。

See all articles

CMU進行詳細比較研究，發現GPT-3.5比Gemini Pro更優，確保公平透明可重複性

根據結果可以看出，在這類任務中使用思維鏈提示並不一定能夠提升效果

數學：複雜任務反超

程式碼：擅長matplotlib

翻譯：只要回答了，品質就很高

網路導航：擅長跨站點衝浪

網友：但是它免費啊

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題