對Gemini進行全面評估：從CMU到GPT 3.5 Turbo，Gemini Pro失利-人工智慧-PHP中文網

Google的 Gemini 到底有多重？和 OpenAI 的 GPT 模型相比如何表現？ CMU 這篇論文對此有清楚的測量結果

前段時間，Google發布了對標 OpenAI GPT 模型的競標 ——Gemini。這個大模型共有三個版本 ——Ultra（能力最強）、Pro 和 Nano。研究團隊公佈的測試結果顯示，Ultra 版本在許多任務中優於 GPT4，而 Pro 版本與 GPT-3.5 不相上下。

儘管這些對比結果對大型語言模型研究具有重要意義，但由於確切的評估細節和模型預測尚未公開，這限制了對測試結果的複現、檢測，難以進一步分析其隱含的細節。

為了了解 Gemini 的真正實力，來自卡內基美隆大學、BerriAI 的研究者對該模型的語言理解和生成能力進行了深入探索。

他們在十個資料集上測試了 Gemini Pro、GPT 3.5 Turbo、GPT 4 Turbo、Mixtral 的文字理解和產生能力。具體來說，他們在MMLU 上測試了模型回答基於知識的問題的能力，在BigBenchHard 上測試了模型的推理能力，在GSM8K 等數據集中測試了模型解答數學問題的能力，在FLORES 等數據集中測試了模型的翻譯能力；在HumanEval 等資料集中測試了模型的程式碼產生能力；在WebArena 中測試了模型作為遵循指令的智能體的能力。

摸底谷歌Gemini：CMU全面测评，Gemini Pro不敌GPT 3.5 Turbo

下表 1 展示了對比的主要結果。總體而言，截至論文發稿日，在所有任務中，Gemini Pro 在準確性上接近 OpenAI GPT 3.5 Turbo，但仍稍遜一籌。此外，他們還發現，Gemini 和 GPT 比開源競爭對手模型 Mixtral 表現要好一些。

在論文中，作者對每項任務都進行了深入的描述和分析。所有結果和可複現的程式碼可參閱：https://github.com/neulab/gemini-benchmark

論文連結：https://arxiv.org/ pdf/2312.11444.pdf

#實驗設定

##作者選擇了Gemini Pro、GPT 3.5 Turbo、GPT 4 Turbo、Mixtral 四個模型作為測試對象。

由於先前有研究在評估時存在實驗設定方面的差異，為確保測試公平，作者採取了完全相同的提示詞和評估協議重新運行了實驗。在大多數評量中，他們採用了提示詞和來自標準資源庫的評估標準。這些測試資源來自模型發佈時附帶的資料集以及評估工具 Eleuther 等。其中，提示詞通常包含查詢、輸入、少量範例和思考鏈推理等。在某些特殊測評中，作者發現有必要對標準實踐進行小幅調整。調整偏差已在對應的程式碼儲存庫中執行，請查閱論文原文。

這項研究的目標如下：

#1. 透過可重複的程式碼和完全透明的結果，提供OpenAI GPT 和Google Gemini 模型能力的第三方客觀比較。

2. 深入研究評測結果，分析兩個模型在哪些領域的表現更加突出。

基於知識的問答（Knowledge-based QA）

作者從MMLU 數據集中選擇了57 個基於知識的多項選擇問答任務，涵蓋了STEM 以及人文社科等各種主題。 MMLU 共有 14,042 個測試樣本，已廣泛用於對大型語言模型的知識能力進行整體評估。

作者比較並分析了四個測試物件在 MMLU 上的整體表現（如下圖所示）、子任務表現以及輸出長度對表現的影響。

圖 1：使用 5 個樣本提示和思維鏈提示，各個模型在 MMLU 上的整體準確率。

從圖中可以看到，Gemini Pro 的準確度低於 GPT 3.5 Turbo，遠低於 GPT 4 Turbo。在使用思维链提示时，各模型表现差异不大。作者推测这是由于 MMLU 主要收录的是基于知识的问答任务，这些任务可能不会从更强的推理导向提示中显著受益。

值得注意的是，MMLU 中的所有问题都是单选题，有 A 到 D 四个按顺序排列的潜在答案。下图中展示了每个模型选择每个答案选项的比例。从图中可以看到 Gemini 的答案分布非常倾斜，偏向于选择最后的 D 选项。这与各版本的 GPT 给出的更加平衡的结果形成了对比。这可能表明，Gemini 没有接受与多选题相关的大量指令调整，导致模型在答案排序方面存在偏见。

^{图 2：被测模型预测的单选题答案的比例。}

下图展示了被测模型在 MMLU 测试集的子任务上的表现。与 GPT 3.5 相比，Gemini Pro 在大多数任务上的表现不佳。思维链提示降低了子任务之间的方差。

^{图 3：被测模型在每个子任务上的准确率。}

作者深入探讨了 Gemini Pro 的强项和弱项。从图 4 中可以观察到，Gemini Pro 在人类性别（社会科学）、形式逻辑（人文科学）、初等数学（STEM) 和专业医学（专业领域）任务中落后于 GPT 3.5。在 Gemini Pro 更擅长的两个任务中，领先优势也很微弱。

^{图 4：Gemini Pro 和 GPT 3.5 在 MMLU 上的优势任务。}

Gemini Pro 在特定任务上的表现不佳可以归因于两个原因。首先，在某些情况下，Gemini 无法返回答案。在大多数 MMLU 子任务中，API 响应率超过 95%，但在道德（响应率 85%）、人类性别（响应率 28%）这两个任务的相应率明显较低。这表明 Gemini 在一些任务中性能较低可能是由于输入的内容过滤器。其次，Gemini Pro 在解决形式逻辑和基础数学任务所需的基本数学推理方面的表现稍差。

作者还分析了思维链提示中的输出长度如何影响模型性能，如图 5 所示。一般来说，更强大的模型倾向于进行更复杂的推理，因此会输出更长的回答。与「对手」相比，Gemini Pro 有一个值得注意的优势：它的准确性受输出长度的影响较小。当输出长度超过 900 时，Gemini Pro 甚至优于 GPT 3.5。然而，与 GPT 4 Turbo 相比，Gemini Pro 和 GPT 3.5 Turbo 很少能输出长推理链。

^{图 5：被测模型在 MMLU 上的输出长度分析。}

通用推理（General-purpose Reasoning）

在 BIG-Bench Hard 测试集中，作者对被测对象展开了通用推理能力的测评。BIG-Bench Hard 包含 27 个不同的推理任务，如算术、符号和多语言推理、事实知识理解等任务。大多数任务由 250 个问题 - 答案对组成，少数任务的问题数量稍少一些。

图 6 中展示的是被测模型的整体准确率。可以看出，Gemini Pro 的准确率略低于 GPT 3.5 Turbo，远低于 GPT 4 Turbo。相比之下，Mixtral 模型的准确率还要低得多。

^{图 6：被测模型在 BIG-Bench-Hard 上的整体准确率。}

作者更深入地探讨了为什么 Gemini 通用推理整体表现不佳。首先，他们按问题的长度检查了准确率。如图 7 所示，Gemini Pro 在更长、更复杂的问题上表现不佳。而 GPT 模型，特别是 GPT 4 Turbo，即使在非常长的问题中， GPT 4 Turbo 的退步也非常小。这表明它的鲁棒性很强，能够理解更长和更复杂的提问和查询。GPT 3.5 Turbo 的鲁棒性一般。Mixtral 在问题长度方面表现稳定，但整体准确率较低。

^{圖 7：測試模型在 BIG-Bench-Hard 上以問題長度分割的準確率。}

作者分析了被測試模型在 BIG-Bench-Hard 特定任務中是否存在準確率的差異。圖 8 中展示了 GPT 3.5 Turbo 在哪些任務上比 Gemini Pro 表現更好。

在「追蹤變換物件的位置」的任務中，Gemini Pro 的表現特別糟糕。這些任務涉及人們交換物品並追蹤誰是某項物品的擁有者，但 Gemini Pro 經常難以保持正確的順序。

^{圖 8：GPT 3.5 Turbo 優於 Gemini Pro 的 BIG-Bench-Hard 子任務。}

在需要多步驟解的算術題、尋找翻譯中的錯誤等任務中，Gemini Pro 遜於 Mixtral。

也有 Gemini Pro 優於 GPT 3.5 Turbo 的任務。圖 9 展示了 Gemini Pro 以最大優勢領先 GPT 3.5 Turbo 的六個任務。這些任務是異質的，包括需要世界知識的（sports_understanding）、操作符號堆疊（dyck_languages）、按字母順序對單字進行排序（word_sorting）以及解析表格（penguins_in_a_table）等。

^{圖 9：Gemini Pro 優於 GPT 3.5 的 BIG-Bench-Hard 子任務。}

作者進一步分析了被測試模型在不同答案類型中的穩健性，如圖 10 所示。 Gemini Pro 在「Valid/Invalid」答案類型中的表現最差，該答案類型屬於任務 formal_fallacies。有趣的是，該任務有 68.4% 的問題沒有回答回應。然而，在其它（由 word_sorting 和 dyck_language 任務組成）的答案類型中，Gemini Pro 表現優於所有 GPT 模型與 Mixtral。即 Gemini Pro 特別擅長重新排列單字並以正確順序產生符號。另外，對於 MCQ 答案，有 4.39% 的問題被 Gemini Pro 阻止回應。 GPT 車型在這方面表現出色，Gemini Pro 難以與它們競爭。

^{圖 10：測試模型在 BIG-Bench-Hard 上依答案類型分割的準確度。}

總之，似乎沒有哪個模型在特定任務上一馬當先。因此，在執行通用推理任務時，不妨在 Gemini 和 GPT 模型中都嘗試一下，然後再決定使用哪個模型。

數學能力

#為了評估被測試模型的數學推理能力，作者選擇了四個數學問題基準測試集：

（1）GSM8K：小學數學基準測試；

（2）SVAMP ：透過改變單字順序生成問題來檢查魯棒推理能力；

（3）ASDIV：具有不同的語言模式和問題類型；

（4）MAWPS：包含算術和代數詞問題。

作者比較了Gemini Pro 、GPT 3.5 Turbo、GPT 4 Turbo 和Mixtral 在四個數學問題測試集上的準確性，檢查了它們的整體性能、不同問題複雜度下的表現以及不同思維鏈深度下的表現。

圖11 呈現了整體結果，Gemini Pro 在包含不同語言模式的GSM8K、SVAMP 和ASDIV 的任務中，準確性略低於GPT 3.5 Turbo，遠低於GPT 4 Turbo。對於 MAWPS 中的任務，儘管所有被測模型的準確性都超過 90%，但 Gemini Pro 仍然略遜於 GPT 模型。在這個任務中，GPT 3.5 Turbo 以微弱的優勢勝過了 GPT 4 Turbo。相比之下，Mixtral 模型的準確性遠低於其他模型。

^{圖 11：測試模型在四個數學推理測驗集任務中的整體準確度。}

圖 12 中展示了每個模型對問題長度的穩健性。與 BIG-Bench Hard 中的推理任務類似，被測模型在回答較長的問題時，準確度有所下降。GPT 3.5 Turbo 在較短的題目上表現優於 Gemini Pro，但退步的速度更快，Gemini Pro 在較長的題目的準確性上與 GPT 3.5 Turbo 類似，但仍稍稍落後。

^{圖 12：測試模型在四個數學推理測驗集任務中，對於不同問題長度的生成答案的準確性。}

此外，作者也觀察到當答案需要較長的思考鏈時，被測模型的準確性也有不同。如圖 13 所示，即使使用長推理鏈時，GPT 4 Turbo 也非常穩健，而 GPT 3.5 Turbo、Gemini Pro 和 Mixtral 在 COT 長度不斷增加時表現出力不從心。透過分析，作者也發現，在 COT 長度超過 100 的複雜例子中，Gemini Pro 優於 GPT 3.5 Turbo，但在較短的例子中表現不佳。

^{圖 13：不同思維鍊長度下，各模型在 GSM8K 上的準確度。}

圖 14 顯示了被測模型對於不同數字數量在產生答案時的準確性。作者根據答案中的數字數量是 1 個、2 個還是 3 個以上創建了三個「桶」（除了 MAWPS 任務，該任務的答案沒有超過兩位數的數字）。如圖所示，GPT 3.5 Turbo 似乎對多位數的數學問題更加穩健，而 Gemini Pro 在更多數字的問題上有所退化。

^{圖 14：各模型在四個數學推理測驗集任務中在答案數字數量不同時的準確度。}

程式碼產生

#在這一部分，作者使用兩個代碼產生資料集——HumanEval 和ODEX—— 來檢驗模型的編碼能力。前者測試模型對 Python 標準庫中有限的一組函數的基本程式碼理解能力，後者測試模型使用整個 Python 生態系統中更廣泛的庫集的能力。這兩個問題的輸入都是用英語編寫的任務說明（通常帶有測試案例）。這些問題用來評估模型的語言理解能力、演算法理解能力和初等數學能力。總的來說，HumanEval 有 164 個測試樣本，ODEX 有 439 個測試樣本。

首先，從圖15 所示的整體結果中，可以看到Gemini Pro 在兩個任務上的Pass@1 分數都低於GPT 3.5 Turbo，也遠低於GPT 4 Turbo。這些結果表明，Gemini 的程式碼產生能力仍有待提高。

^{圖 15：各個模型在程式碼產生任務中的整體準確度。}

其次，作者在圖 16 (a) 中分析了 gold solution 長度與模型表現之間的關係。解的長度可以在一定程度上說明對應程式碼產生任務的難度。作者發現，Gemini Pro 在解的長度低於 100 時（如較容易的情況），實現了與 GPT 3.5 相當的 Pass@1 分數，但當解的長度變長時，它就會大幅落後。這與前幾節的結果形成了有趣的對比，在前幾節中，作者發現一般情況下，Gemini Pro 在英語任務中對較長的輸入和輸出都能表現穩健。

作者也在圖 16 (b) 中分析了每個解所需的函式庫對模型效能的影響。在大多數函式庫用例中，如 mock、pandas、numpy 和 datetime，Gemini Pro 的效能比 GPT 3.5 差。不過，在 matplotlib 的用例中，它的性能要優於 GPT 3.5 和 GPT 4，這表明它在透過程式碼執行繪圖視覺化時具有更強的能力。

最後，作者展示了幾個具體的失敗案例，在這些案例中，Gemini Pro 在程式碼產生方面的表現比 GPT 3.5 差。首先，他們注意到 Gemini 在正確選擇 Python API 中的函數和參數方面略遜一籌。例如，給定以下提示：

Gemini Pro 產生了以下程式碼，結果出現了類型不符錯誤：

相較之下，GPT 3.5 Turbo 使用了以下程式碼，達到了預期效果：

#此外，Gemini Pro 的錯誤比例較高，在這種情況下，執行的程式碼在語法上是正確的，但不能正確地與更複雜的意圖相符。例如，關於以下提示：

Gemini Pro 創建了實作方法，只提取唯一的數字，而不會刪除那些出現多次的數字。

機器翻譯

#這組實驗使用FLORES-200 機器翻譯基準評估了模型的多語言能力，特別是在各種語言對之間的翻譯能力。作者將重點放在 Robinson et al. (2023) 的分析所使用的 20 種語言的不同子集上，這些語言涵蓋不同程度的資源可用性和翻譯難度。作者對所有選定語言對的測試集中的 1012 個句子進行了評估。

在表 4 和表 5 中，作者對 Gemini Pro、GPT 3.5 Turbo 和 GPT 4 Turbo 與Google翻譯等成熟系統進行了比較分析。此外，他們還對 NLLB-MoE 進行了基準測試，NLLB-MoE 是領先的開源機器翻譯模型，以其廣泛的語種覆蓋而聞名。結果表明，Google翻譯總體上優於其他模型，在 9 種語言上表現出色；其次是 NLLB，在 0/5-shot 設定下，在 6 種 / 8 種語言上表現出色。通用語言模型顯示出具有競爭力的性能，但在翻譯成非英語語言方面尚未超越專用機器翻譯系統。

^{表 4：各模型使用 0-shot 提示對所有語言進行機器翻譯的效能（chRF (%) 分數）。最佳分數以粗體顯示，次佳分數以下劃線顯示。}

^{表5：各模型使用5-shot 提示對所有語言進行機器翻譯的效能（chRF (%) 分數）。最佳分數以粗體顯示，次佳分數以下劃線顯示。}

圖 17 顯示了通用語言模型在不同語言對中的表現比較。與 GPT 3.5 Turbo 和 Gemini Pro 相比，GPT 4 Turbo 與 NLLB 表現出一致的效能偏差。 GPT 4 Turbo 在低資源語言方面也有較大改進，而在高資源語言方面，兩種 LLM 的表現相似。相較之下，在 20 種語言中的 8 種語言上，Gemini Pro 的表現優於 GPT 3.5 Turbo 和 GPT 4 Turbo，並在 4 種語言上取得了最高效能。不過，Gemini Pro 在大約 10 種語言對中表現出強烈的屏蔽響應（block response）傾向。

^{圖 17：按語言對劃分的機器翻譯效能（chRF (%) 分數）。}

圖18 顯示，Gemini Pro 在這些語言中的表現較低，這是因為它傾向於在置信度較低的場景中屏蔽響應。如果 Gemini Pro 在 0-shot 或 5-shot 配置中產生「Blocked Response」錯誤，則該回應被視為「屏蔽」。

^{圖 18：被 Gemini Pro 屏蔽的樣本數。}

仔細觀察圖19 可以發現，Gemini Pro 在置信度較高的無屏蔽樣本中略微優於GPT 3.5 Turbo 和GPT 4 Turbo 。具體來說，它在 5-shot 和 0-shot 設定下分別比 GPT 4 Turbo 多出 1.6 chrf 和 2.6 chrf，比 GPT 3.5 Turbo 多出 2.7 chrf 和 2 chrf。不過，作者對 GPT 4 Turbo 和 GPT 3.5 Turbo 在這些樣本上的性能進行的初步分析表明，這些樣本的翻譯通常更具挑戰性。 Gemini Pro 在這些特定樣本上表現不佳，尤其明顯的是，Gemini Pro 0-shot 會屏蔽響應，而 5-shot 則不會，反之亦然。

^{圖 19：屏蔽和非屏蔽樣本的 chrf 效能（%）。}

在對模型的整個分析過程中，作者觀察到，few-shot 提示一般都能適度提高平均性能，其variance pattern 依次遞增：GPT 4 Turbo

圖 20 顯示了按語系或 script 分類的明顯趨勢。一個重要的觀察結果是，Gemini Pro 在西里爾文字上的表現與其他機型相比具有競爭力，但在其他文字上的表現卻不盡如人意。 GPT-4 在各種 script 上的表現突出，優於其他模型，其中 few-shot 提示尤為有效。這種效果在使用梵文的語言中尤其明顯。

^{圖 20：各模型在不同 script 上的表現 (chrf (%))。}

Web 智能體

最後，作者檢視了每個模型作為網路導航智能體的能力，這是一項需要長期規劃和複雜資料理解的任務。他們使用了模擬環境 WebArena，該環境成功的標準是執行結果。賦予智能體的任務包括資訊搜尋、網站導航以及內容和配置操作。任務涉及各種網站，包括電子商務平台、社交論壇、協同軟體開發平台（如 gitlab）、內容管理系統和線上地圖。

作者測試了 Gemini-Pro 的整體成功率、不同任務的成功率、反應長度、軌跡步數以及預測任務無法完成的傾向。表 6 列出了整體性能。 Gemini-Pro 的表現與 GPT-3.5-Turbo 接近，但略遜一籌。與 GPT-3.5-Turbo 類似，當提示提到任務可能無法完成時（UA hint），Gemini-Pro 的表現較好。在有 UA hint 的情況下，Gemini-Pro 的整體成功率為 7.09%。

^{表 6：各個模型在 WebArena 上的表現。}

如果按網站類型進行細分，如圖21 所示，可以看到Gemini-Pro 在gitlab 和地圖上的表現不如GPT -3.5-Turbo，而在購物管理、reddit 和購物網站上的表現則接近GPT-3.5-Turbo。在多站點任務上，Gemini-Pro 的表現優於 GPT-3.5-Turbo，這與先前的結果一致，即 Gemini 在各種基準的更複雜子任務上表現更好一些。

^{圖 21：模型在不同類型網站上的 Web 智能體成功率。}

如圖22 所示，一般來說，Gemini-Pro 把更多的任務預測為無法完成，尤其是在給予一個UA hint 的情況下。 Gemini-Pro 在給予 UA hint 的情況下，預測 80.6% 以上的任務無法完成，而 GPT-3.5-Turbo 只預測了 47.7%。需要注意的是，資料集中只有 4.4% 的任務實際上是無法完成的，因此兩者都遠遠高估了無法完成的任務的實際數量。

^{圖 22：UA 預測數量。}

同時，作者觀察到，Gemini Pro 更傾向於用較短的短語做出回應，在得出結論之前採取較少的步驟。如圖 23 (a) 所示，Gemini Pro 有一半以上的軌跡少於 10 步，而 GPT 3.5 Turbo 和 GPT 4 Turbo 的大多數軌跡在 10 到 30 步之間。同樣，Gemini 的大部分回复長度不到 100 個字符，而 GPT 3.5 Turbo、GPT 4 Turbo 和 Mixtral 的大部分回复長度超過 300 個字符（圖 23 (b)）。 Gemini 傾向於直接預測行動，而其他模型則會先進行推理，然後給予行動預測。