機器之能報道
編輯:楊文
大題們。
這幾天,一個測試大模型「腦瓜」靈不靈光的提示詞火了 ——
9.11 和 9.9 哪個大?
這道連小學生都能一口答對的數學題,卻難倒一片大模型界的「英雄好漢」。 事情是這樣的。Scale AI 的高級提示工程師 Riley Goodside 拿“9.11 and 9.9——which is bigger?”這個提示詞來問 GPT-4o,卻得到“前者更大”的回答。其他大模型也紛紛翻車。
7 月 17 日,我們拿國內 12 款大模型,外加國外的 GPT-4o、Claude 3.5 Sonnet 和谷歌的 Gemini 進行了集中評測。以下是評測結果:
接下來,我們就來看看詳細的評估過程。
-1-
GPT-4o
GPT-4o 翻車翻得相當徹底。
我們先用英文提示詞問了一遍 GPT-4o,它仍然認為 9.11 大於 9.9,然後我們分別用中英文問它二者相差多少,全部回答錯誤。
-2-
Claude-3.5-Sonnet-2-
Claude-3.5-Sonnet-33.眼狂奔。其中,在比較小數部分時,它明明知道 0.9 比 0.11 大,但最後仍得出錯誤結論。
-3- Gemini谷歌Gemini 也強不到哪裡去,它用英文了Gemini🎜🎜🎜谷歌Gemini 也強不到哪裡去,用英文答案了但第二次就認為相同整數的情況下,小數位數越多表示數字越大。 🎜🎜我們用中文問了一遍,GoogleGemini 結合實際生活具體場景比較大小,例如,從時間角度來看,9.11 通常是指9・11 事件,而9.9 則通常指9 點9 分,因此9.11 比9.9意義更大。 🎜🎜當問到二者相差多少時,Gemini 得出了負數。 🎜🎜🎜🎜
-4-
文相差多少時,它繞了一大圈,終於給了正確結論。
-5-
阿里通義千問
阿里通義千答全部對。
-6-
字節豆包
我們問 9.11 和 9.9大例如,跑步比賽選手用時 9.11 秒和 9.9 秒,意味著 9.11 秒速度更快;從價格的角度來看,9.9 元的商品更貴。不過,一到結論它就回答錯誤。
至於二者相差多少,豆包倒是答案正確。-7-
騰訊元寶
騰訊元寶面對這道題目時則是參考了這道題目
然而,9.11 和 9.9 相差多少,元寶等式列對了,就是算數竟算出小數點後 16 位。-8-
智譜清言
智譜清言錯誤地認為兩位小數言表示的數值比一位小數位錯誤回答。問到二者相差多少時,它算出個負數。
它還不忘說一句「很多 AI 模型出錯可能是因為在處理數字和小數點時的演算法缺陷」。-9-
月之暗面 - Kimi
-Kimi 這把也歇了,不僅分不清
-10-
科大訊飛星火
訊星火答對了。
-11-
百川智能 - 百小應
值錯誤地認為了百值小值。
-12-
階躍星辰 - 躍問
躍問在一開始的分析中沒問題,但後來把自己繞暈了,搞了個「反轉結論」,導致最終答案錯誤。
當我們再次問它為什麼時,它恍然大明白,糾正了錯誤,並正確算出二者的差值。
-13-
商湯 - 商量
兩個問題回答錯誤。
-14-
崑崙萬維 - 天工
回答正確。
-15-
零一萬物 - 萬知
兩個問題回答錯誤。
大模型們為何連簡單的數學常識題都搞不定呢?我們訪問了通義實驗室產品經理王曉明。
據王曉明介紹,大模型基於 Transformer 架構實現,本質是做 next token prediction,而非直接進行算術計算,因此在處理比大小等簡單數學題目時,依賴於預測模型的成功率。
此外,在處理類似「9.11 比 9.9 大」的場景時,大模型通常會透過分詞器 tokenizer 處理。分詞器在解析這類表達時,可能會把數字辨別為日期或版本號碼做比較,最終導致回答錯誤。這種處理方式是由分詞器的特定演算法和機制決定的。
在實測過程中,我們也發現,不少大模型在首次回答時可能會提供錯誤答案。然而,當進行第二輪提問時,這些模型往往能夠給出正確答案。
針對這一問題,王曉明認為主要由三個原因造成。
一是由於預測過程具有一定的隨機性,導致第二輪相較於第一輪更準確。
二是大模型具備較強的上下文理解能力,它們能夠根據先前的回答和訂正訊息,重新產生更準確的答案。
三是提問者的引導方式也會影響大模型的回答結果,例如使用限定詞、提供清晰語境以及指導模型遵循特定指令等方法均有助於提高得到正確答案的機率。
他也表示,提高大模型數學能力的核心在於提供高品質的數據支持,特別是在數學計算和邏輯推理方面。例如,通義千問針對這類場景,有針對性地加入高品質資料進行訓練,使得面對此類問題時保持較高準確率。
以後我們會帶來更多AI大模型、AI應用的一手評測,也歡迎大家進群交流。
以上是9.11和9.9誰大?我們實測15個大模型,超半數翻車的詳細內容。更多資訊請關注PHP中文網其他相關文章!