目錄
GPT-4準確率僅33%
#受試者選擇方式遭質疑
One More Thing
首頁 科技週邊 人工智慧 GPT-4在圖形推理方面表現不佳?即使「放水」後,準確率僅33%

GPT-4在圖形推理方面表現不佳?即使「放水」後,準確率僅33%

Nov 21, 2023 am 08:38 AM
ai 推理

GPT-4的圖形推理能力,竟然連人類的一半都不到?

美國聖塔菲研究所的研究顯示,GPT-4做圖形推理題的準確率只有33%

GPT-4v是具備多模態能力的,但其表現相對較差,只能正確回答25%的題目

GPT-4在圖形推理方面表現不佳?即使「放水」後,準確率僅33%

#△虛線表示16項任務的平均表現

這項實驗結果一經發布,立即在YC上引起了廣泛的討論

一些支持這一結果的網友表示,GPT確實在處理抽象圖形方面表現不佳,對於「位置」、「旋轉」等概念的理解更加困難

GPT-4在圖形推理方面表現不佳?即使「放水」後,準確率僅33%

然而,一些網友對這個結論表示懷疑,他們的觀點可以簡單概括為:

這個觀點雖然不能說是錯的,但是也無法完全讓人信服

GPT-4在圖形推理方面表現不佳?即使「放水」後,準確率僅33%

至於具體的原因,我們繼續往下看。

GPT-4準確率僅33%

為了評估人類和GPT-4在這些圖形題上的表現,研究者利用了今年5月推出的ConceptARC資料集

ConceptARC中總共包含16個子類別的圖形推理題,每類30道,一共480題。

GPT-4在圖形推理方面表現不佳?即使「放水」後,準確率僅33%

這16個子類別包含了位置關係、形狀、操作、比較等多個面向的內容

具體來說,這些題目都是由一個個像素塊組成的。人類和GPT需要根據給定的例子來尋找規律,並分析出圖像經過相同方式處理後的結果

作者在論文中具體展示了這16個子類的例題,每類各一道。

GPT-4在圖形推理方面表現不佳?即使「放水」後,準確率僅33%
GPT-4在圖形推理方面表現不佳?即使「放水」後,準確率僅33%
GPT-4在圖形推理方面表現不佳?即使「放水」後,準確率僅33%

結果451位人類受試者平均正確率,在各子項中皆不低於83%, 16項任務再做平均,則達到了91%。

在「放水」到一題可以試三次(有一次對就算對)的情況下,GPT-4(單樣本)的準確率最高不超過60%,平均值只有33%

GPT-4在圖形推理方面表現不佳?即使「放水」後,準確率僅33%

早些時候,這項實驗涉及的ConceptARC Benchmark的作者也做過類似的實驗,不過在GPT-4中進行的是零樣本測驗,結果16項任務的平均準確率只有19%。

GPT-4在圖形推理方面表現不佳?即使「放水」後,準確率僅33%

GPT-4v是一種多模態的模型,但準確率較低。在一個由48題組成的小規模ConceptARC資料集上,零樣本測試和單樣本測試的準確率分別只有25%和23%

GPT-4在圖形推理方面表現不佳?即使「放水」後,準確率僅33%

而研究者在進一步分析了錯誤答案後,發現人類的有些錯誤看上去很可能是“粗心導致”,而GPT則是完全沒有理解題目中的規律#。

GPT-4在圖形推理方面表現不佳?即使「放水」後,準確率僅33%

對於這些數據,大多數網友沒有什麼疑問,但引起這個實驗備受質疑的是招募到的受試者群體以及提供給GPT的輸入方式

#受試者選擇方式遭質疑

一開始,研究者在亞馬遜的一個眾包平台上招募受試者。

研究者從資料集中抽取了一些簡單題目作為入門測試,受試者需要答對隨機3道題目中的至少兩道才能進入正式測試

研究人員發現的結果顯示,有些人只是出於貪圖金錢的目的參加入門測試,而根本沒有按照要求完成題目

迫不得已,研究者將參加測驗的門檻上調到了在平台上完成過不少於2000個任務,且通過率要達到99%。

不過,雖然作者用通過率篩人,但是在具體能力上,除了需要受試者會英語,對圖形等其他專業能力「沒有特殊要求」

為了實現數據的多樣性,研究人員在實驗的後期將招募工作轉移到了另一個眾包平台。最終,共有415位被試者參與了這項實驗

儘管如此,還是有人質疑實驗中的樣本「不夠隨機」。

GPT-4在圖形推理方面表現不佳?即使「放水」後,準確率僅33%

也有網友指出,研究者用來招募受試者的亞馬遜眾包平台上,有大模型在冒充人類

GPT-4在圖形推理方面表現不佳?即使「放水」後,準確率僅33%

多模態版本的GPT運算相對簡單,只需直接傳入圖片,並使用對應的提示詞

GPT-4在圖形推理方面表現不佳?即使「放水」後,準確率僅33%

在零樣本測試中,只需刪除對應的EXAMPLE部分

但對於不帶多模態的純文字版GPT-4(0613),則需要把圖像轉換為格點,用數字來代替顏色

GPT-4在圖形推理方面表現不佳?即使「放水」後,準確率僅33%

針對這種操作,就有人表示不認同了:

把圖像轉換成數字矩陣後,概念完全變了,就算是人類,看著用數字表示的“圖形”,可能也無法理解

GPT-4在圖形推理方面表現不佳?即使「放水」後,準確率僅33%

One More Thing

無獨有偶,史丹佛大學的華裔博士生Joy Hsu也對GPT-4v的圖形理解能力進行了幾何資料集的測試

去年發布了一個資料集,旨在測試大型模型對歐氏幾何的理解。在GPT-4v開放後,Hsu再次使用該資料集對其進行了測試

結果發現,GPT-4v對圖形的理解方式,似乎「和人類完全不同」。

GPT-4在圖形推理方面表現不佳?即使「放水」後,準確率僅33%

在資料方面,GPT-4v在回答這些幾何問題上明顯不如人類

GPT-4在圖形推理方面表現不佳?即使「放水」後,準確率僅33%

論文網址:
[1]https://arxiv.org/abs/2305.07141
[2]https://arxiv.org/abs/2311.09247

以上是GPT-4在圖形推理方面表現不佳?即使「放水」後,準確率僅33%的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
1 個月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
1 個月前 By 尊渡假赌尊渡假赌尊渡假赌
威爾R.E.P.O.有交叉遊戲嗎?
1 個月前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

centos關機命令行 centos關機命令行 Apr 14, 2025 pm 09:12 PM

CentOS 關機命令為 shutdown,語法為 shutdown [選項] 時間 [信息]。選項包括:-h 立即停止系統;-P 關機後關電源;-r 重新啟動;-t 等待時間。時間可指定為立即 (now)、分鐘數 ( minutes) 或特定時間 (hh:mm)。可添加信息在系統消息中顯示。

如何檢查CentOS HDFS配置 如何檢查CentOS HDFS配置 Apr 14, 2025 pm 07:21 PM

檢查CentOS系統中HDFS配置的完整指南本文將指導您如何有效地檢查CentOS系統上HDFS的配置和運行狀態。以下步驟將幫助您全面了解HDFS的設置和運行情況。驗證Hadoop環境變量:首先,確認Hadoop環境變量已正確設置。在終端執行以下命令,驗證Hadoop是否已正確安裝並配置:hadoopversion檢查HDFS配置文件:HDFS的核心配置文件位於/etc/hadoop/conf/目錄下,其中core-site.xml和hdfs-site.xml至關重要。使用

CentOS上GitLab的備份方法有哪些 CentOS上GitLab的備份方法有哪些 Apr 14, 2025 pm 05:33 PM

CentOS系統下GitLab的備份與恢復策略為了保障數據安全和可恢復性,CentOS上的GitLab提供了多種備份方法。本文將詳細介紹幾種常見的備份方法、配置參數以及恢復流程,幫助您建立完善的GitLab備份與恢復策略。一、手動備份利用gitlab-rakegitlab:backup:create命令即可執行手動備份。此命令會備份GitLab倉庫、數據庫、用戶、用戶組、密鑰和權限等關鍵信息。默認備份文件存儲於/var/opt/gitlab/backups目錄,您可通過修改/etc/gitlab

CentOS上PyTorch的GPU支持情況如何 CentOS上PyTorch的GPU支持情況如何 Apr 14, 2025 pm 06:48 PM

在CentOS系統上啟用PyTorchGPU加速,需要安裝CUDA、cuDNN以及PyTorch的GPU版本。以下步驟將引導您完成這一過程:CUDA和cuDNN安裝確定CUDA版本兼容性:使用nvidia-smi命令查看您的NVIDIA顯卡支持的CUDA版本。例如,您的MX450顯卡可能支持CUDA11.1或更高版本。下載並安裝CUDAToolkit:訪問NVIDIACUDAToolkit官網,根據您顯卡支持的最高CUDA版本下載並安裝相應的版本。安裝cuDNN庫:前

docker原理詳解 docker原理詳解 Apr 14, 2025 pm 11:57 PM

Docker利用Linux內核特性,提供高效、隔離的應用運行環境。其工作原理如下:1. 鏡像作為只讀模板,包含運行應用所需的一切;2. 聯合文件系統(UnionFS)層疊多個文件系統,只存儲差異部分,節省空間並加快速度;3. 守護進程管理鏡像和容器,客戶端用於交互;4. Namespaces和cgroups實現容器隔離和資源限制;5. 多種網絡模式支持容器互聯。理解這些核心概念,才能更好地利用Docker。

centos安裝mysql centos安裝mysql Apr 14, 2025 pm 08:09 PM

在 CentOS 上安裝 MySQL 涉及以下步驟:添加合適的 MySQL yum 源。執行 yum install mysql-server 命令以安裝 MySQL 服務器。使用 mysql_secure_installation 命令進行安全設置,例如設置 root 用戶密碼。根據需要自定義 MySQL 配置文件。調整 MySQL 參數和優化數據庫以提升性能。

CentOS下GitLab的日誌如何查看 CentOS下GitLab的日誌如何查看 Apr 14, 2025 pm 06:18 PM

CentOS系統下查看GitLab日誌的完整指南本文將指導您如何查看CentOS系統中GitLab的各種日誌,包括主要日誌、異常日誌以及其他相關日誌。請注意,日誌文件路徑可能因GitLab版本和安裝方式而異,若以下路徑不存在,請檢查GitLab安裝目錄及配置文件。一、查看GitLab主要日誌使用以下命令查看GitLabRails應用程序的主要日誌文件:命令:sudocat/var/log/gitlab/gitlab-rails/production.log此命令會顯示produc

CentOS上PyTorch的分佈式訓練如何操作 CentOS上PyTorch的分佈式訓練如何操作 Apr 14, 2025 pm 06:36 PM

在CentOS系統上進行PyTorch分佈式訓練,需要按照以下步驟操作:PyTorch安裝:前提是CentOS系統已安裝Python和pip。根據您的CUDA版本,從PyTorch官網獲取合適的安裝命令。對於僅需CPU的訓練,可以使用以下命令:pipinstalltorchtorchvisiontorchaudio如需GPU支持,請確保已安裝對應版本的CUDA和cuDNN,並使用相應的PyTorch版本進行安裝。分佈式環境配置:分佈式訓練通常需要多台機器或單機多GPU。所

See all articles