首頁 科技週邊 人工智慧 CV未來在這68張圖上? Google Brain深扒ImageNet:頂級模型全都預測失敗

CV未來在這68張圖上? Google Brain深扒ImageNet:頂級模型全都預測失敗

Apr 12, 2023 pm 11:46 PM
Google 模型 cv

過去的十年裡,ImageNet基本上就是電腦視覺領域的「晴雨表」,看準確率有沒有提升,就知道有沒有新技術問世。

「刷榜」一直是模型創新的原動力,把模型Top-1準確率推動到90% ,比人類還高。

CV未來在這68張圖上? Google Brain深扒ImageNet:頂級模型全都預測失敗

但ImageNet資料集是否真的像我們想像中的那麼有用?

很多論文都曾對ImageNet發出質疑,例如資料的覆蓋度、偏見問題、標籤是否完善等等。

其中最重要的是,模型90%的準確率是否真的準確?

最近Google Brain團隊和加州大學柏克萊分校的研究人員重新審視了幾個sota模型的預測結果,發現模型真正的準確率還可能被低估了!

CV未來在這68張圖上? Google Brain深扒ImageNet:頂級模型全都預測失敗

論文連結:https://arxiv.org/pdf/2205.04596.pdf

研究者透過對一些頂尖模型所犯的每一個錯誤進行人工審查和分類,以便深入了解基準資料集的長尾錯誤。

其中主要關注ImageNet的多標籤子集評估,最好的模型已經能達到97%的Top-1的準確率。

CV未來在這68張圖上? Google Brain深扒ImageNet:頂級模型全都預測失敗


這項研究的分析結果顯示,將近一半的所謂的預測錯誤根本就不是錯誤,而且還在圖片中發現了新的多標籤,也就是說,如果沒有人工審查過預測結果,這些模型的表現可能都是被「低估」的!

不熟練的眾包資料標註員往往會把資料標註錯誤,在很大程度上也影響了模型準確率的真實性。

為了校準ImageNet資料集,促進未來的良性進展,研究人員在文中提供了一個更新版的多標籤評估集,並把sota模型預測存在明顯錯誤的68個例子組合為一個新數據集ImageNet-Major,以方便未來CV研究者攻克這些bad case

還上「技術債」

#從文章的標題「什麼時候麵團成了百吉餅?」就可以看出作者主要關注ImageNet裡的標籤問題,這也屬於歷史遺留問題了。

下圖是一個非常典型的標籤歧義例子,圖片裡的標籤為“麵團”,模型的預測結果為“百吉餅”,錯了嗎?

CV未來在這68張圖上? Google Brain深扒ImageNet:頂級模型全都預測失敗

這個模型理論上並沒有預測錯誤,因為麵團正在烤,馬上就要成百吉餅了,所以既是麵團又是百吉餅。

可以見得模型實際上已經能夠預測到這個麵團「即將成為」百吉餅,但在準確率上卻沒有拿到這一分。

實際上,以標準ImageNet資料集的分類任務作為評價標準,缺乏多標籤、標籤雜訊、未指定的類別等問題都在所難免。

CV未來在這68張圖上? Google Brain深扒ImageNet:頂級模型全都預測失敗

 從負責識別此類物件的眾包標註員的角度來看,這是一個語義甚至是哲學上的難題,只能透過多個標籤來解決,所以在ImageNet的衍生資料集中主要改善的就是標籤問題。

距離ImageNet成立已經過了16年,當時的標註人員、模型開發者對資料的理解肯定不如今天豐富,而ImageNet又是早期的大容量、標註相對良好的資料集,所以ImageNet很自然而然地成了CV刷榜的標準。

但標註資料的預算顯然不如開發模型來的多,所以標籤問題的改善也成了一種技術債。

為了找出ImageNet中剩下的錯誤,研究人員使用了一個具有30 億參數的標準ViT-3B模型(能夠達到89.5% 的準確度),其中JFT-3B作為預訓練模型,並在ImageNet-1K上進行了微調。

使用ImageNet2012_multilabel的資料集作為測試集的情況下,ViT-3B初步達到的準確率為96.3%,其中模型明顯錯誤預測了676個圖像,然後對這些例子進行深入研究。

在重新標註資料時,作者並沒有選擇眾包,而是組成了一個由專家評審組成的小組來標註,因為這類標註錯誤對於非專業人員來說很難辨識出來。

比如圖(a),普通的標註人員可能寫一張「桌子」就過了,但其實圖片裡還有很多其他物體,像是螢幕、顯示器、馬克杯等等。

CV未來在這68張圖上? Google Brain深扒ImageNet:頂級模型全都預測失敗

 圖(b)的主體為兩個人,但標籤為picket fence(柵欄),顯然也是不完善的,可能的標籤還有領結、制服等等。

圖(c)也是一個明顯的例子,如果只標示出來「非洲象」,那像牙可能就被忽略掉了。

圖(d)的標籤為lakeshore(湖岸),但標註成seashore(海濱)其實也沒毛病。

為了增加標註效率,研究者也開發了一個專用的工具,能夠同時顯示模型預測的類別、預測分數、標籤和圖像。

CV未來在這68張圖上? Google Brain深扒ImageNet:頂級模型全都預測失敗

 在某些情況下,專家小組之間可能還存在標籤的爭議,這時候就把圖片放到Google搜尋裡來輔助標註。

比如說有一個例子裡,模型的預測結果包含計程車,但圖片裡面除了「一點黃色」之外根本沒有計程車的牌子。

這張圖片的標註主要是透過Google圖片搜尋發現圖像的背景是一個標誌性的橋樑,然後研究人員定位到了圖片所在的城市,對該城市中的計程車圖像進行檢索後,認可了這張圖片裡確實包含計程車而非一輛普通的汽車。並且從車牌的設計上進行對比,也驗證了模型的預測是正確的。

在對研究的幾個階段發現的錯誤進行初步審查後,作者首先根據錯誤的嚴重程度將其分為兩類:

1. 主要錯誤(Major):人類能夠理解標籤的含義,並且模型的預測和標籤完全不沾邊;

2. 次要錯誤(Minor):標籤的可能是錯誤的或不完善導致的預測錯誤。需要專家審查數據後進行修正。

CV未來在這68張圖上? Google Brain深扒ImageNet:頂級模型全都預測失敗

 對於ViT-3B模型犯的155個主要錯誤,研究者又找了其他三個模型共同預測來提高預測結果的多樣性。

四個模型全都預測失敗的主要錯誤有68個,然後分析了所有模型對這些例子的預測,並驗證了它們沒有一個是正確的新的多標籤,即每個模型的預測結果確實都是主要錯誤。

這68個例子有幾個共同特點,首先就是不同方式訓練的sota模型都在這個子集上犯了錯誤、並且專家評審也認為預測結果完全和正確不沾邊。

68張影像的資料集也夠小,方便後續研究者進行人工評估,如果未來攻克了這68個例子,那麼CV模型也許會取得新突破。

透過分析數據,研究者將預測錯誤分成四種:

1. 細粒度錯誤,其中預測的類別跟真實標籤相似,但不完全相同;

2. 具有詞表外(OOV)的細粒度,其中模型識別其類別正確但在ImageNet 中不存在該物件的類別;

3. 虛假相關性,其中預測的標籤是從圖像的上下文中讀取的;

4. 非原型,其中標籤中的物件與預測標籤相似、但並非完全一致。

CV未來在這68張圖上? Google Brain深扒ImageNet:頂級模型全都預測失敗

 在審查了原始 676 個錯誤後,研究人員發現其中298 個應該是正確的,或者可以確定原始標籤是錯誤或有問題的。

CV未來在這68張圖上? Google Brain深扒ImageNet:頂級模型全都預測失敗

 總的來說,透過文章的研究結果可以得到四個結論:

1. 當一個大型、高精準度模型做出其他當模型沒有的新預測時,大概其中50%都是正確的新多標籤;

2. 更高精度的模型在類別和錯誤嚴重性之間沒有表現出明顯的相關性;

3. 如今SOTA模型在人工評估的多標籤子集上的表現在很大程度上匹配或超過了最佳專家人類的表現;

4. 有噪音的訓練數據和未指定的類別可能是限制有效衡量影像分類改進的因素。

或許圖片標籤問題還得等待自然語言處理技術來解決?

以上是CV未來在這68張圖上? Google Brain深扒ImageNet:頂級模型全都預測失敗的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1654
14
CakePHP 教程
1413
52
Laravel 教程
1306
25
PHP教程
1252
29
C# 教程
1225
24
芝麻開門交易所網頁版登入口 最新版gateio官網入口 芝麻開門交易所網頁版登入口 最新版gateio官網入口 Mar 04, 2025 pm 11:48 PM

詳細介紹芝麻開門交易所網頁版登入口操作,含登錄步驟、找回密碼流程,還針對登錄失敗、無法打開頁面、收不到驗證碼等常見問題提供解決方法,助你順利登錄平台。

芝麻開門交易所網頁註冊鏈接 gate交易app註冊網址最新 芝麻開門交易所網頁註冊鏈接 gate交易app註冊網址最新 Feb 28, 2025 am 11:06 AM

本文詳細介紹了芝麻開門交易所(Gate.io)網頁版和Gate交易App的註冊流程。 無論是網頁註冊還是App註冊,都需要訪問官方網站或應用商店下載正版App,然後填寫用戶名、密碼、郵箱和手機號等信息,並完成郵箱或手機驗證。

芝麻開門交易平台下載手機版 gateio交易平台下載地址 芝麻開門交易平台下載手機版 gateio交易平台下載地址 Feb 28, 2025 am 10:51 AM

選擇正規渠道下載App,保障您的賬戶安全至關重要。

加密數字資產交易APP推薦top10(2025全球排名) 加密數字資產交易APP推薦top10(2025全球排名) Mar 18, 2025 pm 12:15 PM

本文推荐十大值得关注的加密货币交易平台,涵盖币安(Binance)、OKX、Gate.io、BitFlyer、KuCoin、Bybit、Coinbase Pro、Kraken、BYDFi和XBIT去中心化交易所。这些平台在交易币种数量、交易类型、安全性、合规性、特色功能等方面各有千秋,例如币安以其全球最大的交易量和丰富的功能著称,而BitFlyer则凭借其日本金融厅牌照和高安全性吸引亚洲用户。选择合适的平台需要根据自身交易经验、风险承受能力和投资偏好进行综合考量。 希望本文能帮助您找到最适合自

歐易okex賬號怎麼註冊、使用、註銷教程 歐易okex賬號怎麼註冊、使用、註銷教程 Mar 31, 2025 pm 04:21 PM

本文詳細介紹了歐易OKEx賬號的註冊、使用和註銷流程。註冊需下載APP,輸入手機號或郵箱註冊,完成實名認證。使用方面涵蓋登錄、充值提現、交易以及安全設置等操作步驟。而註銷賬號則需要聯繫歐易OKEx客服,提供必要信息並等待處理,最終獲得賬號註銷確認。 通過本文,用戶可以輕鬆掌握歐易OKEx賬號的完整生命週期管理,安全便捷地進行數字資產交易。

如何在Bitget官網註冊並下載最新App 如何在Bitget官網註冊並下載最新App Mar 05, 2025 am 07:54 AM

本指南提供了 Bitget 交易所官方 App 的詳細下載和安裝步驟,適用於安卓和 iOS 系統。指南整合了來自多個權威來源的信息,包括官網、App Store 和 Google Play,並強調了下載和賬戶管理過程中的注意事項。用戶可以從官方渠道下載 App,包括應用商店、官網 APK 下載和官網跳轉,並完成註冊、身份驗證和安全設置。此外,指南還涵蓋了常見問題和注意事項,例如

為什麼說Bittensor是AI賽道的'比特幣”? 為什麼說Bittensor是AI賽道的'比特幣”? Mar 04, 2025 pm 04:06 PM

原文標題:Bittensor=AIBitcoin?原文作者:S4mmyEth,DecentralizedAIResearch原文編譯:zhouzhou,BlockBeats編者按:本文討論了Bittensor,一個去中心化的AI平台,希望通過區塊鏈技術打破集中式AI公司的壟斷,推動開放、協作的AI生態系統。 Bittensor採用子網模型,允許不同AI解決方案的出現,並通過TAO代幣激勵創新。儘管AI市場已成熟,但Bittensor面臨競爭風險,可能會受到其他開源

binance怎麼註冊詳細教程(2025新手指南) binance怎麼註冊詳細教程(2025新手指南) Mar 18, 2025 pm 01:57 PM

本文提供Binance幣安註冊及安全設置的完整指南,涵蓋註冊前的準備工作(包括設備、郵箱、手機號及身份證明文件準備),詳細介紹了官網及APP兩種註冊方式,以及不同級別的身份驗證(KYC)流程。此外,文章還重點講解瞭如何設置資金密碼、開啟雙重驗證(2FA,包括谷歌身份驗證器和短信驗證)以及設置防釣魚碼等關鍵安全步驟,幫助用戶安全便捷地註冊和使用Binance幣安平台進行加密貨幣交易。 請務必在交易前了解相關法律法規及市場風險,謹慎投資。

See all articles