OpenOOD更新v1.5:全面、精確的分佈外偵測程式碼庫及測試平台,支援線上排行榜、一鍵測試
分布外(OOD)检测对于开放世界智能系统的可靠运行至关重要,但目前面向对象的检测方法存在「评估不一致」(evaluation inconsistencies)的问题。
之前的工作OpenOOD v1统一了OOD检测的评估,但在可扩展性和可用性方面仍然存在限制。
最近开发团队再次提出OpenOOD v1.5,相比上一版本,新的OOD检测方法评估在确保准确、标准化和用户友好等方面得到显著提升。
图片
Paper: https://arxiv.org/abs/2306.09301
OpenOOD Codebase: https://github.com/Jingkang50/OpenOOD
OpenOOD Leaderboard: https://zjysteven.github.io/OpenOOD/
值得注意的是,OpenOOD v1.5将其评估功能扩展到ImageNet等大规模数据集,研究了重要但尚未开发的全谱OOD检测,并引入了新功能,包括在线排行榜和易于使用的评估器。
这项工作也有助于深入的分析和见解来自全面的实验结果,从而丰富了知识库的OOD检测方法。
通过这些增强,OpenOOD v1.5旨在推动OOD研究的进展,并为OOD检测研究提供更强大和更全面的评估基准。
研究背景
对于训练好的图像分类器,能让其可靠地在开放世界中工作的一个关键能力便是检测未知的、分布外的(out-of-distribution, OOD)样本。
例如我们利用一组猫狗照片训练出了一个猫狗分类器。对于分布内的(in-distribution, ID)样本,也就是这里的猫、狗图片,我们自然期待分类器能够准确地将它们识别到相应的类别中去。
而对于分布外的OOD样本,也就是除了猫狗之外的任何图片(例如飞机、水果等等),我们希望模型能够检测出它们是未知的、新颖的物体/概念,因而无法将它们判别到分布内的猫或狗任何一类中。
这个问题便是分布外检测(OOD detection),其近年来吸引了广泛的关注,新工作层出不穷。然而领域快速扩张的同时,追踪、衡量领域的发展现状却由于种种原因成了一件难事。
原因1:不一致的测试OOD数据集。
深度学习各个任务的快速发展都离不开统一的测试数据集(就像图像分类有CIFAR,ImageNet,物体检测有PASCAL VOC,COCO)。
然而不幸的是OOD检测领域一直以来都缺乏统一的、被广泛采用的OOD数据集。这就造成了在上图中,当我们回看已有工作的实验设定时,会发现所用的OOD数据十分不一致(例如对于CIFAR-10是ID数据的情况,有些工作使用MNIST,SVHN作为OOD,有些工作使用CIFAR-100,Tiny ImageNet作为OOD)。在这样的情况下,直接公平地比较全部方法面临巨大困难。
原因2:令人困惑的术语。
除了OOD检测外,另外一些术语比如“开集识别”(Open-Set Recognition, OSR),“新类检测”(Novelty Detection)也常常出现在文献中。
它们本质上都在关注同一个问题,仅在一些实验设定的细节上有着微小差别。然而不同的术语会导致方法之间形成不必要的分支,例如OOD检测和OSR就曾经被当作是两个独立的任务,而不同分支之间的方法(尽管在解决同一个问题)也很少被放在一起比较。
原因3:错误的操作。
在許多工作中,研究者往往直接使用OOD測試集中的樣本來調參甚至訓練模型。這樣的操作會對方法的OOD偵測能力做出高估。
以上的問題顯然是對領域的有序發展不利的,我們迫切需要一個統一的基準和平台來測試評估現有以及未來的OOD檢測方法。
OpenOOD 在這樣的挑戰下應運而生。其第一版邁出了重要的一步,然而有著規模小、可用性有待提升的問題。
因此在OpenOOD全新版本v1.5中,我們進一步做了加強和升級,試圖打造一個全面、準確、易用的測試平台供廣大研究者使用。
總結來看,OpenOOD有著以下重要的特性與貢獻:
1. 龐大、模組化的程式碼庫。
此程式碼庫將模型結構、資料預處理、後處理器、訓練、測試等等進行了解藕及模組化,方便多用以及開發。目前OpenOOD實現了近40種最先進的影像分類任務的OOD偵測方法。
圖片
#2. 可一鍵測試的評估器。
如上圖所示,只用幾行程式碼,OpenOOD的評估器就可以在指定的ID資料集上給出所提供的分類器、後處理器的OOD偵測測試結果。
對應的OOD資料是由評估器內部所決定並提供的,這保證了測驗的一致性和公平性。此評估器也同時支援標準OOD檢測(standard OOD detection)和全譜OOD檢測(full-spectrum OOD detection)兩種場景(後文會有更多介紹)。
3. 線上排行榜。
利用OpenOOD,我們在CIFAR-10,CIFAR-100, ImageNet-200,ImageNet-1K四個ID資料集上比較了近40種OOD檢測方法的效能,並將結果製作成了公開排行榜。希望能夠幫助大家隨時了解領域內最有效、最有潛力的方法。
4. 實驗結果中的新發現。
根據OpenOOD全面的實驗結果,我們在論文中提供了許多新發現。例如,儘管看起來與OOD檢測關係不大,但資料增強(data augmentation)實際上能有效提升OOD檢測的性能,而這方面提升與具體OOD檢測手段帶來的提升是正交、互補的。
另外,我們發現已有方法在全光譜OOD檢測上的表現並不盡如人意,這也將是未來領域內一個重要的待解決問題。
問題描述
這部分會簡略、通俗地描述標準與全譜OOD偵測的目標。對於更詳細、更正式的描述,歡迎大家閱讀我們的論文。
圖片
#首先討論一些背景。在我們所考慮的影像分類場景下,分佈內(ID)資料是由對應的分類任務所定義的。例如CIFAR-10分類,ID分佈就對應著它的10個語意類別。
OOD的概念是相對於ID形成的:ID語義類別之外的、與ID類別不同的任何語義類別所對應的圖片都是分佈外OOD圖片。同時,我們需要討論以下兩種類型的分佈偏移(distributional shift)。
Semantic Shift:深層語意層面上的分佈變化,對應上圖橫軸。例如訓練時語意類別是貓、狗,測試時語意類別是飛機、水果。
#Covariate Shift:表層統計層面上的分佈變化(而語意不變),對應上圖縱軸。例如訓練時是貓、狗的乾淨自然照片,測試時是加了雜訊或手繪的貓、狗圖片。
有了上述背景,再結合上圖就可以很好理解標準以及全譜OOD檢測。
標準OOD偵測
目標(1):在ID分佈上訓練一個分類器,使其能夠準確地對ID資料進行分類。這裡假設測試ID資料與訓練ID資料不存在covariate shift。
目標(2):基於訓練好的分類器,設計OOD偵測方法使其能夠對任意樣本進行ID/OOD的二分類區分。在上圖中對應的是將(a)和(c) (d)區分開來。
全譜OOD偵測
目標(1):與標準OOD偵測類似,但差異在於考慮了covariate shift,也就是無論測試ID圖片相比訓練圖片是否有covariate shift,分類器都需要精準分類到相應的ID類別中(例如貓狗分類器不僅應該準確分類“乾淨”貓狗圖片,還應當能泛化到帶噪、模糊的貓狗圖片上)。
目標(2):同樣考慮covariate-shifted ID樣本,需要將其與正常(沒有covariate shift)的ID樣本一同與OOD樣本判別開來。對應上圖區分(a) (b)和(c) (d)。
為什麼全譜OOD偵測很重要?
熟悉的小夥伴可能已經發現,全譜OOD檢測中的目標(1)實際上對應著另一個很重要的研究主題-分散外泛化(OOD generalization )。
需要澄清一下,OOD泛化中的OOD指的是存在covariate shift的樣本,而OOD檢測中的OOD指的是存在semantic shift的樣本。
這兩種偏移(shift)都是現實世界中十分常見的,然而現有的OOD 泛化和標準OOD檢測都僅僅只考慮了其中一種而忽略了另一種。
與之相反,全譜OOD檢測在同一場景下將兩個偏移自然地考慮在了一起,更準確地反映了我們對於一個理想分類器在開放世界中表現的預期。
實驗結果及新發現
在1.5版本中,OpenOOD對近40種方法在6個基準(benchmark)資料集( 4個針對標準OOD檢測,2個針對全譜OOD檢測)上做了統一、全面的測試。
論文中對所實作的方法及資料集都做了描述,歡迎大家查閱。全部實驗也都可以在OpenOOD的程式庫中復現。這裡我們直接討論從對比結果得到的發現。
圖片
# 發現1:沒有贏家通吃(no single winner)。
在上表中,不難發現並沒有任何一個方法能夠在全部基準資料集上持續地給出突出表現。
例如後處理的方法(post-hoc inference methods)ReAct和ASH在大數據集ImageNet上表現優異,但在CIFAR上相比其他方法並沒有優勢。
與之相反,一些在訓練中加入約束的方法(training methods),例如RotPred和LogitNorm,在小資料集上要優於後處理方法,但在ImageNet上並不突出。
發現2:資料增強有效(data augmentations help)。
如上表所示,儘管資料增強並不是專門為OOD檢測所設計的,但它們卻能有效提升OOD檢測的表現。更令人驚訝的是,資料增強帶來的提升與具體OOD後處理方法帶來的提升是互相放大的。
#这里以AugMix为例,当它与最简单的MSP后处理器结合时,在ImageNet-1K near-OOD检测率上达到了77.49%,仅比不适用数据增强的交叉熵损失(corss-entropy loss)训练的检测率77.38%高1.47%。
然而当AugMix与更先进的ASH后处理器结合时,相应的检测率比交叉熵基线高了3.99%,并达到了我们测试中最高的82.16%。这样的结果显示了数据增强与后处理器的结合对于未来进一步提升OOD检测能力是非常有潜力的。
发现3:全谱OOD检测对现有方法提出了挑战(full-spectrum detection poses challenge for current detectors)。
从上图中可以清晰的看出,当场景从标准OOD检测切换为全谱OOD检测时(也即在测试ID数据中加入了covariate-shifted ID图片),绝大多数方法的性能都表现出了显著的退化(大于10%的检测率的下降)。
这代表着当前方法倾向于将实际语义未发生变化的covariate-shifted ID图片标记为OOD。
该行为与人类的感知(同时也是全谱OOD检测的目标)是相悖的:假设一个人类标记员在标记猫狗图片,此时给他/她出示带噪、模糊的猫狗图片,他/她应当仍会识别出那是猫/狗,是分布内ID数据而不是未知的分布外OOD数据。
总的来看,目前方法无法有效地解决全谱OOD检测,而我们相信这将是未来领域内的一大重要问题。
此外还有许多发现没有列在这里,例如数据增强对于全谱OOD检测仍旧有效等等。再次欢迎大家阅读我们的论文。
展望
我们希望OpenOOD的代码库、测试器、排行榜、基准数据集以及详实的测试结果能够汇集各路研究人员的力量一起来推动领域发展。十分期待大家使用OpenOOD进行OOD检测的开发、测试。
我们也欢迎任意形式的对OpenOOD的贡献,包括但不限于提出反馈,将最新的方法添加到OpenOOD代码库和排行榜中,扩展未来版本OpenOOD等等。
参考资料:https://arxiv.org/abs/2306.09301
以上是OpenOOD更新v1.5:全面、精確的分佈外偵測程式碼庫及測試平台,支援線上排行榜、一鍵測試的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

vivox100s和x100手機都是vivo手機產品線中的代表機型,它們分別代表了vivo在不同時間段內的高端技術水平,因此這兩款手機在設計、性能和功能上均有一定區別。本文將從效能比較和功能解析兩個面向對這兩款手機進行詳細比較,幫助消費者更好地選擇適合自己的手機。首先,我們來看vivox100s和x100在效能上的比較。 vivox100s搭載了最新的

在本教學中,我們將協助您顯示Windows11中隱藏的效能覆蓋。使用Windows11的效能覆蓋功能,您將能夠即時監視您的系統資源。您可以在電腦螢幕上查看即時的CPU使用率、磁碟使用率、GPU使用率、RAM使用率等。當您在玩遊戲或使用大型圖形程式(如影片編輯器)並需要檢查使用特定程式時系統效能受到多大程度的影響時,這是很方便的。儘管有一些優秀的免費軟體可用於監控系統效能,並且一些內建工具(如資源監視器)可用於檢查系統效能,但效能疊加功能也有其優勢。例如,您無需離開目前正在使用的程式或應用程式,也無需

Windows10與Windows11效能比較:哪個更勝一籌?隨著科技的不斷發展與進步,作業系統也不斷更新和升級。微軟公司作為全球最大的作業系統開發人員之一,其發布的Windows系列作業系統一直備受用戶關注。在2021年,微軟發布了Windows11作業系統,引發了廣泛的討論和關注。那麼,究竟Windows10與Windows11在效能方面有何不同,哪個

一直以來,Windows作業系統一直是人們在個人電腦上使用最為廣泛的作業系統之一,而Windows10長期以來一直是微軟公司的旗艦作業系統,直到最近微軟推出了全新的Windows11系統。隨著Windows11系統的推出,人們對於Windows10與Windows11系統的效能差異開始感興趣,究竟兩者之間哪一個更勝一籌呢?首先,讓我們來看看W

在行動網路時代,智慧型手機已經成為人們日常生活中不可或缺的一部分。而智慧型手機的效能表現往往直接決定了使用者體驗的好壞。作為智慧型手機的“大腦”,處理器的性能表現尤其重要。在市場上,高通驍龍系列一直以來都是性能強勁、穩定可靠的代表,而最近華為也推出了自家研發的麒麟8000處理器,據稱性能優異。對於一般用戶來說,如何選擇一款性能強勁的手機成為關鍵問題。今天我們就

PHP與Go語言是兩種常用的程式語言,它們有著不同的特色與優勢。其中,效能差異是大家普遍關注的問題。本文將從效能角度對比PHP和Go語言,並透過具體的程式碼範例來展示它們的效能差異。首先,讓我們先簡單介紹一下PHP和Go語言的基本特點。 PHP是一種腳本語言,最初設計用於Web開發,易學易用,廣泛應用於Web開發領域。而Go語言是由Google開發的一種編譯型

Ollama是一款超實用的工具,讓你能夠在本地輕鬆運行Llama2、Mistral、Gemma等開源模型。本文我將介紹如何使用Ollama實現對文本的向量化處理。如果你本地還沒有安裝Ollama,可以閱讀這篇文章。本文我們將使用nomic-embed-text[2]模型。它是一種文字編碼器,在短的上下文和長的上下文任務上,效能超越了OpenAItext-embedding-ada-002和text-embedding-3-small。啟動nomic-embed-text服務當你已經成功安裝好o

PHP數組鍵值翻轉方法效能比較顯示:array_flip()函數在大型數組(超過100萬個元素)下比for迴圈效能更優,耗時更短。手動翻轉鍵值的for迴圈方法耗時相對較長。
