ICML 2024| 大語言模型協助基於CLIP的分佈外偵測任務-人工智慧-PHP中文網

當訓練資料集和測試資料集的分佈相同時，機器學習模型可以表現出優越的效能。然而在開放世界環境中，模型經常會遇到分佈外（Out-of-Distribution, OOD，下稱「OOD」）樣本，OOD樣本可能會導致模型做出不可預測的行為，而錯誤的後果可能是致命的，尤其是在自動駕駛等高風險場景中[1, 2]。因此OOD偵測對於確保機器學習模式在實際部署中的可靠性至關重要。

大多數OOD檢測方法 [1, 3] 可以基於訓練有素的分佈內 (In-Distribution, ID) 分類器有效地檢測 OOD 樣本。然而，對於不同的ID資料集，它們需要重新訓練分類器才能進行OOD檢測。此外，這些方法僅依賴視覺模式，而忽略了視覺圖像與文字標籤之間的連結。隨著大規模視覺語言模型（Vision-Manguage Models , VLMs，例如CLIP [4]）的出現，使得零樣本 OOD 偵測成為了可能[5]。透過建立僅具有 ID 類別標籤的文字分類器，能夠實現在無需重新訓練分類器的情況下跨不同的 ID 資料集檢測 OOD 樣本。

儘管現有的基於CLIP的分佈外檢測方法展現出了令人印象深刻的性能，但是它們在遇到較難檢測的分佈外樣本時常常會檢測失敗，我們認為現有僅依賴ID 類別標籤建構文字分類器的方法很大程度上限制了CLIP 識別來自開放標籤空間樣本的固有能力。如圖1 (a) 所示，僅依賴ID 類別標籤建構文本分類器的方法難以區分較難偵測的OOD樣本（ID資料集：CUB-200-2011，OOD資料集：Places）。

ICML 2024| 大语言模型助力基于CLIP的分布外检测任务

圖1. 研究動機示意圖：(a) 僅依賴ID 類別標籤構建文本分類器, (b) 使用真實OOD標籤, (c) 使用LLM想像潛在的異常值暴露

在這項工作中，我們提出了一種名為Envisioning Outlier Exposure (EOE) 的分佈外檢測方法，該方法利用透過利用大型語言模型(LLM) 的專家知識和推理能力來想像潛在的異常值暴露，從而提升VLMs的OOD檢測性能(如圖1 (c) 所示)，同時無需存取任何實際的OOD 資料。我們設計了(1) 基於視覺相似性的LLM 提示，以產生專門用於OOD 檢測的潛在異常值類標籤，以及(2) 基於潛在異常值懲罰的新評分函數，以有效區分難以識別的OOD 樣本。實驗表明，EOE 在不同的 OOD 任務中實現了優越的性能，並且可以有效地擴展到 ImageNet-1K 資料集。

ICML 2024| 大语言模型助力基于CLIP的分布外检测任务

Ø論文連結：https://arxiv.org/pdf/2406.00806

Ø程式碼連結：https://github.com/tmlr-group/EOE

接下來將簡單地向大家分享我們近期發表在ICML 2024 上的分佈外檢測方向的研究結果。

預備知識

ICML 2024| 大语言模型助力基于CLIP的分布外检测任务

方法介紹

EOE旨在透過利用 LLM 產生潛在的異常值類別標籤來提高零樣本 OOD 偵測效能。然而，由於模型部署時遇到的OOD類別是未知的，那麼，我們應該如何引導 LLM 產生所需的異常值類別標籤？在取得異常值類別標籤後，我們如何才能更好地區分 ID 和 OOD 樣本？為了解決這些問題，我們提出了基於視覺相似性原則設計的專門針對 OOD 檢測的 LLM 提示，並引入了一種新穎的評分函數來更好地區分ID/OOD樣本。我們方法的整體架構如圖 2所示。

ICML 2024| 大语言模型助力基于CLIP的分布外检测任务

圖2. EOE總體框架圖

ICML 2024| 大语言模型助力基于CLIP的分布外检测任务

Fine-grained OOD 檢測也稱為開放集識別，在Fine-grained OOD 檢測中，ID 和OOD 樣本都屬於同一主要類別(例如「鳥”類），且子類之間存在內在的視覺相似性(例如“麻雀”和“燕子”）。因此，指示 LLM 直接提供同一主要類別內的不同子類別更為合適。

以上三種OOD 檢測的 LLM 提示如圖3所示

ICML 2024| 大语言模型助力基于CLIP的分布外检测任务

圖3. 基於視覺相似性原則設計的三類LLM提示

ICML 2024| 大语言模型助力基于CLIP的分布外检测任务

圖4. EOE偽代碼

我們的方法優點總結如下：

EOE 不依賴於未知 OOD 資料的先驗知識，因此特別適合開放世界場景。

零樣本：同一個預訓練模型可有效地應用於各種特定於任務的 ID 資料集，而無需對每個特定 ID 資料集進行單獨訓練。 EOE 僅透過了解 ID 類標籤即可實現卓越的 OOD 偵測效能。

可擴展性和通用性：與同樣產生潛在OOD 類別標籤的現有零樣本 OOD 偵測方法 [6]相比，EOE 可以輕鬆應用於 ImageNet-1K 等大規模資料集。此外，EOE 在不同任務中表現出通用性，包括Far, Near和Fine-grainedOOD 檢測。

實驗結果

我們在不同OOD任務的多個資料集上進行了實驗。表1展示了在ImageNet-1K 上進行Far OOD 檢測實驗結果，其中，Ground Truth表示使用真實OOD標籤時的性能，在實際部署中是不可取得的。結果表明，EOE 與微調方法相當，並超越了 MCM [5]。

表1. Far OOD實驗結果

ICML 2024| 大语言模型助力基于CLIP的分布外检测任务

我們也報告了在Near OOD和Fine-grained OOD任務上的實驗結果，如表2和表3所示，我們的方法均實現了最佳的檢測性能。

表2. Near OOD實驗結果

ICML 2024| 大语言模型助力基于CLIP的分布外检测任务

表3. Fine-grained OOD實驗結果

ICML 2024| 大语言模型助力基于CLIP的分布外检测任务

我們對EOE的各個模型進行了消融函數，包括不同提示的的LLM和不同長度的潛在OOD 類標籤數量。實驗表明，我們設計的得分函數和基於視覺相似性原則設計的LLM prompt獲得了最優的性能，並且我們的方法在不同的LLM和不同長度的潛在OOD 類標籤數量上都獲得了優異的表現。同時，我們也對視覺語言模型的結構進行了消融實驗，詳細的實驗結果請大家參考原文。

ICML 2024| 大语言模型助力基于CLIP的分布外检测任务

圖5. 消融實驗 –不同的得分函數、LLM提示和不同的LLM

ICML 2024| 大语言模型助力基于CLIP的分布外检测任务

圖5. 消融實驗具有潛在OOD 類標籤數量

我們對EO的有效性，實際上，產生的異常類別標籤不太可能有很高的機率命中真實值OOD 類別。這是因為在模型的實際部署中遇到的 OOD 資料是多種多樣，且不可預測的。然而，透過視覺相似性規則引導，即使沒有命中真實的OOD類的情況下，EOE產生的潛在異常類標籤仍然可以提高模型在 OOD 檢測中的表現。

為了說明上述論點，我們展示了透過 T-SNE從標籤匹配分數的 softmax 輸出中得出的視覺化效果。我們的 EOE 與對比方法 MCM 之間的視覺化結果如圖6所示。基於 ImageNet-10 的 ID 類別標籤，LLM 產生基於視覺相似性規則的潛在異常標籤「潛艇」。當遇到 OOD 類 “蒸汽機車”（ImageNet-20 中的類）時，“蒸汽機車” 在和中與“潛艇”的相似度最高。因此，EOE 會將其聚類為 “潛艇”，從而將其檢測為 OOD 類。然而，如果沒有潛在的異常類別標籤，我們可以發現 MCM 傾向於將所有 OOD 類別標籤聚集在一起。這可能導致將難以識別的 OOD 樣本識別為 ID 類別。總之，在我們的EOE 框架中，1) 屬於同一類的OOD 樣本傾向於被聚集在一起，2) 同一組的樣本被歸類到與它們在視覺上相似的設想的異常值類中（「蒸汽機車” vs“潛水艇”）。這些觀察結果表明，我們的 EOE 可以在不觸及實際 OOD 類別的情況下增強 OOD 檢測，並且在語義上也更易於解釋。我們希望這項工作能為 OOD 檢測領域的未來研究提供一個新的思路。

ICML 2024| 大语言模型助力基于CLIP的分布外检测任务

圖6. 視覺化結果

參考文獻

[1] Hendrycks, D. and Gimpel, K. A baseline for detecting misclassified and outrycks, D. and Gimpel, K. A baseline for detecting misclassified and out-of-distribution 17.

[2] Yang, J., Zhou, K., Li, Y., and Liu, Z. Generalized out-of-distribution detection: A survey. arXiv preprint arXiv:2110.11334, 2021.

Liu, W., Wang, X., Owens, J., and Li, Y. Energy-based out-of-distribution detection. In NeurIPS, 2020.

[4] Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., et al. Learning transferable visual models from natural language supervision. In ICML, 2021.

[5] Ming, Y., Cai, Z., Gu, J., Sun, Y., Li, W., and Li, Y. Delving into out-of-distribution detection with vision-language representations. In NeurIPS, 2022.

[6] Esmaeilpour, S., Liu, B., Robertson, E., and Shu, L. Zeroshot out-of-distribution detection based on the pretection- trained model clip. In AAAI, 2022.

主題組介紹

香港浸會大學可信機器學習和推理課題組(TMLR Group) 由多名青年教授、博士後研究員、博士生、訪問博士和推理課題組(TMLR Group) 由多名青年教授、博士後研究員、博士生、訪問博士和研究助理共同組成，課題組隸屬於理學院電腦系。課題組專攻可信表徵學習、基於因果推理的可信學習、可信基礎模型等相關的演算法，理論和系統設計以及在自然科學上的應用，具體研究方向和相關成果詳見本組Github (https ://github.com/tmlr-group)。課題組由政府科研基金以及工業界科研基金資助，如香港研究資助局傑出青年學者計劃，國家自然科學基金面上項目和青年項目，以及微軟、英偉達、百度、阿里、騰訊等企業的科研基金。青年教授及資深研究員手把手帶，GPU計算資源充足，長期招收多位博士後研究員、博士生、研究助理及研究實習生。此外，本組也歡迎自費的訪問博士後研究員、博士生和研究助理申請，訪問至少3-6個月，支援遠端訪問。有興趣的同學請發送個人簡歷和初步研究計劃到郵箱 (bhanml@comp.hkbu.edu.hk)。

以上是ICML 2024| 大語言模型協助基於CLIP的分佈外偵測任務的詳細內容。更多資訊請關注PHP中文網其他相關文章！