機械学習モデルがオープンワールドのシナリオで使用されることが増えているため、配布外 (OOD) データを効果的に特定して処理する方法が重要な研究領域になっています。分布外のデータが存在すると、モデルの過信や不正確な予測につながる可能性があり、これは自動運転や医療診断などの安全性が重要なアプリケーションでは特に危険です。したがって、効果的な OOD 検出メカニズムを開発することは、実際のアプリケーションにおけるモデルの安全性と信頼性を向上させるために重要です。
従来の OOD 検出方法は、主に単一のパターン、特に画像データに焦点を当てており、テキスト データなど、他の潜在的に有用な情報ソースは無視しています。視覚言語モデル (VLM) の台頭により、マルチモーダル学習シナリオ、特に画像と関連するテキストの説明を同時に理解する必要があるタスクで優れたパフォーマンスを発揮することが実証されました。 VLM に基づく既存の OOD 検出方法 [3、4、5] は ID タグの意味情報のみを使用し、VLM モデルの強力なゼロサンプル機能と VLM が解釈できる非常に広い意味空間を無視しています。これに基づいて、VLM には OOD 検出において未開発の大きな可能性があり、特に画像とテキスト情報を包括的に利用して検出結果を向上させることができると考えています。
この記事は 3 つの質問を中心に展開します:
1. 非 ID タグの情報はゼロサンプル OOD 検出に役立ちますか?
2. ゼロサンプル OOD 検出に有益な情報をマイニングするにはどうすればよいですか?
3. マイニングされた情報をゼロサンプル OOD 検出に使用するにはどうすればよいですか?
このプロジェクトでは、OOD 検出に VLM を利用する NegLabel と呼ばれる革新的なアプローチを提案します。 NegLabel メソッドでは、特に「ネガティブ ラベル」メカニズムを導入しています。これらのネガティブ ラベルは、既知の ID カテゴリ ラベルと意味的に大きく異なります。画像と ID ラベルおよびネガティブ ラベルの親和性と性質を分析および比較することで、NegLabel は、以下に属する分布を効果的に区別できます。これにより、モデルの外部のサンプルを識別できるようになり、OOD サンプルを識別するモデルの能力が大幅に向上します。
NegLabel は、複数のゼロショット OOD 検出ベンチマーク テストで優れたパフォーマンスを達成しました。 ImageNet-1k などの大規模なデータセットでは、94.21% の AUROC と 25.40% の FPR95 を達成できます。 VLM に基づく OOD 検出方法と比較して、NegLabel は追加のトレーニング プロセスを必要としないだけでなく、優れたパフォーマンスを示します。さらに、NegLabel は、さまざまな VLM アーキテクチャ上で優れた多用途性と堅牢性を示します。
Øペーパーリンク: https://arxiv.org/pdf/2403.20078.pdf
Øコードリンク: https://github.com/tmlr- group/NegLabel
次に、ICLR 2024 で最近発表された、分布外検出の方向性に関する研究結果を簡単に共有します。
NegLabelの核心は「ネガティブラベル」機構の導入です。既知の ID に関連するカテゴリ ラベルには意味上の大きな違いがあります。NegLabel は、画像と ID ラベルおよびネガティブ ラベルの親和性を分析および比較することにより、分布外に属するサンプルを効果的に識別できるため、OOD サンプルを識別するモデルの能力が大幅に向上します。 。
図 1. NegLabel の概要
1. ネガティブ ラベルを選択するにはどうすればよいですか?
2. OOD 検出にネガティブラベルを使用する方法は?
3. ネガティブサンプルがゼロサンプル OOD 検出を促進する可能性があることをどのように理解すればよいでしょうか?
私たちの研究活動は、私たちが提案する方法の性能と根底にあるメカニズムを理解するために、多次元の実験結果を提供します。
以下の表に示すように、多くのベンチマーク手法や優れたパフォーマンスを備えた高度な手法と比較して、この記事で提案する手法は、大規模なデータセット (たとえば、イメージネット)。
さらに、以下の表に示すように、この記事の方法は、ID データがドメイン移行される場合の堅牢性が優れています。
次の 2 つの表では、NegLabel の各モジュールと VLM の構造についてアブレーション実験を実施しました。左側の表からわかるように、NegMining アルゴリズムとグループ化戦略の両方により、OOD 検出のパフォーマンスを効果的に向上させることができます。右側の表は、私たちが提案した NegLabel アルゴリズムがさまざまな構造の VLM に良好に適応できることを示しています。
また、ID タグとネガティブ タグに対するさまざまな入力画像の親和性の視覚的分析も実行しました。詳細な実験と結果については、元の記事を参照してください。
参考文献
[1] Hendrycks, D. および Gimpel, K. 誤分類およびアウトを検出するためのベースラインICLR における -of-distribution の例、2017。
[2] Alec Radford、Jong Wook Kim、Chris Hallacy、Aditya Ramesh、Gabriel Goh、Sandhini Agarwal、Girish Sastry、Amanda Askell、Pamela Mishkin 、ジャック クラーク、他、ICML での学習転送可能なビジュアル モデル、2021.
[3] Sepideh Esmaeilpour、Bing Liu、Eric Robertson、および Lei Shu のゼロショット。 AAAI、2022 での分布検出。
[4] Yifei Ming、Ziyang Cai、Jixiang Gu、Yiyou Sun、Wei Li、Yixuan Li による分布外検出の詳細。 NeurIPS、2022a.
[5] Hualiang Wang、Yi Li、Huifeng Yao、Xiaomeng Li、ゼロショット OOD 検出に関する指導クリップ、2023 年。 .
[6] Christiane Fellbaum、WordNet: 電子語彙データベース、1998 年。
以上がICLR 2024 スポットライト | ネガティブ ラベル マイニングにより、CLIP ベースの配布外検出タスクが容易になりますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。