トレーニング データ セットとテスト データ セットの分布が同じ場合、機械学習モデルは優れたパフォーマンスを示すことができます。ただし、オープンワールド環境では、モデルが配布外 (OOD) サンプルに遭遇することがよくあり、OOD サンプルによってモデルが予測不能な動作をする可能性があり、特に次のような高リスクのシナリオでは、エラーの結果が致命的になる可能性があります。自動運転として。[1、2]。したがって、OOD 検出は、実際の展開における機械学習モデルの信頼性を確保するために重要です。
ほとんどの OOD 検出方法 [1、3] は、十分にトレーニングされた分布内 (ID) 分類子に基づいて OOD サンプルを効果的に検出できます。ただし、ID データセットが異なる場合は、OOD 検出のために分類器を再トレーニングする必要があります。さらに、これらの方法は視覚的なパターンのみに依存し、視覚的な画像とテキスト ラベルの間の関係を無視します。大規模な視覚言語モデル (CLIP [4] などの Vision-Manguage モデル、VLM) の出現により、ゼロショット OOD 検出が可能になりました [5]。 ID カテゴリ ラベルのみを使用してテキスト分類子を構築すると、分類子を再トレーニングすることなく、さまざまな ID データセットにわたる OOD サンプルを検出できます。
既存の CLIP ベースの配布外検出手法は優れたパフォーマンスを示しますが、検出が困難な配布外サンプルに遭遇すると失敗することがよくあります。既存の手法は ID カテゴリ ラベルのみに依存していると考えられます。テキスト分類子は、開いたラベル空間からサンプルを識別するという CLIP の固有の機能を大幅に制限します。図 1 (a) に示すように、ID カテゴリ ラベルのみに依存するテキスト分類器を構築する方法では、検出が困難な OOD サンプル (ID データセット: CUB-200-2011、OOD データセット: Places) を区別することが困難です。
図 1. 研究動機の概略図: (a) ID カテゴリ ラベルのみに依存するテキスト分類器を構築する、(b) 実際の OOD ラベルを使用する、(c) LLM を使用して潜在的な外れ値の露出を想像する
では、大規模言語モデル (LLM) の専門知識と推論機能を活用して潜在的な外れ値エクスポージャーを想像し、それによって VLM の検出パフォーマンスを向上させる、Envisioning Outlier Exposure (EOE) と呼ばれる分布外検出方法を提案します。図 1 (c))、実際の OOD データにはアクセスしません。私たちは、(1) OOD 検出専用の潜在的な外れ値クラス ラベルを生成する視覚的な類似性に基づいた LLM キュー、および (2) 識別が困難な OOD サンプルを効果的に区別するための潜在的な外れ値ペナルティに基づく新しいスコアリング関数を設計します。実験では、EOE がさまざまな OOD タスクで優れたパフォーマンスを達成し、ImageNet-1K データセットに効果的に拡張できることが示されています。
Øペーパーリンク: https://arxiv.org/pdf/2406.00806
Øコードリンク: https://github.com/tmlr-group/EOE
次に、分布外検出の方向性は最近 ICML 2024 で発表されました。
予備知識
方法の紹介
EOE は、LLM を利用して潜在的な外れ値クラス ラベルを生成することにより、ゼロショット OOD 検出パフォーマンスを向上させることを目的としています。ただし、モデルのデプロイ時に発生する OOD カテゴリが不明であるため、必要な外れ値カテゴリ ラベルを生成するように LLM をどのようにガイドすればよいでしょうか?外れ値クラスのラベルを取得した後、ID サンプルと OOD サンプルをより適切に区別するにはどうすればよいでしょうか?これらの問題に対処するために、視覚的類似性原理に基づいて設計された OOD 検出専用の LLM ヒントを提案し、ID/OOD サンプルをより適切に区別するための新しいスコアリング関数を導入します。私たちのアプローチの全体的な枠組みを図 2 に示します。
図 2. EOE 全体のフレームワーク図
ファイングレイン OOD 検出は、オープンセット識別とも呼ばれます。ファイングレイン OOD 検出では、ID サンプルと OOD サンプルの両方が同じメイン カテゴリに属します。 "bird" クラス)、サブクラス間には固有の視覚的な類似点があります (例: "sparrow" と "swallow")。したがって、同じメイン カテゴリ内で異なるサブカテゴリを直接提供するように LLM に指示する方が適切です。
上記の 3 種類の OOD 検出 LLM プロンプトを図 3 に示します
図 3. 視覚的類似性の原則に基づいて設計された 3 種類の LLM プロンプト
図 4. EOE 疑似コード
私たちの方法の利点は次のように要約されます:
EOE は未知の OOD データの事前知識に依存しないため、オープンワールドのシナリオに特に適しています。
ゼロサンプル: 特定の ID データセットを個別にトレーニングする必要がなく、同じ事前トレーニングされたモデルをさまざまなタスク固有の ID データセットに効果的に適用できます。 EOE は、ID クラスのタグのみを認識することで、優れた OOD 検出パフォーマンスを実現します。
スケーラビリティと汎用性: 潜在 OOD クラス ラベルも生成する既存のゼロショット OOD 検出方法 [6] と比較して、EOE は ImageNet-1K などの大規模データセットに簡単に適用できます。さらに、EOE は、遠距離、近距離、および細粒度の OOD 検出を含む、さまざまなタスクで多用途性を示します。
実験結果
異なる OOD タスクの複数のデータセットに対して実験を実施しました。表 1 は、ImageNet-1K での Far OOD 検出の実験結果を示しています。Ground Truth は、実際の展開では利用できない実際の OOD ラベルを使用した場合のパフォーマンスを表しています。結果は、EOE が微調整手法に匹敵し、MCM を上回ることを示しています [5]。
表 1. 遠方 OOD の実験結果
表 2 と表 3 に示すように、私たちの方法はどちらも最高の検出パフォーマンスを達成しています。
表 2. OOD に近い実験結果
表 3. きめの細かい OOD 実験結果
EOE の各モデルで、さまざまなスコアリング関数、LLM プロンプト、さまざまな LLM および異なる長さの潜在的な OOD クラス ラベルの数。実験の結果、私たちが設計したスコアリング関数と視覚的類似性の原則に基づいて設計した LLM プロンプトが最適なパフォーマンスを達成し、私たちの方法がさまざまな LLM およびさまざまな長さの潜在的な OOD クラス ラベルの数で優れたパフォーマンスを達成することがわかりました。同時に、視覚言語モデルの構造に関するアブレーション実験も行いました。詳細な実験結果については、元の記事を参照してください。
図 5. アブレーション実験 – さまざまなスコアリング関数、LLM ヒント、さまざまな LLM
図 5. アブレーション実験 – 生成された潜在的な OOD クラス ラベルの数
EOE 、実際、生成された異常クラス ラベルが真の OOD クラスにヒットする可能性はほとんどありません。これは、モデルの実際の展開で遭遇する OOD データが多様で予測不可能であるためです。ただし、視覚的な類似性ルールに基づいて、EOE によって生成された潜在的な異常クラス ラベルは、実際の OOD クラスがヒットしない場合でも、OOD 検出におけるモデルのパフォーマンスを向上させることができます。
上記の議論を説明するために、T-SNE を介したラベル マッチング スコアのソフトマックス出力から得られた視覚化を示します。 EOE と比較手法 MCM の視覚化結果を図 6 に示します。 ImageNet-10 の ID クラス ラベルに基づいて、LLM は視覚的類似性ルールに基づいて潜在的な異常ラベル「潜水艦」を生成します。 OOD クラス「蒸気機関車」(ImageNet-20 のクラス) に遭遇すると、「蒸気機関車」は および の「潜水艦」と最も類似しています。したがって、EOE はそれを「潜水艦」としてクラスタリングし、OOD クラスとして検出します。ただし、潜在的な外れ値クラス ラベルがない場合、MCM はすべての OOD クラス ラベルを一緒にクラスター化する傾向があることがわかります。これにより、識別が困難な OOD サンプルが ID クラスとして識別される可能性があります。要約すると、私たちの EOE フレームワークでは、1) 同じクラスに属する OOD サンプルは一緒にクラスター化される傾向があり、2) 同じグループのサンプルは、視覚的に類似した想定外れ値クラスに分類されます (「蒸気機関車」)。 対「潜水艦」)。これらの観察結果は、EOE が実際の OOD カテゴリに触れることなく OOD 検出を強化でき、意味的にも解釈が容易であることを示しています。私たちは、この研究が OOD 検出分野における将来の研究に新しいアイデアを提供できることを願っています。
図 6. 視覚化の結果
参考文献
[1] Hendrycks, D. および Gimpel, K. ニューラル ネットワークにおける誤分類および分布外の例を検出するためのベースライン、ICLR、2017。
[2] Yang, J.、Zhou, K.、Li, Y.、および Liu, Z. 一般化された分布外検出: arXiv プレプリント arXiv:2110.11334、2021。
[3] Liu 、W.、Wang、X.、Owens、J.、および Li, Y. NeurIPS におけるエネルギーベースの分布外検出。
[4] Radford, A.、Kim, J. W.、Hallacy 、C.、Ramesh、A.、Goh、G.、Agarwal、S.、Sastry、G.、Askell、A.、Mishkin、P.、Clark, J.、他。自然言語監視からの転送可能な視覚モデルの学習. ICML、2021.
[5] Ming, Y.、Cai, Z.、Gu, J.、Sun, Y.、Li, W.、および Li, Y. による分布外検出の詳細NeurIPS、2022 年。
[6] Esmaeilpour, S.、Liu, B.、Robertson, E.、Shu, L. 事前トレーニングされたモデル クリップに基づくゼロショット分布外検出. AAAI、2022年。
研究グループの紹介
香港バプテスト大学の信頼できる機械学習および推論研究グループ(TMLRグループ)は、多数の若手教授、博士研究員、博士課程の学生、客員博士で構成されています。研究チームは学生と研究助手で構成され、理学部コンピュータサイエンス学科に所属しています。研究グループは、信頼できる表現学習、因果推論に基づく信頼できる学習、信頼できる基本モデルとその他の関連アルゴリズム、理論とシステム設計、および自然科学への応用を専門としています。具体的な研究の方向性と関連結果は、グループのページでご覧いただけます。 Github (https://github.com/tmlr-group)。研究チームは、香港研究助成評議会優秀若手研究者プログラム、中国国立自然科学財団の一般プロジェクトおよび青少年プロジェクトなどの政府研究資金および産業研究資金、ならびにマイクロソフト、NVIDIA、百度、アリババ、テンセントなどの企業。若手教授と上級研究者が協力しており、GPU コンピューティング リソースも十分にあり、多くの博士研究員、博士課程の学生、研究助手、研究インターンを長期的に採用しています。さらに、当グループは少なくとも 3 ~ 6 か月の自費訪問ポスドク研究員、博士課程の学生、研究助手からの応募も歓迎しており、リモート アクセスもサポートされています。興味のある学生は、履歴書と予備研究計画書を電子メール アドレス (bhanml@comp.hkbu.edu.hk) に送信してください。
以上がICML 2024| 大規模言語モデルは CLIP ベースの配布外検出タスクを支援しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。