OpenOOD アップデート v1.5: 包括的かつ正確な配布外検出コード ライブラリとテスト プラットフォーム、オンライン ランキングとワンクリック テストをサポート

PHPz
リリース: 2023-07-03 16:41:27
転載
1028 人が閲覧しました

配布外 (OOD) の検出は、オープンワールドのインテリジェント システムの信頼性の高い動作に不可欠ですが、現在のオブジェクト指向の検出方法では「評価の不一致」(評価の不一致) が発生します。

以前の作業 OpenOOD v1 は OOD 検出の評価を統合しますが、スケーラビリティと使いやすさにはまだ制限があります。

開発チームは最近 OpenOOD v1.5 を再度提案しましたが、以前のバージョンと比較して、新しい OOD 検出手法の評価は精度、標準化、使いやすさの確保において大幅に改善されました。

OpenOOD アップデート v1.5: 包括的かつ正確な配布外検出コード ライブラリとテスト プラットフォーム、オンライン ランキングとワンクリック テストをサポート写真

論文: https://arxiv.org/abs/2306.09301

OpenOOD コードベース: https://github.com/Jingkang50/OpenOOD

OpenOOD リーダーボード: https://zjysteven.github.io/OpenOOD/

OpenOOD は注目に値します。 v1.5 は、評価機能を ImageNet などの大規模データセットに拡張し、重要だが未開発のフルスペクトル OOD 検出を調査し、オンライン リーダーボードや使いやすい評価ツールなどの新機能を導入します。

この研究は、包括的な実験結果からの詳細な分析と洞察にも貢献し、それによって OOD 検出方法の知識ベースを充実させます。

これらの機能強化により、OpenOOD v1.5 は OOD 研究の進歩を促進し、OOD 検出研究のためのより強力で包括的な評価ベンチマークを提供することを目的としています。

研究の背景

トレーニングされた画像分類器にとって、オープンワールドで確実に動作することを可能にする重要な機能は、未知の領域を検出することです。 -of-distribution (OOD) サンプル。

たとえば、猫と犬の分類器をトレーニングするために、一連の猫と犬の写真を使用しました。配布中 (ID) サンプル、つまりここでは猫と犬の写真の場合、当然のことながら、分類器がそれらを対応するカテゴリに正確に識別することを期待します。

ディストリビューション外の OOD サンプル、つまり猫や犬以外の写真 (飛行機、果物など) については、モデルがそれらが不明、新しいオブジェクト/コンセプトであるため、ディストリビューション内の猫や犬のどのカテゴリにも割り当てることができません。

この問題は、近年広く注目を集めている配布外検出 (OOD 検出) であり、新しい取り組みが次々と登場しています。しかし、この分野が急速に拡大する一方で、さまざまな理由により、その発展状況を追跡・測定することが困難になってきています。

原因 1: 一貫性のないテスト OOD データ セット。

さまざまな深層学習タスクの迅速な開発は、統合されたテスト データ セットと切り離すことができません (CIFAR、画像分類用の ImageNet、物体検出用の PASCAL VOC、COCO と同様)。

しかし、残念ながら、OOD 検出の分野には、統一され広く採用されている OOD データ セットが常に不足していました。これは、上の図で既存の研究の実験設定を振り返ると、使用された OOD データが非常に一貫していないことがわかるという事実につながります (たとえば、ID データである CIFAR-10 の場合、一部の研究では、 MNIST と SVHN を OOD として使用し、一部の作品では CIFAR-100、Tiny ImageNet を OOD として使用します)。このような状況では、すべての手法を直接かつ公平に比較​​することは大きな困難に直面します。

理由 2: 用語が紛らわしい。

OOD 検出に加えて、「オープンセット認識 (OSR)」(オープンセット認識、OSR) や「ノベルティ検出」などの他の用語も文献によく登場します。 。

これらは基本的に同じ問題に焦点を当てていますが、いくつかの実験設定の詳細にわずかな違いがあるだけです。ただし、用語が異なるとメソッド間に不必要な分岐が生じる可能性があります。たとえば、OOD 検出と OSR はかつて 2 つの独立したタスクとみなされ、異なる分岐間にはメソッドがほとんどありませんでした (同じ問題を解決していましたが)。

原因 3: 操作が間違っています。

多くの研究では、研究者はパラメータを調整したり、モデルをトレーニングしたりするために OOD テスト セット内のサンプルを直接使用することがよくあります。このような操作は、メソッドの OOD 検出能力を過大評価することになります。

上記の問題は明らかにこの分野の秩序ある発展に有害であり、既存および将来の OOD 検出方法をテストおよび評価するための統一されたベンチマークとプラットフォームが緊急に必要です。

OpenOOD はこのような課題のもとに誕生しました。最初のバージョンは重要な一歩を踏み出しましたが、規模が小さく、使いやすさに改善が必要な問題があります。

したがって、OpenOOD v1.5 の新しいバージョンでは、OpenOOD v1.5 をさらに強化およびアップグレードし、包括的で正確で使いやすいテスト プラットフォームを作成することを試みました。研究者の大多数。

要約すると、OpenOOD には次の重要な機能と貢献があります:

1. 巨大なモジュール式コード ベース。

このコード ベースは、モデル構造、データの前処理、後処理、トレーニング、テストなどを理解してモジュール化し、再利用と開発を容易にします。現在、OpenOOD は、画像分類タスク用に 40 近くの最先端の OOD 検出方法を実装しています。

OpenOOD アップデート v1.5: 包括的かつ正確な配布外検出コード ライブラリとテスト プラットフォーム、オンライン ランキングとワンクリック テストをサポート写真

2. ワンクリックでテストできるエバリュエーター。

上の図に示すように、わずか数行のコードで、OpenOOD のエバリュエーターは、指定された ID データ セットに対して、提供された分類子とポストプロセッサーの OOD 検出テストを行うことができます。結果。

対応する OOD データは評価者によって内部的に決定および提供され、テストの一貫性と公平性が保証されます。この評価器は、標準 OOD 検出 (標準 OOD 検出) シナリオとフルスペクトル OOD 検出 (フルスペクトル OOD 検出) シナリオの両方もサポートします (これについては後で詳しく説明します)。

3. オンラインランキング。

OpenOOD を使用して、4 つの ID データ セット (CIFAR-10、CIFAR-100、ImageNet-200、ImageNet-1K) に対するほぼ 40 の OOD 検出メソッドのパフォーマンスを比較しました。結果は公開ランキングリストとして作成されました。私たちは、いつでもこの分野で最も効果的で有望な方法を誰もが理解できるようにしたいと考えています。

4. 実験結果からの新たな発見。

OpenOOD の包括的な実験結果に基づいて、この論文では多くの新しい発見を提供します。たとえば、OOD 検出とはほとんど関係がないように見えますが、データ拡張は実際に OOD 検出のパフォーマンスを効果的に向上させることができ、この向上は特定の OOD 検出方法によってもたらされる向上と直交しており、補完的です。

さらに、フルスペクトル OOD 検出における既存の方法のパフォーマンスが満足のいくものではないこともわかりました。これは、将来の分野で解決されるべき重要な問題でもあります。

問題の説明

このセクションでは、標準およびフルスペクトル OOD 検出の目標について簡単かつ一般的に説明します。より詳細かつ正式な説明については、私たちの論文を読んでください。

OpenOOD アップデート v1.5: 包括的かつ正確な配布外検出コード ライブラリとテスト プラットフォーム、オンライン ランキングとワンクリック テストをサポート写真

まず背景について説明します。私たちが検討する画像分類シナリオでは、分布内 (ID) データは対応する分類タスクによって定義されます。たとえば、CIFAR-10 分類の場合、ID 分布は 10 の意味カテゴリに対応します。

OOD の概念は ID に関連して形成されます。ID 意味カテゴリ以外の意味カテゴリに対応し、ID カテゴリとは異なるピクチャは、配布対象外の OOD イメージです。同時に、次の 2 つのタイプの分布シフトについても議論する必要があります。

セマンティック シフト: 上図の横軸に対応する、深いセマンティック レベルでの分布の変化。たとえば、トレーニング中の意味カテゴリは猫と犬であり、テスト中の意味カテゴリは飛行機と果物です。

共変量シフト: 上図の縦軸に対応して、分布は表面統計レベルで変化します (セマンティクスは変化しません)。たとえば、トレーニング中は、猫や犬のきれいで自然な写真が使用されますが、テスト中は、猫や犬のノイズが追加された写真や手描きの写真が使用されます。

上記の背景と上の図を組み合わせると、標準およびフルスペクトル OOD 検出についてよりよく理解できるようになります。

標準 OOD 検出

目標 (1): ID データを正確に分類できるように、ID 分布に関する分類器をトレーニングします。ここでは、テスト ID データとトレーニング ID データの間に共変量のシフトがないと仮定します。

目標 (2): トレーニングされた分類器に基づいて、任意のサンプルから ID/OOD を区別できるように OOD 検出メソッドを設計します。上図で対応するのは、(a)と(c)(d)を区別することです。

フルスペクトル OOD 検出

目的 (1): 標準的な OOD 検出と似ていますが、異なる点は共変量シフトが考慮されることです。トレーニング画像と比較して ID 画像に共変量シフトがあるかどうかをテストするには、分類器が対応する ID カテゴリに正確に分類される必要があります (たとえば、猫と犬の分類器は「クリーン」を正確に分類するだけでなく、 「猫と犬の画像だけでなく、騒がしい、ぼやけた猫と犬の写真にも一般化できます)。

目標 (2): 共変量シフトされた ID サンプルも考慮します。これは、通常の (共変量シフトなし) ID サンプルとともに OOD サンプルと区別する必要があります。上図の(a)(b)と(c)(d)の区別に対応します。

なぜフルスペクトラム OOD テストが重要なのでしょうか?

馴染みのある友人は、フルスペクトル OOD 検出のターゲット (1) が、実際には別の非常に重要な研究トピックである分布外一般化 (OOD 一般化) に対応していることを発見したかもしれません。

OOD 一般化の OOD は共変量シフトのあるサンプルを指しますが、OOD 検出の OOD は意味シフトのあるサンプルを指すことを明確にする必要があります。

これら 2 種類のシフトは、現実世界では非常に一般的ですが、既存の OOD の一般化と標準の OOD 検出では、そのうちの 1 つだけが考慮され、無視されます。

対照的に、フルスペクトル OOD 検出では、同じシナリオで両方のオフセットが自然に考慮され、オープンワールドにおける理想的な分類器に関する私たちの見解がより正確に反映されます。

実験結果と新しい発見

バージョン 1.5 では、OpenOOD は 6 つのベンチマーク データ セット (標準 OOD 検出用に 4 つ) で 40 近くのメソッドをテストしました。フルスペクトル OOD 検出用に 2 つ)が均一かつ包括的にテストされています。

実装されたメソッドとデータセットについては論文で説明されていますので、ぜひチェックしてみてください。すべての実験は OpenOOD コードベースでも再現できます。ここでは、比較結果から得られた結果について直接説明します。

OpenOOD アップデート v1.5: 包括的かつ正確な配布外検出コード ライブラリとテスト プラットフォーム、オンライン ランキングとワンクリック テストをサポート写真

発見 1: 勝者は 1 人だけではありません。

上記の表から、すべてのベンチマーク データ セットで一貫して優れたパフォーマンスを提供できる方法はないことがわかります。

たとえば、ポストホック推論メソッド ReAct および ASH は、大規模なデータ セット ImageNet では良好に動作しますが、CIFAR では他のメソッドと比べて利点がありません。

逆に、RotPred や LogitNorm など、トレーニングに制約を追加する一部のトレーニング方法は、小さなデータセットでは後処理方法よりも優れていますが、ImageNet では顕著ではありません。

調査結果 2: データ拡張が役立ちます。

上記の表に示すように、データ拡張機能は OOD 検出専用に設計されたものではありませんが、OOD 検出のパフォーマンスを効果的に向上させることができます。さらに驚くべきことは、データ拡張によってもたらされる改善と、特定の OOD 後処理方法によってもたらされる改善が相互に増幅することです。

ここでは AugMix を例に挙げます。最も単純な MSP ポストプロセッサと組み合わせると、ImageNet-1K の OOD に近い検出率は 77.49% に達します。これは、データ拡張を行わない場合のクロスエントロピー損失よりも低いだけです ( corss-エントロピー損失) トレーニングでは、検出率は 1.47% より 77.38% 高くなります。

ただし、AugMix をより高度な ASH ポストプロセッサと組み合わせると、対応する検出率はクロスエントロピー ベースラインより 3.99% 高く、テストで最高に達します。 82.16%。このような結果は、データ強化と後処理の組み合わせにより、将来 OOD 検出機能をさらに向上させる大きな可能性があることを示しています。

発見 3: フルスペクトル検出は現在の検出器に課題をもたらします。

上の図から、シーンが標準の OOD 検出からフルスペクトル OOD 検出に切り替わったとき (つまり、共変量シフトされた ID 画像がテストに追加されたとき) が明確にわかります。 ID データ )、ほとんどのメソッドのパフォーマンスは大幅な低下 (検出率の 10% 以上の低下) を示しています。

これは、現在の方法では、実際のセマンティクスが変化していない共変量シフトされた ID イメージを OOD としてマークする傾向があることを意味します。

この動作は人間の認識に反しています (また、フルスペクトル OOD 検出のターゲットでもあります)。人間のタグ付け者が猫と犬の写真にタグを付けていると仮定します。この時点で、彼に/を見せます。彼女は、猫や犬の騒がしくぼやけた写真の場合でも、それが猫や犬であること、そしてそれが配布外の未知の OOD データではなく配布内の ID データであることを認識する必要があります。

一般的に言えば、現在の方法ではフルスペクトル OOD 検出を効果的に解決することはできず、これが将来の分野で重要な問題になると考えています。

さらに、データ拡張はフルスペクトル OOD 検出にも依然として有効であるなど、ここに記載されていない多くの発見があります。もう一度、皆さんも私たちの論文を読んでください。

今後の展望

OpenOOD のコード ベース、テスター、ランキング、ベンチマーク データ セット、および詳細なテスト結果によって、さまざまな研究者の成果が集約されることを願っています。一緒にフィールドを前進させます。皆さんが OpenOOD を使用して OOD 検出の開発とテストを行うことを楽しみにしています。

また、フィードバックの提供、OpenOOD コード ベースとリーダーボードへの最新メソッドの追加、OpenOOD の将来のバージョンの拡張など、OpenOOD へのあらゆる形式の貢献も歓迎します。 。

参考: https://arxiv.org/abs/2306.09301

以上がOpenOOD アップデート v1.5: 包括的かつ正確な配布外検出コード ライブラリとテスト プラットフォーム、オンライン ランキングとワンクリック テストをサポートの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:51cto.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート