目次
研究の背景
原因 1: 一貫性のないテスト OOD データ セット。
理由 2: 用語が紛らわしい。
原因 3: 操作が間違っています。
1. 巨大なモジュール式コード ベース。
2. ワンクリックでテストできるエバリュエーター。
3. オンラインランキング。
4. 実験結果からの新たな発見。
問題の説明
標準 OOD 検出
フルスペクトル OOD 検出
なぜフルスペクトラム OOD テストが重要なのでしょうか?
実験結果と新しい発見
発見 1: 勝者は 1 人だけではありません。
調査結果 2: データ拡張が役立ちます。
発見 3: フルスペクトル検出は現在の検出器に課題をもたらします。
今後の展望
ホームページ テクノロジー周辺機器 AI OpenOOD アップデート v1.5: 包括的かつ正確な配布外検出コード ライブラリとテスト プラットフォーム、オンライン ランキングとワンクリック テストをサポート

OpenOOD アップデート v1.5: 包括的かつ正確な配布外検出コード ライブラリとテスト プラットフォーム、オンライン ランキングとワンクリック テストをサポート

Jul 03, 2023 pm 04:41 PM
パフォーマンス openood

配布外 (OOD) の検出は、オープンワールドのインテリジェント システムの信頼性の高い動作に不可欠ですが、現在のオブジェクト指向の検出方法では「評価の不一致」(評価の不一致) が発生します。

以前の作業 OpenOOD v1 は OOD 検出の評価を統合しますが、スケーラビリティと使いやすさにはまだ制限があります。

開発チームは最近 OpenOOD v1.5 を再度提案しましたが、以前のバージョンと比較して、新しい OOD 検出手法の評価は精度、標準化、使いやすさの確保において大幅に改善されました。

OpenOOD アップデート v1.5: 包括的かつ正確な配布外検出コード ライブラリとテスト プラットフォーム、オンライン ランキングとワンクリック テストをサポート写真

論文: https://arxiv.org/abs/2306.09301

OpenOOD コードベース: https://github.com/Jingkang50/OpenOOD

OpenOOD リーダーボード: https://zjysteven.github.io/OpenOOD/

OpenOOD は注目に値します。 v1.5 は、評価機能を ImageNet などの大規模データセットに拡張し、重要だが未開発のフルスペクトル OOD 検出を調査し、オンライン リーダーボードや使いやすい評価ツールなどの新機能を導入します。

この研究は、包括的な実験結果からの詳細な分析と洞察にも貢献し、それによって OOD 検出方法の知識ベースを充実させます。

これらの機能強化により、OpenOOD v1.5 は OOD 研究の進歩を促進し、OOD 検出研究のためのより強力で包括的な評価ベンチマークを提供することを目的としています。

研究の背景

トレーニングされた画像分類器にとって、オープンワールドで確実に動作することを可能にする重要な機能は、未知の領域を検出することです。 -of-distribution (OOD) サンプル。

たとえば、猫と犬の分類器をトレーニングするために、一連の猫と犬の写真を使用しました。配布中 (ID) サンプル、つまりここでは猫と犬の写真の場合、当然のことながら、分類器がそれらを対応するカテゴリに正確に識別することを期待します。

ディストリビューション外の OOD サンプル、つまり猫や犬以外の写真 (飛行機、果物など) については、モデルがそれらが不明、新しいオブジェクト/コンセプトであるため、ディストリビューション内の猫や犬のどのカテゴリにも割り当てることができません。

この問題は、近年広く注目を集めている配布外検出 (OOD 検出) であり、新しい取り組みが次々と登場しています。しかし、この分野が急速に拡大する一方で、さまざまな理由により、その発展状況を追跡・測定することが困難になってきています。

原因 1: 一貫性のないテスト OOD データ セット。

さまざまな深層学習タスクの迅速な開発は、統合されたテスト データ セットと切り離すことができません (CIFAR、画像分類用の ImageNet、物体検出用の PASCAL VOC、COCO と同様)。

しかし、残念ながら、OOD 検出の分野には、統一され広く採用されている OOD データ セットが常に不足していました。これは、上の図で既存の研究の実験設定を振り返ると、使用された OOD データが非常に一貫していないことがわかるという事実につながります (たとえば、ID データである CIFAR-10 の場合、一部の研究では、 MNIST と SVHN を OOD として使用し、一部の作品では CIFAR-100、Tiny ImageNet を OOD として使用します)。このような状況では、すべての手法を直接かつ公平に比較​​することは大きな困難に直面します。

理由 2: 用語が紛らわしい。

OOD 検出に加えて、「オープンセット認識 (OSR)」(オープンセット認識、OSR) や「ノベルティ検出」などの他の用語も文献によく登場します。 。

これらは基本的に同じ問題に焦点を当てていますが、いくつかの実験設定の詳細にわずかな違いがあるだけです。ただし、用語が異なるとメソッド間に不必要な分岐が生じる可能性があります。たとえば、OOD 検出と OSR はかつて 2 つの独立したタスクとみなされ、異なる分岐間にはメソッドがほとんどありませんでした (同じ問題を解決していましたが)。

原因 3: 操作が間違っています。

多くの研究では、研究者はパラメータを調整したり、モデルをトレーニングしたりするために OOD テスト セット内のサンプルを直接使用することがよくあります。このような操作は、メソッドの OOD 検出能力を過大評価することになります。

上記の問題は明らかにこの分野の秩序ある発展に有害であり、既存および将来の OOD 検出方法をテストおよび評価するための統一されたベンチマークとプラットフォームが緊急に必要です。

OpenOOD はこのような課題のもとに誕生しました。最初のバージョンは重要な一歩を踏み出しましたが、規模が小さく、使いやすさに改善が必要な問題があります。

したがって、OpenOOD v1.5 の新しいバージョンでは、OpenOOD v1.5 をさらに強化およびアップグレードし、包括的で正確で使いやすいテスト プラットフォームを作成することを試みました。研究者の大多数。

要約すると、OpenOOD には次の重要な機能と貢献があります:

1. 巨大なモジュール式コード ベース。

このコード ベースは、モデル構造、データの前処理、後処理、トレーニング、テストなどを理解してモジュール化し、再利用と開発を容易にします。現在、OpenOOD は、画像分類タスク用に 40 近くの最先端の OOD 検出方法を実装しています。

OpenOOD アップデート v1.5: 包括的かつ正確な配布外検出コード ライブラリとテスト プラットフォーム、オンライン ランキングとワンクリック テストをサポート写真

2. ワンクリックでテストできるエバリュエーター。

上の図に示すように、わずか数行のコードで、OpenOOD のエバリュエーターは、指定された ID データ セットに対して、提供された分類子とポストプロセッサーの OOD 検出テストを行うことができます。結果。

対応する OOD データは評価者によって内部的に決定および提供され、テストの一貫性と公平性が保証されます。この評価器は、標準 OOD 検出 (標準 OOD 検出) シナリオとフルスペクトル OOD 検出 (フルスペクトル OOD 検出) シナリオの両方もサポートします (これについては後で詳しく説明します)。

3. オンラインランキング。

OpenOOD を使用して、4 つの ID データ セット (CIFAR-10、CIFAR-100、ImageNet-200、ImageNet-1K) に対するほぼ 40 の OOD 検出メソッドのパフォーマンスを比較しました。結果は公開ランキングリストとして作成されました。私たちは、いつでもこの分野で最も効果的で有望な方法を誰もが理解できるようにしたいと考えています。

4. 実験結果からの新たな発見。

OpenOOD の包括的な実験結果に基づいて、この論文では多くの新しい発見を提供します。たとえば、OOD 検出とはほとんど関係がないように見えますが、データ拡張は実際に OOD 検出のパフォーマンスを効果的に向上させることができ、この向上は特定の OOD 検出方法によってもたらされる向上と直交しており、補完的です。

さらに、フルスペクトル OOD 検出における既存の方法のパフォーマンスが満足のいくものではないこともわかりました。これは、将来の分野で解決されるべき重要な問題でもあります。

問題の説明

このセクションでは、標準およびフルスペクトル OOD 検出の目標について簡単かつ一般的に説明します。より詳細かつ正式な説明については、私たちの論文を読んでください。

OpenOOD アップデート v1.5: 包括的かつ正確な配布外検出コード ライブラリとテスト プラットフォーム、オンライン ランキングとワンクリック テストをサポート写真

まず背景について説明します。私たちが検討する画像分類シナリオでは、分布内 (ID) データは対応する分類タスクによって定義されます。たとえば、CIFAR-10 分類の場合、ID 分布は 10 の意味カテゴリに対応します。

OOD の概念は ID に関連して形成されます。ID 意味カテゴリ以外の意味カテゴリに対応し、ID カテゴリとは異なるピクチャは、配布対象外の OOD イメージです。同時に、次の 2 つのタイプの分布シフトについても議論する必要があります。

セマンティック シフト: 上図の横軸に対応する、深いセマンティック レベルでの分布の変化。たとえば、トレーニング中の意味カテゴリは猫と犬であり、テスト中の意味カテゴリは飛行機と果物です。

共変量シフト: 上図の縦軸に対応して、分布は表面統計レベルで変化します (セマンティクスは変化しません)。たとえば、トレーニング中は、猫や犬のきれいで自然な写真が使用されますが、テスト中は、猫や犬のノイズが追加された写真や手描きの写真が使用されます。

上記の背景と上の図を組み合わせると、標準およびフルスペクトル OOD 検出についてよりよく理解できるようになります。

標準 OOD 検出

目標 (1): ID データを正確に分類できるように、ID 分布に関する分類器をトレーニングします。ここでは、テスト ID データとトレーニング ID データの間に共変量のシフトがないと仮定します。

目標 (2): トレーニングされた分類器に基づいて、任意のサンプルから ID/OOD を区別できるように OOD 検出メソッドを設計します。上図で対応するのは、(a)と(c)(d)を区別することです。

フルスペクトル OOD 検出

目的 (1): 標準的な OOD 検出と似ていますが、異なる点は共変量シフトが考慮されることです。トレーニング画像と比較して ID 画像に共変量シフトがあるかどうかをテストするには、分類器が対応する ID カテゴリに正確に分類される必要があります (たとえば、猫と犬の分類器は「クリーン」を正確に分類するだけでなく、 「猫と犬の画像だけでなく、騒がしい、ぼやけた猫と犬の写真にも一般化できます)。

目標 (2): 共変量シフトされた ID サンプルも考慮します。これは、通常の (共変量シフトなし) ID サンプルとともに OOD サンプルと区別する必要があります。上図の(a)(b)と(c)(d)の区別に対応します。

なぜフルスペクトラム OOD テストが重要なのでしょうか?

馴染みのある友人は、フルスペクトル OOD 検出のターゲット (1) が、実際には別の非常に重要な研究トピックである分布外一般化 (OOD 一般化) に対応していることを発見したかもしれません。

OOD 一般化の OOD は共変量シフトのあるサンプルを指しますが、OOD 検出の OOD は意味シフトのあるサンプルを指すことを明確にする必要があります。

これら 2 種類のシフトは、現実世界では非常に一般的ですが、既存の OOD の一般化と標準の OOD 検出では、そのうちの 1 つだけが考慮され、無視されます。

対照的に、フルスペクトル OOD 検出では、同じシナリオで両方のオフセットが自然に考慮され、オープンワールドにおける理想的な分類器に関する私たちの見解がより正確に反映されます。

実験結果と新しい発見

バージョン 1.5 では、OpenOOD は 6 つのベンチマーク データ セット (標準 OOD 検出用に 4 つ) で 40 近くのメソッドをテストしました。フルスペクトル OOD 検出用に 2 つ)が均一かつ包括的にテストされています。

実装されたメソッドとデータセットについては論文で説明されていますので、ぜひチェックしてみてください。すべての実験は OpenOOD コードベースでも再現できます。ここでは、比較結果から得られた結果について直接説明します。

OpenOOD アップデート v1.5: 包括的かつ正確な配布外検出コード ライブラリとテスト プラットフォーム、オンライン ランキングとワンクリック テストをサポート写真

発見 1: 勝者は 1 人だけではありません。

上記の表から、すべてのベンチマーク データ セットで一貫して優れたパフォーマンスを提供できる方法はないことがわかります。

たとえば、ポストホック推論メソッド ReAct および ASH は、大規模なデータ セット ImageNet では良好に動作しますが、CIFAR では他のメソッドと比べて利点がありません。

逆に、RotPred や LogitNorm など、トレーニングに制約を追加する一部のトレーニング方法は、小さなデータセットでは後処理方法よりも優れていますが、ImageNet では顕著ではありません。

調査結果 2: データ拡張が役立ちます。

上記の表に示すように、データ拡張機能は OOD 検出専用に設計されたものではありませんが、OOD 検出のパフォーマンスを効果的に向上させることができます。さらに驚くべきことは、データ拡張によってもたらされる改善と、特定の OOD 後処理方法によってもたらされる改善が相互に増幅することです。

ここでは AugMix を例に挙げます。最も単純な MSP ポストプロセッサと組み合わせると、ImageNet-1K の OOD に近い検出率は 77.49% に達します。これは、データ拡張を行わない場合のクロスエントロピー損失よりも低いだけです ( corss-エントロピー損失) トレーニングでは、検出率は 1.47% より 77.38% 高くなります。

ただし、AugMix をより高度な ASH ポストプロセッサと組み合わせると、対応する検出率はクロスエントロピー ベースラインより 3.99% 高く、テストで最高に達します。 82.16%。このような結果は、データ強化と後処理の組み合わせにより、将来 OOD 検出機能をさらに向上させる大きな可能性があることを示しています。

発見 3: フルスペクトル検出は現在の検出器に課題をもたらします。

上の図から、シーンが標準の OOD 検出からフルスペクトル OOD 検出に切り替わったとき (つまり、共変量シフトされた ID 画像がテストに追加されたとき) が明確にわかります。 ID データ )、ほとんどのメソッドのパフォーマンスは大幅な低下 (検出率の 10% 以上の低下) を示しています。

これは、現在の方法では、実際のセマンティクスが変化していない共変量シフトされた ID イメージを OOD としてマークする傾向があることを意味します。

この動作は人間の認識に反しています (また、フルスペクトル OOD 検出のターゲットでもあります)。人間のタグ付け者が猫と犬の写真にタグを付けていると仮定します。この時点で、彼に/を見せます。彼女は、猫や犬の騒がしくぼやけた写真の場合でも、それが猫や犬であること、そしてそれが配布外の未知の OOD データではなく配布内の ID データであることを認識する必要があります。

一般的に言えば、現在の方法ではフルスペクトル OOD 検出を効果的に解決することはできず、これが将来の分野で重要な問題になると考えています。

さらに、データ拡張はフルスペクトル OOD 検出にも依然として有効であるなど、ここに記載されていない多くの発見があります。もう一度、皆さんも私たちの論文を読んでください。

今後の展望

OpenOOD のコード ベース、テスター、ランキング、ベンチマーク データ セット、および詳細なテスト結果によって、さまざまな研究者の成果が集約されることを願っています。一緒にフィールドを前進させます。皆さんが OpenOOD を使用して OOD 検出の開発とテストを行うことを楽しみにしています。

また、フィードバックの提供、OpenOOD コード ベースとリーダーボードへの最新メソッドの追加、OpenOOD の将来のバージョンの拡張など、OpenOOD へのあらゆる形式の貢献も歓迎します。 。

参考: https://arxiv.org/abs/2306.09301

以上がOpenOOD アップデート v1.5: 包括的かつ正確な配布外検出コード ライブラリとテスト プラットフォーム、オンライン ランキングとワンクリック テストをサポートの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

vivox100sとx100の違い:性能比較と機能分析 vivox100sとx100の違い:性能比較と機能分析 Mar 23, 2024 pm 10:27 PM

vivox100s と x100 携帯電話はどちらも vivo の携帯電話製品ラインの代表的なモデルであり、それぞれ異なる時代における vivo のハイエンド技術レベルを代表するものであるため、2 つの携帯電話にはデザイン、性能、機能に一定の違いがあります。この記事では、消費者が自分に合った携帯電話をより適切に選択できるように、これら 2 つの携帯電話を性能比較と機能分析の観点から詳しく比較します。まずはvivox100sとx100の性能比較を見てみましょう。 vivox100s には最新の機能が搭載されています。

Windows 11 で非表示のパフォーマンス オーバーレイを表示する方法 Windows 11 で非表示のパフォーマンス オーバーレイを表示する方法 Mar 24, 2024 am 09:40 AM

このチュートリアルでは、Windows 11 の隠れたパフォーマンス オーバーレイを明らかにするのに役立ちます。 Windows 11 のパフォーマンス オーバーレイ機能を使用すると、システム リソースをリアルタイムで監視できます。コンピューター画面上でリアルタイムの CPU 使用率、ディスク使用率、GPU 使用率、RAM 使用率などを表示できます。これは、ゲームをプレイしているときや大規模なグラフィック プログラム (ビデオ エディターなど) を使用しているときに、特定のプログラムの使用時にシステム パフォーマンスがどの程度影響を受けるかを確認する必要がある場合に便利です。システム パフォーマンスを監視するための優れた無料ソフトウェアがいくつかあり、リソース モニターなどの組み込みツールを使用してシステム パフォーマンスをチェックできますが、パフォーマンス オーバーレイ機能にも利点があります。たとえば、現在使用しているプログラムやアプリを終了する必要はありません。

Windows 10 と Windows 11 のパフォーマンス比較: どちらが優れていますか? Windows 10 と Windows 11 のパフォーマンス比較: どちらが優れていますか? Mar 28, 2024 am 09:00 AM

Windows 10 と Windows 11 のパフォーマンス比較: どちらが優れていますか?テクノロジーの継続的な開発と進歩により、オペレーティング システムは常に更新され、アップグレードされます。世界最大のオペレーティング システム開発者の 1 つとして、Microsoft の Windows シリーズ オペレーティング システムは常にユーザーから大きな注目を集めてきました。 2021 年、Microsoft は Windows 11 オペレーティング システムをリリースし、広範な議論と注目を引き起こしました。では、Windows 10 と Windows 11 のパフォーマンスの違いは何でしょうか?

Win11 と Win10 システムのパフォーマンスを比較すると、どちらの方が優れていますか? Win11 と Win10 システムのパフォーマンスを比較すると、どちらの方が優れていますか? Mar 27, 2024 pm 05:09 PM

Windows オペレーティング システムは、常にパーソナル コンピューターで最も広く使用されているオペレーティング システムの 1 つであり、最近 Microsoft が新しい Windows 11 システムを発売するまで、Windows 10 は長い間 Microsoft の主力オペレーティング システムでした。 Windows 11 システムのリリースに伴い、Windows 10 と Windows 11 システムのパフォーマンスの違いに関心が集まっていますが、どちらの方が優れているのでしょうか?まずはWを見てみましょう

Kirin 8000 プロセッサが Snapdragon シリーズと競合: 誰が王になれるでしょうか? Kirin 8000 プロセッサが Snapdragon シリーズと競合: 誰が王になれるでしょうか? Mar 25, 2024 am 09:03 AM

モバイルインターネットの時代において、スマートフォンは人々の日常生活に欠かせないものになりました。多くの場合、スマートフォンのパフォーマンスはユーザー エクスペリエンスの品質に直接影響します。スマートフォンの「頭脳」であるプロセッサーの性能は特に重要です。市場では、Qualcomm Snapdragon シリーズは常に強力なパフォーマンス、安定性、信頼性の代表格であり、最近では Huawei も独自の Kirin 8000 プロセッサを発売し、優れたパフォーマンスを備えていると言われています。一般ユーザーにとって、性能の良い携帯電話をいかに選ぶかは重要な課題となっている。今日はそうします

PHP 言語と Go 言語の比較: 大きなパフォーマンスの違い PHP 言語と Go 言語の比較: 大きなパフォーマンスの違い Mar 26, 2024 am 10:48 AM

PHP と Go は一般的に使用される 2 つのプログラミング言語であり、それぞれに異なる特徴と利点があります。その中でも性能差は誰もが一般的に気にする問題です。この記事では、パフォーマンスの観点から PHP 言語と Go 言語を比較し、具体的なコード例を通じてパフォーマンスの違いを示します。まずは、PHPとGo言語の基本的な機能を簡単に紹介します。 PHP は、もともと Web 開発用に設計されたスクリプト言語で、学習と使用が簡単で、Web 開発の分野で広く使用されています。 Go 言語は、Google によって開発されたコンパイル言語です。

Embedding サービスのローカル実行パフォーマンスは OpenAI Text-Embedding-Ada-002 を上回っており、とても便利です。 Embedding サービスのローカル実行パフォーマンスは OpenAI Text-Embedding-Ada-002 を上回っており、とても便利です。 Apr 15, 2024 am 09:01 AM

Ollama は、Llama2、Mistral、Gemma などのオープンソース モデルをローカルで簡単に実行できるようにする非常に実用的なツールです。この記事では、Ollamaを使ってテキストをベクトル化する方法を紹介します。 Ollama をローカルにインストールしていない場合は、この記事を読んでください。この記事では、nomic-embed-text[2] モデルを使用します。これは、短いコンテキストおよび長いコンテキストのタスクにおいて OpenAI text-embedding-ada-002 および text-embedding-3-small よりも優れたパフォーマンスを発揮するテキスト エンコーダーです。 o が正常にインストールされたら、nomic-embed-text サービスを開始します。

さまざまな Java フレームワークのパフォーマンスの比較 さまざまな Java フレームワークのパフォーマンスの比較 Jun 05, 2024 pm 07:14 PM

さまざまな Java フレームワークのパフォーマンス比較: REST API リクエスト処理: Vert.x が最高で、リクエスト レートは SpringBoot の 2 倍、Dropwizard の 3 倍です。データベース クエリ: SpringBoot の HibernateORM は Vert.x や Dropwizard の ORM よりも優れています。キャッシュ操作: Vert.x の Hazelcast クライアントは、SpringBoot や Dropwizard のキャッシュ メカニズムよりも優れています。適切なフレームワーク: アプリケーションの要件に応じて選択します。Vert.x は高パフォーマンスの Web サービスに適しており、SpringBoot はデータ集約型のアプリケーションに適しており、Dropwizard はマイクロサービス アーキテクチャに適しています。

See all articles