ICLR 2024 スポットライト | ネガティブ ラベル マイニングにより、CLIP ベースの配布外検出タスクが容易になります
機械学習モデルがオープンワールドのシナリオで使用されることが増えているため、配布外 (OOD) データを効果的に特定して処理する方法が重要な研究領域になっています。分布外のデータが存在すると、モデルの過信や不正確な予測につながる可能性があり、これは自動運転や医療診断などの安全性が重要なアプリケーションでは特に危険です。したがって、効果的な OOD 検出メカニズムを開発することは、実際のアプリケーションにおけるモデルの安全性と信頼性を向上させるために重要です。
従来の OOD 検出方法は、主に単一のパターン、特に画像データに焦点を当てており、テキスト データなど、他の潜在的に有用な情報ソースは無視しています。視覚言語モデル (VLM) の台頭により、マルチモーダル学習シナリオ、特に画像と関連するテキストの説明を同時に理解する必要があるタスクで優れたパフォーマンスを発揮することが実証されました。 VLM に基づく既存の OOD 検出方法 [3、4、5] は ID タグの意味情報のみを使用し、VLM モデルの強力なゼロサンプル機能と VLM が解釈できる非常に広い意味空間を無視しています。これに基づいて、VLM には OOD 検出において未開発の大きな可能性があり、特に画像とテキスト情報を包括的に利用して検出結果を向上させることができると考えています。
この記事は 3 つの質問を中心に展開します:
1. 非 ID タグの情報はゼロサンプル OOD 検出に役立ちますか?
2. ゼロサンプル OOD 検出に有益な情報をマイニングするにはどうすればよいですか?
3. マイニングされた情報をゼロサンプル OOD 検出に使用するにはどうすればよいですか?
このプロジェクトでは、OOD 検出に VLM を利用する NegLabel と呼ばれる革新的なアプローチを提案します。 NegLabel メソッドでは、特に「ネガティブ ラベル」メカニズムを導入しています。これらのネガティブ ラベルは、既知の ID カテゴリ ラベルと意味的に大きく異なります。画像と ID ラベルおよびネガティブ ラベルの親和性と性質を分析および比較することで、NegLabel は、以下に属する分布を効果的に区別できます。これにより、モデルの外部のサンプルを識別できるようになり、OOD サンプルを識別するモデルの能力が大幅に向上します。
NegLabel は、複数のゼロショット OOD 検出ベンチマーク テストで優れたパフォーマンスを達成しました。 ImageNet-1k などの大規模なデータセットでは、94.21% の AUROC と 25.40% の FPR95 を達成できます。 VLM に基づく OOD 検出方法と比較して、NegLabel は追加のトレーニング プロセスを必要としないだけでなく、優れたパフォーマンスを示します。さらに、NegLabel は、さまざまな VLM アーキテクチャ上で優れた多用途性と堅牢性を示します。
Øペーパーリンク: https://arxiv.org/pdf/2403.20078.pdf
Øコードリンク: https://github.com/tmlr- group/NegLabel
次に、ICLR 2024 で最近発表された、分布外検出の方向性に関する研究結果を簡単に共有します。
予備知識
手法の紹介
NegLabelの核心は「ネガティブラベル」機構の導入です。既知の ID に関連するカテゴリ ラベルには意味上の大きな違いがあります。NegLabel は、画像と ID ラベルおよびネガティブ ラベルの親和性を分析および比較することにより、分布外に属するサンプルを効果的に識別できるため、OOD サンプルを識別するモデルの能力が大幅に向上します。 。
図 1. NegLabel の概要
1. ネガティブ ラベルを選択するにはどうすればよいですか?
2. OOD 検出にネガティブラベルを使用する方法は?
3. ネガティブサンプルがゼロサンプル OOD 検出を促進する可能性があることをどのように理解すればよいでしょうか?
実験結果
私たちの研究活動は、私たちが提案する方法の性能と根底にあるメカニズムを理解するために、多次元の実験結果を提供します。
以下の表に示すように、多くのベンチマーク手法や優れたパフォーマンスを備えた高度な手法と比較して、この記事で提案する手法は、大規模なデータセット (たとえば、イメージネット)。
さらに、以下の表に示すように、この記事の方法は、ID データがドメイン移行される場合の堅牢性が優れています。
次の 2 つの表では、NegLabel の各モジュールと VLM の構造についてアブレーション実験を実施しました。左側の表からわかるように、NegMining アルゴリズムとグループ化戦略の両方により、OOD 検出のパフォーマンスを効果的に向上させることができます。右側の表は、私たちが提案した NegLabel アルゴリズムがさまざまな構造の VLM に良好に適応できることを示しています。
また、ID タグとネガティブ タグに対するさまざまな入力画像の親和性の視覚的分析も実行しました。詳細な実験と結果については、元の記事を参照してください。
参考文献
[1] Hendrycks, D. および Gimpel, K. 誤分類およびアウトを検出するためのベースラインICLR における -of-distribution の例、2017。
[2] Alec Radford、Jong Wook Kim、Chris Hallacy、Aditya Ramesh、Gabriel Goh、Sandhini Agarwal、Girish Sastry、Amanda Askell、Pamela Mishkin 、ジャック クラーク、他、ICML での学習転送可能なビジュアル モデル、2021.
[3] Sepideh Esmaeilpour、Bing Liu、Eric Robertson、および Lei Shu のゼロショット。 AAAI、2022 での分布検出。
[4] Yifei Ming、Ziyang Cai、Jixiang Gu、Yiyou Sun、Wei Li、Yixuan Li による分布外検出の詳細。 NeurIPS、2022a.
[5] Hualiang Wang、Yi Li、Huifeng Yao、Xiaomeng Li、ゼロショット OOD 検出に関する指導クリップ、2023 年。 .
[6] Christiane Fellbaum、WordNet: 電子語彙データベース、1998 年。
以上がICLR 2024 スポットライト | ネガティブ ラベル マイニングにより、CLIP ベースの配布外検出タスクが容易になりますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック

グレイスケール投資:機関投資家が機関や投資家にデジタル通貨投資サービスを提供するための機関投資家が入国します。同社はいくつかの暗号信託を立ち上げました。これは広範な市場の注目を集めていますが、これらの資金のトークン価格に対する影響は大きく異なります。この記事では、Grayscaleの主要なCrypto Trust Fundsの一部を詳細に紹介します。 Grayscale Major Crypto Trust Fundsは、Grayscale Investment(2013年にDigitalCurrencyGroupによって設立された)で利用可能なさまざまなCrypto Asset Trust Fundsを管理し、機関投資家と順応の高い個人を提供する投資チャネルを提供します。その主な資金には、ZCASH(ZEC)、SOL、

毎週の観察:ビットコインを蓄えている企業 - 醸造の変化毎週のメモの見落とされがちな市場動向をよく指摘します。 MicroStrategyの動きは厳しい例です。多くの人は、「マイクロストラテジーとマイケルセイリャーはすでによく知られていますが、これは真実ですが、多くの投資家はそれを特別なケースと見なし、その背後にあるより深い市場の力を無視しています。このビューは片側です。ここ数ヶ月の予備資産としてのビットコインの採用に関する詳細な研究は、これが孤立したケースではなく、出現している主要な傾向であることを示しています。今後12〜18か月で、何百もの企業が訴訟を起こし、大量のビットコインを購入すると予測しています

上海ジョトン大学、上海アイラブ、および香港中国大学の研究者は、Visual Language Big Model(LVLM)のパフォーマンスを大幅に改善するために少量のデータのみを必要とする視覚RFT(視覚エンハンスメントファインチューニング)オープンソースプロジェクトを開始しました。 Visual-RFTは、DeepSeek-R1のルールベースの強化学習アプローチとOpenAIの強化微調整(RFT)パラダイムを巧みに組み合わせて、このアプローチをテキストフィールドから視野に拡張しました。視覚的サブカテゴリ化やオブジェクト検出などのタスクの対応するルール報酬を設計することにより、Visual-RFTは、テキスト、数学的推論、その他のフィールドに限定されているDeepSeek-R1メソッドの制限を克服し、LVLMトレーニングの新しい方法を提供します。 Vis

大企業または有名なオープンソースプロジェクトによって開発されたGOのどのライブラリが開発されていますか? GOでプログラミングするとき、開発者はしばしばいくつかの一般的なニーズに遭遇します...

質問の説明:海外バージョンの配送地域データを取得する方法は?既製のリソースはありますか?国境を越えた電子商取引またはグローバル化ビジネスで正確に入手してください...

Binance LaunchPool詳細分析:高利回りの採掘ガイドとバイオプロジェクトの詳細な説明は、Binance LaunchPoolの詳細な議論を行い、その利回りを分析し、参加方法を詳細に説明し、最新のプロジェクトBio Coin(BIOL)の導入に焦点を当てます。世界最大の暗号通貨交換として、BinanceはLaunchPoolで高品質のプロジェクトを選択し、投資家に新しい鉱業と新しいトークンを取得する機会を提供しました。 Binance LaunchPoolとは何ですか? Binance LaunchPoolは、指定された通貨を誓約することで、新しいトークンを無料で獲得するプラットフォームです。これは、株式市場の新しい株式サブスクリプションに似ていますが、参加者は少なくなり、競争が少なくなり、少額の投資も高い収益を得ることができます。

GiteEpages静的Webサイトの展開が失敗しました:404エラーのトラブルシューティングと解像度Giteeを使用する
