NeurIPS 2022 | 新しいオープンドメイン検出手法である DetCLIP により推論効率が 20 倍向上-AI-php.cn

カテゴリ名詞をつなぎ合わせて検出データを接地形式 (シリアル) に変換する GLIP と比較して、抽出データを使用します。グラウンディングデータ内の対応する名詞フレーズと検出内のカテゴリを独立した入力としてテキストエンコーダーに (並行して) 入力することで、不必要な注意計算を回避し、より高いトレーニング効率を実現します。

オブジェクト知識ライブラリ

ホームページ

テクノロジー周辺機器

NeurIPS 2022 | 新しいオープンドメイン検出手法である DetCLIP により推論効率が 20 倍向上

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 12, 2023 pm 10:16 PM

データ検出

オープンドメイン検出問題とは、インターネットからクロールされた多数の画像とテキストのペア、またはトレーニング用に手動で注釈が付けられた特定のカテゴリのデータを使用して、下流のシナリオでカテゴリ検出を実装する方法の問題を指します。上流で。業界におけるオープンドメイン検出手法のアプリケーションには、主に自動運転システムにおける路上物体検出、クラウドのフルシーン検出などが含まれます。

NeurIPS 2022 | 新しいオープンドメイン検出手法である DetCLIP により推論効率が 20 倍向上

文書アドレス: https://arxiv.org/abs/2209.09407

この記事は、NeurIPS 2022 で選ばれた論文「DetCLIP: Dictionary-Enriched Visual-Concept Paralleled Pre-training for Open-world Detection」を共有しています。この論文では、オープンドメイン検出問題に対する複数のデータソースの統合的で効率的な方法を提案しています。カテゴリ間の暗黙的な関係を提供する追加の知識ベースを構築しながら、並行トレーニングフレームワークを実行します。同時に、DetCLIP は、Microsoft が主催する ECCV2022 OdinW (Object Detection in the Wild[1]) コンペティションにおいて、平均検出指数 24.9% を記録し、ゼロショット検出トラックで 1 位を獲得しました。

問題の導入

インターネットからクロールされた画像とテキストのペアに基づいてトレーニングされるマルチモーダル事前トレーニングモデル (CLIP など) の人気により、ゼロショットでの使用は分類の分野で優れたパフォーマンスを実証しており、この機能をオープンドメインの高密度予測 (任意のカテゴリ検出、セグメンテーションなど) に移行しようとする手法がますます増えています。既存の手法では、多くの場合、特徴レベルの抽出に事前トレーニング済みの大分類モデルを使用するか [1]、擬似ラベル付けキャプションと自己トレーニングによって学習します [2] が、これは多くの場合、大分類モデルのパフォーマンスによって制限されます。キャプションの注釈。

既存の SOTA オープンドメイン検出モデル GLIP[3] は、その利点を最大限に活用して、検出データの形式をグラウンディングデータの形式に変換することにより、複数のデータソースの共同学習を実行します。 (検出データセットには一般的なカテゴリに対して比較的完全な注釈が付いていますが、グラウンディングデータセットにはより広い範囲のカテゴリカバー間隔があります)。ただし、カテゴリ名詞を連結する方法はモデルの全体的な学習効率の低下につながり、カテゴリ単語をテキスト入力として直接使用すると、カテゴリ間の粒度の細かいアプリオリな関係を提供できないことがわかりました。

NeurIPS 2022 | 新しいオープンドメイン検出手法である DetCLIP により推論効率が 20 倍向上

#図 1: 複数のデータソースが共同で事前トレーニングされたオープンドメイン検出モデルパイプラインモデルフレームワーク

下の図に示すように、ATSS[4] 1 段階検出モデルに基づいて、DetCLIP には画像エンコーダーが含まれています

検出ボックスの画像特徴を取得するにはおよびテキストエンコーダテキストを取得するにはカテゴリの特徴。次に、上記の画像特徴とテキスト特徴に基づいて、対応する分類アライメント損失 #、中心点損失 #、および回帰損失が計算されます。

NeurIPS 2022 | 新しいオープンドメイン検出手法である DetCLIP により推論効率が 20 倍向上

図 2: DetCLIP モデルフレームワーク図 2 の右上と左上に示すように、この記事の主な革新は、1) トレーニング効率を最適化するために並列入力を使用して、複数のデータソースからのオブジェクトとテキストを共同トレーニングするためのフレームワークを提案すること、2) 追加のオブジェクトを構築することです。オープンドメインの検出トレーニングを支援するナレッジベース。

複数のデータソースの並列入力事前トレーニングフレームワーク

カテゴリ名詞をつなぎ合わせて検出データを接地形式 (シリアル) に変換する GLIP と比較して、抽出データを使用します。グラウンディングデータ内の対応する名詞フレーズと検出内のカテゴリを独立した入力としてテキストエンコーダーに (並行して) 入力することで、不必要な注意計算を回避し、より高いトレーニング効率を実現します。

NeurIPS 2022 | 新しいオープンドメイン検出手法である DetCLIP により推論効率が 20 倍向上

図 3: DetCLIP 並列入力事前トレーニングフレームワークと GLIP の比較

オブジェクト知識ライブラリ

異なるデータソースにおける不均一なカテゴリ空間の問題(同じカテゴリ名が異なる、またはカテゴリに含まれる内容など)を解決し、先験的な情報を提供するためカテゴリ間の関係については、より効率的なトレーニングを実現するためにオブジェクト知識ベースを構築しました。

構築: 検出データのカテゴリ、画像とテキストのペアの名詞句、および対応する定義を包括的に統合することにより、オブジェクト知識ベースを同時に構築します。

使用法: 1. オブジェクト知識ベースの定義を使用して、既存の検出データ内のカテゴリ単語を拡張し、カテゴリ間の関係に関する事前情報を提供します (概念強化)。

NeurIPS 2022 | 新しいオープンドメイン検出手法である DetCLIP により推論効率が 20 倍向上

#図 4: オブジェクトナレッジベースを使用してカテゴリ単語の定義を拡張する例

2. グラウンディングデータと画像キャプションデータのキャプションアノテーションが不完全であるため (画像に表示されるカテゴリがキャプションに表示されない)、これらの画像はネガティブとして使用できます。カテゴリの数が非常に少ないため、一部の一般的ではないカテゴリについてモデルを区別しにくくなります。したがって、オブジェクト知識ベースからオブジェクト名詞をネガティブサンプルカテゴリとしてランダムに選択し、まれなカテゴリの特徴 (ネガティブサンプル) のモデルの識別を向上させます。

NeurIPS 2022 | 新しいオープンドメイン検出手法である DetCLIP により推論効率が 20 倍向上

#図 5: オブジェクトナレッジベース内のカテゴリをネガティブサンプルカテゴリとして導入

#3. フレーム注釈のない画像とテキストのペアのデータについては、Huawei Noah が自社開発した大規模モデル FILIP [5] と事前トレーニングされた RPN を使用して注釈を付け、変換できるようにします。通常の接地データに基づきます。同時に、キャプション内の画像内のオブジェクトの注釈が不完全である問題を軽減するために、オブジェクト知識ベース内のすべてのカテゴリフレーズを疑似ラベル付けの候補カテゴリとして使用し (2 行目)、カテゴリのみを使用します。キャプション (最初の行) の注釈効果。行) 比較は次のとおりです:

NeurIPS 2022 | 新しいオープンドメイン検出手法である DetCLIP により推論効率が 20 倍向上

図 6: カテゴリの紹介実験結果

提案手法のオープンドメイン検出性能を、ダウンストリーム LVIS 検出データセット (1203 クラス) からわかるように、swin-t バックボーンベースのアーキテクチャに基づいて、DetCLIP は既存の SOTA モデル GLIP と比較して 9.9% の AP 向上を達成し、Rare モデルでは 12.4% の AP 向上を達成しました。ただし、GLIP データ量の半分未満しか使用しませんが、トレーニングセットには LVIS の画像が含まれていないことに注意してください。

NeurIPS 2022 | 新しいオープンドメイン検出手法である DetCLIP により推論効率が 20 倍向上

#表 1: LVIS でのさまざまな方式のゼロショット転送パフォーマンスの比較 ##トレーニング効率の観点から、32 台の V100 の同じハードウェア条件に基づくと、GLIP-T のトレーニング時間は DetCLIP-T の 5 倍です (10.7K GPU 時間対 2.0K GPU 時間) GPU 時間)。テスト効率の点では、単一の V100 に基づくと、DetCLIP-T の推論効率 2.3 FPS (画像あたり 0.4 秒) は、GLIP-T の 0.12 FPS (画像あたり 8.6 秒) の 20 倍です。また、DetCLIP の主要なイノベーション (並列フレームワークとオブジェクト知識ベース) が精度に与える影響についても個別に調査しました。

NeurIPS 2022 | 新しいオープンドメイン検出手法である DetCLIP により推論効率が 20 倍向上

#表 3: LVIS データセットでの DetCLIP アブレーション研究結果

可視化結果

以下の図に示すように、同じ swin-t バックボーンに基づいて、LVIS データセットの視覚化効果は、特にレアなカテゴリの注釈と完全性において、GLIP と比較して大幅に向上しました。注釈の。

NeurIPS 2022 | 新しいオープンドメイン検出手法である DetCLIP により推論効率が 20 倍向上

図 7: LVIS データセットに対する DetCLIP と GLIP の予測結果の視覚的な比較

以上がNeurIPS 2022 | 新しいオープンドメイン検出手法である DetCLIP により推論効率が 20 倍向上の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Java チュートリアル

1677

CakePHP チュートリアル

1430

Laravel チュートリアル

1333

PHP チュートリアル

1278

C# チュートリアル

1257

Related knowledge

ddrescue を使用して Linux 上のデータを回復する Mar 20, 2024 pm 01:37 PM

DDREASE は、ハードドライブ、SSD、RAM ディスク、CD、DVD、USB ストレージデバイスなどのファイルデバイスまたはブロックデバイスからデータを回復するためのツールです。あるブロックデバイスから別のブロックデバイスにデータをコピーし、破損したデータブロックを残して正常なデータブロックのみを移動します。 ddreasue は、回復操作中に干渉を必要としないため、完全に自動化された強力な回復ツールです。さらに、ddasue マップファイルのおかげでいつでも停止および再開できます。 DDREASE のその他の主要な機能は次のとおりです。リカバリされたデータは上書きされませんが、反復リカバリの場合にギャップが埋められます。ただし、ツールに明示的に指示されている場合は切り詰めることができます。複数のファイルまたはブロックから単一のファイルにデータを復元します

オープンソース！ゾーイデプスを超えて！ DepthFM: 高速かつ正確な単眼深度推定! Apr 03, 2024 pm 12:04 PM

0.この記事は何をするのですか?私たちは、多用途かつ高速な最先端の生成単眼深度推定モデルである DepthFM を提案します。従来の深度推定タスクに加えて、DepthFM は深度修復などの下流タスクでも最先端の機能を実証します。 DepthFM は効率的で、いくつかの推論ステップ内で深度マップを合成できます。この作品について一緒に読みましょう〜 1. 論文情報タイトル: DepthFM: FastMonocularDepthEstimationwithFlowMatching 著者: MingGui、JohannesS.Fischer、UlrichPrestel、PingchuanMa、Dmytr

Excelのフィルター機能を複数条件で使う方法 Feb 26, 2024 am 10:19 AM

Excel で複数の条件によるフィルタリングを使用する方法を知る必要がある場合は、次のチュートリアルで、データを効果的にフィルタリングおよび並べ替えできるようにするための手順を説明します。 Excel のフィルタリング機能は非常に強力で、大量のデータから必要な情報を抽出するのに役立ちます。設定した条件でデータを絞り込み、条件に合致した部分のみを表示することができ、データ管理を効率化できます。フィルター機能を利用すると、目的のデータを素早く見つけることができ、データの検索や整理の時間を節約できます。この機能は、単純なデータリストに適用できるだけでなく、複数の条件に基づいてフィルタリングすることもできるため、必要な情報をより正確に見つけることができます。全体として、Excel のフィルタリング機能は非常に実用的です。

Google は大喜び: JAX のパフォーマンスが Pytorch や TensorFlow を上回りました! GPU 推論トレーニングの最速の選択肢となる可能性があります Apr 01, 2024 pm 07:46 PM

Google が推進する JAX のパフォーマンスは、最近のベンチマークテストで Pytorch や TensorFlow のパフォーマンスを上回り、7 つの指標で 1 位にランクされました。また、テストは最高の JAX パフォーマンスを備えた TPU では行われませんでした。ただし、開発者の間では、依然として Tensorflow よりも Pytorch の方が人気があります。しかし、将来的には、おそらくより大規模なモデルが JAX プラットフォームに基づいてトレーニングされ、実行されるようになるでしょう。モデル最近、Keras チームは、ネイティブ PyTorch 実装を使用して 3 つのバックエンド (TensorFlow、JAX、PyTorch) をベンチマークし、TensorFlow を使用して Keras2 をベンチマークしました。まず、主流のセットを選択します

iPhoneのセルラーデータインターネット速度が遅い：修正 May 03, 2024 pm 09:01 PM

iPhone のモバイルデータ接続に遅延や遅い問題が発生していませんか?通常、携帯電話の携帯インターネットの強度は、地域、携帯ネットワークの種類、ローミングの種類などのいくつかの要因によって異なります。より高速で信頼性の高いセルラーインターネット接続を実現するためにできることがいくつかあります。解決策 1 – iPhone を強制的に再起動する場合によっては、デバイスを強制的に再起動すると、携帯電話接続を含む多くの機能がリセットされるだけです。ステップ 1 – 音量を上げるキーを 1 回押して放します。次に、音量小キーを押して、もう一度放します。ステップ 2 – プロセスの次の部分は、右側のボタンを押し続けることです。 iPhone の再起動が完了するまで待ちます。セルラーデータを有効にし、ネットワーク速度を確認します。もう一度確認してください修正 2 – データモードを変更する 5G はより優れたネットワーク速度を提供しますが、信号が弱い場合はより適切に機能します

テスラのロボットは工場で働く、マスク氏：手の自由度は今年22に達する！ May 06, 2024 pm 04:13 PM

テスラのロボット「オプティマス」の最新映像が公開され、すでに工場内で稼働可能となっている。通常の速度では、バッテリー（テスラの4680バッテリー）を次のように分類します：公式は、20倍の速度でどのように見えるかも公開しました - 小さな「ワークステーション」上で、ピッキング、ピッキング、ピッキング：今回は、それがリリースされたハイライトの1つビデオの内容は、オプティマスが工場内でこの作業を完全に自律的に行い、プロセス全体を通じて人間の介入なしに完了するというものです。そして、オプティマスの観点から見ると、自動エラー修正に重点を置いて、曲がったバッテリーを拾い上げたり配置したりすることもできます。オプティマスのハンドについては、NVIDIA の科学者ジムファン氏が高く評価しました。オプティマスのハンドは、世界の 5 本指ロボットの 1 つです。最も器用。その手は触覚だけではありません

超知性の生命力が覚醒する！しかし、自己更新 AI の登場により、母親はデータのボトルネックを心配する必要がなくなりました。 Apr 29, 2024 pm 06:55 PM

世界は狂ったように大きなモデルを構築していますが、インターネット上のデータだけではまったく不十分です。このトレーニングモデルは「ハンガーゲーム」のようであり、世界中の AI 研究者は、データを貪欲に食べる人たちにどのように餌を与えるかを心配しています。この問題は、マルチモーダルタスクで特に顕著です。何もできなかった当時、中国人民大学学部のスタートアップチームは、独自の新しいモデルを使用して、中国で初めて「モデル生成データフィード自体」を実現しました。さらに、これは理解側と生成側の 2 つの側面からのアプローチであり、両方の側で高品質のマルチモーダルな新しいデータを生成し、モデル自体にデータのフィードバックを提供できます。モデルとは何ですか? Awaker 1.0 は、中関村フォーラムに登場したばかりの大型マルチモーダルモデルです。チームは誰ですか?ソフォンエンジン。人民大学ヒルハウス人工知能大学院の博士課程学生、ガオ・イージャオ氏によって設立されました。

Alibaba 7B マルチモーダル文書理解の大規模モデルが新しい SOTA を獲得 Apr 02, 2024 am 11:31 AM

マルチモーダル文書理解機能のための新しい SOTA!アリババの mPLUG チームは、最新のオープンソース作品 mPLUG-DocOwl1.5 をリリースしました。これは、高解像度の画像テキスト認識、一般的な文書構造の理解、指示の遵守、外部知識の導入という 4 つの主要な課題に対処するための一連のソリューションを提案しています。さっそく、その効果を見てみましょう。複雑な構造のグラフをワンクリックで認識しMarkdown形式に変換：さまざまなスタイルのグラフが利用可能：より詳細な文字認識や位置決めも簡単に対応：文書理解の詳しい説明も可能：ご存知「文書理解」「」は現在、大規模な言語モデルの実装にとって重要なシナリオです。市場には文書の読み取りを支援する多くの製品が存在します。その中には、主にテキスト認識に OCR システムを使用し、テキスト処理に LLM と連携する製品もあります。

See all articles

NeurIPS 2022 | 新しいオープンドメイン検出手法である DetCLIP により推論効率が 20 倍向上

オブジェクト知識ライブラリ

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック