NeurIPS 2022 | 新しいオープンドメイン検出手法である DetCLIP により推論効率が 20 倍向上
オープン ドメイン検出問題とは、インターネットからクロールされた多数の画像とテキストのペア、またはトレーニング用に手動で注釈が付けられた特定のカテゴリのデータを使用して、下流のシナリオでカテゴリ検出を実装する方法の問題を指します。上流で。業界におけるオープンドメイン検出手法のアプリケーションには、主に自動運転システムにおける路上物体検出、クラウドのフルシーン検出などが含まれます。
文書アドレス: https://arxiv.org/abs/2209.09407
この記事は、NeurIPS 2022 で選ばれた論文「DetCLIP: Dictionary-Enriched Visual-Concept Paralleled Pre-training for Open-world Detection」を共有しています。この論文では、オープン ドメイン検出問題に対する複数のデータ ソースの統合的で効率的な方法を提案しています。カテゴリ間の暗黙的な関係を提供する追加の知識ベースを構築しながら、並行トレーニング フレームワークを実行します。同時に、DetCLIP は、Microsoft が主催する ECCV2022 OdinW (Object Detection in the Wild[1]) コンペティションにおいて、平均検出指数 24.9% を記録し、ゼロショット検出トラックで 1 位を獲得しました。
問題の導入インターネットからクロールされた画像とテキストのペアに基づいてトレーニングされるマルチモーダル事前トレーニング モデル (CLIP など) の人気により、ゼロショットでの使用は分類の分野で優れたパフォーマンスを実証しており、この機能をオープンドメインの高密度予測 (任意のカテゴリ検出、セグメンテーションなど) に移行しようとする手法がますます増えています。既存の手法では、多くの場合、特徴レベルの抽出に事前トレーニング済みの大分類モデルを使用するか [1]、擬似ラベル付けキャプションと自己トレーニングによって学習します [2] が、これは多くの場合、大分類モデルのパフォーマンスによって制限されます。キャプションの注釈。
既存の SOTA オープンドメイン検出モデル GLIP[3] は、その利点を最大限に活用して、検出データの形式をグラウンディング データの形式に変換することにより、複数のデータ ソースの共同学習を実行します。 (検出データ セットには一般的なカテゴリに対して比較的完全な注釈が付いていますが、グラウンディング データ セットにはより広い範囲のカテゴリ カバー間隔があります)。ただし、カテゴリ名詞を連結する方法はモデルの全体的な学習効率の低下につながり、カテゴリ単語をテキスト入力として直接使用すると、カテゴリ間の粒度の細かいアプリオリな関係を提供できないことがわかりました。
#図 1: 複数のデータ ソースが共同で事前トレーニングされたオープン ドメイン検出モデル パイプライン モデル フレームワーク
下の図に示すように、ATSS[4] 1 段階検出モデルに基づいて、DetCLIP には画像エンコーダーが含まれています検出ボックスの画像特徴を取得するには およびテキスト エンコーダ テキストを取得するにはカテゴリ の特徴。次に、上記の画像特徴とテキスト特徴に基づいて、対応する分類アライメント損失 #、中心点損失 #、および回帰損失 が計算されます。
図 2: DetCLIP モデル フレームワーク図 2 の右上と左上に示すように、この記事の主な革新は、1) トレーニング効率を最適化するために並列入力を使用して、複数のデータ ソースからのオブジェクトとテキストを共同トレーニングするためのフレームワークを提案すること、2) 追加のオブジェクトを構築することです。オープン ドメインの検出トレーニングを支援するナレッジ ベース。
複数のデータソースの並列入力事前トレーニング フレームワーク
カテゴリ名詞をつなぎ合わせて検出データを接地形式 (シリアル) に変換する GLIP と比較して、抽出データを使用します。グラウンディング データ内の対応する名詞フレーズと検出内のカテゴリを独立した入力としてテキスト エンコーダーに (並行して) 入力することで、不必要な注意計算を回避し、より高いトレーニング効率を実現します。
図 3: DetCLIP 並列入力事前トレーニング フレームワークと GLIP の比較
オブジェクト知識ライブラリ
異なるデータソースにおける不均一なカテゴリ空間の問題(同じカテゴリ名が異なる、またはカテゴリに含まれる内容など)を解決し、先験的な情報を提供するためカテゴリ間の関係については、より効率的なトレーニングを実現するためにオブジェクト知識ベースを構築しました。
構築: 検出データのカテゴリ、画像とテキストのペアの名詞句、および対応する定義を包括的に統合することにより、オブジェクト知識ベースを同時に構築します。
使用法: 1. オブジェクト知識ベースの定義を使用して、既存の検出データ内のカテゴリ単語を拡張し、カテゴリ間の関係に関する事前情報を提供します (概念強化)。
#図 4: オブジェクト ナレッジ ベースを使用してカテゴリ単語の定義を拡張する例
2. グラウンディング データと画像キャプション データのキャプション アノテーションが不完全であるため (画像に表示されるカテゴリがキャプションに表示されない)、これらの画像はネガティブとして使用できます。カテゴリの数が非常に少ないため、一部の一般的ではないカテゴリについてモデルを区別しにくくなります。したがって、オブジェクト知識ベースからオブジェクト名詞をネガティブ サンプル カテゴリとしてランダムに選択し、まれなカテゴリの特徴 (ネガティブ サンプル) のモデルの識別を向上させます。
#図 5: オブジェクト ナレッジ ベース内のカテゴリをネガティブ サンプル カテゴリとして導入
#3. フレーム注釈のない画像とテキストのペアのデータについては、Huawei Noah が自社開発した大規模モデル FILIP [5] と事前トレーニングされた RPN を使用して注釈を付け、変換できるようにします。通常の接地データに基づきます。同時に、キャプション内の画像内のオブジェクトの注釈が不完全である問題を軽減するために、オブジェクト知識ベース内のすべてのカテゴリフレーズを疑似ラベル付けの候補カテゴリとして使用し (2 行目)、カテゴリのみを使用します。キャプション (最初の行) の注釈効果。行) 比較は次のとおりです:
図 6: カテゴリの紹介実験結果
提案手法のオープンドメイン検出性能を、ダウンストリーム LVIS 検出データセット (1203 クラス) からわかるように、swin-t バックボーンベースのアーキテクチャに基づいて、DetCLIP は既存の SOTA モデル GLIP と比較して 9.9% の AP 向上を達成し、Rare モデルでは 12.4% の AP 向上を達成しました。ただし、GLIP データ量の半分未満しか使用しませんが、トレーニング セットには LVIS の画像が含まれていないことに注意してください。
#表 1: LVIS でのさまざまな方式のゼロショット転送パフォーマンスの比較 ##トレーニング効率の観点から、32 台の V100 の同じハードウェア条件に基づくと、GLIP-T のトレーニング時間は DetCLIP-T の 5 倍です (10.7K GPU 時間対 2.0K GPU 時間) GPU 時間)。テスト効率の点では、単一の V100 に基づくと、DetCLIP-T の推論効率 2.3 FPS (画像あたり 0.4 秒) は、GLIP-T の 0.12 FPS (画像あたり 8.6 秒) の 20 倍です。また、DetCLIP の主要なイノベーション (並列フレームワークとオブジェクト知識ベース) が精度に与える影響についても個別に調査しました。
#表 3: LVIS データセットでの DetCLIP アブレーション研究結果
可視化結果以下の図に示すように、同じ swin-t バックボーンに基づいて、LVIS データセットの視覚化効果は、特にレアなカテゴリの注釈と完全性において、GLIP と比較して大幅に向上しました。注釈の。
図 7: LVIS データセットに対する DetCLIP と GLIP の予測結果の視覚的な比較
以上がNeurIPS 2022 | 新しいオープンドメイン検出手法である DetCLIP により推論効率が 20 倍向上の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











DDREASE は、ハード ドライブ、SSD、RAM ディスク、CD、DVD、USB ストレージ デバイスなどのファイル デバイスまたはブロック デバイスからデータを回復するためのツールです。あるブロック デバイスから別のブロック デバイスにデータをコピーし、破損したデータ ブロックを残して正常なデータ ブロックのみを移動します。 ddreasue は、回復操作中に干渉を必要としないため、完全に自動化された強力な回復ツールです。さらに、ddasue マップ ファイルのおかげでいつでも停止および再開できます。 DDREASE のその他の主要な機能は次のとおりです。 リカバリされたデータは上書きされませんが、反復リカバリの場合にギャップが埋められます。ただし、ツールに明示的に指示されている場合は切り詰めることができます。複数のファイルまたはブロックから単一のファイルにデータを復元します

0.この記事は何をするのですか?私たちは、多用途かつ高速な最先端の生成単眼深度推定モデルである DepthFM を提案します。従来の深度推定タスクに加えて、DepthFM は深度修復などの下流タスクでも最先端の機能を実証します。 DepthFM は効率的で、いくつかの推論ステップ内で深度マップを合成できます。この作品について一緒に読みましょう〜 1. 論文情報タイトル: DepthFM: FastMonocularDepthEstimationwithFlowMatching 著者: MingGui、JohannesS.Fischer、UlrichPrestel、PingchuanMa、Dmytr

Excel で複数の条件によるフィルタリングを使用する方法を知る必要がある場合は、次のチュートリアルで、データを効果的にフィルタリングおよび並べ替えできるようにするための手順を説明します。 Excel のフィルタリング機能は非常に強力で、大量のデータから必要な情報を抽出するのに役立ちます。設定した条件でデータを絞り込み、条件に合致した部分のみを表示することができ、データ管理を効率化できます。フィルター機能を利用すると、目的のデータを素早く見つけることができ、データの検索や整理の時間を節約できます。この機能は、単純なデータ リストに適用できるだけでなく、複数の条件に基づいてフィルタリングすることもできるため、必要な情報をより正確に見つけることができます。全体として、Excel のフィルタリング機能は非常に実用的です。

Google が推進する JAX のパフォーマンスは、最近のベンチマーク テストで Pytorch や TensorFlow のパフォーマンスを上回り、7 つの指標で 1 位にランクされました。また、テストは最高の JAX パフォーマンスを備えた TPU では行われませんでした。ただし、開発者の間では、依然として Tensorflow よりも Pytorch の方が人気があります。しかし、将来的には、おそらくより大規模なモデルが JAX プラットフォームに基づいてトレーニングされ、実行されるようになるでしょう。モデル 最近、Keras チームは、ネイティブ PyTorch 実装を使用して 3 つのバックエンド (TensorFlow、JAX、PyTorch) をベンチマークし、TensorFlow を使用して Keras2 をベンチマークしました。まず、主流のセットを選択します

iPhone のモバイル データ接続に遅延や遅い問題が発生していませんか?通常、携帯電話の携帯インターネットの強度は、地域、携帯ネットワークの種類、ローミングの種類などのいくつかの要因によって異なります。より高速で信頼性の高いセルラー インターネット接続を実現するためにできることがいくつかあります。解決策 1 – iPhone を強制的に再起動する 場合によっては、デバイスを強制的に再起動すると、携帯電話接続を含む多くの機能がリセットされるだけです。ステップ 1 – 音量を上げるキーを 1 回押して放します。次に、音量小キーを押して、もう一度放します。ステップ 2 – プロセスの次の部分は、右側のボタンを押し続けることです。 iPhone の再起動が完了するまで待ちます。セルラーデータを有効にし、ネットワーク速度を確認します。もう一度確認してください 修正 2 – データ モードを変更する 5G はより優れたネットワーク速度を提供しますが、信号が弱い場合はより適切に機能します

テスラのロボット「オプティマス」の最新映像が公開され、すでに工場内で稼働可能となっている。通常の速度では、バッテリー(テスラの4680バッテリー)を次のように分類します:公式は、20倍の速度でどのように見えるかも公開しました - 小さな「ワークステーション」上で、ピッキング、ピッキング、ピッキング:今回は、それがリリースされたハイライトの1つビデオの内容は、オプティマスが工場内でこの作業を完全に自律的に行い、プロセス全体を通じて人間の介入なしに完了するというものです。そして、オプティマスの観点から見ると、自動エラー修正に重点を置いて、曲がったバッテリーを拾い上げたり配置したりすることもできます。オプティマスのハンドについては、NVIDIA の科学者ジム ファン氏が高く評価しました。オプティマスのハンドは、世界の 5 本指ロボットの 1 つです。最も器用。その手は触覚だけではありません

世界は狂ったように大きなモデルを構築していますが、インターネット上のデータだけではまったく不十分です。このトレーニング モデルは「ハンガー ゲーム」のようであり、世界中の AI 研究者は、データを貪欲に食べる人たちにどのように餌を与えるかを心配しています。この問題は、マルチモーダル タスクで特に顕著です。何もできなかった当時、中国人民大学学部のスタートアップチームは、独自の新しいモデルを使用して、中国で初めて「モデル生成データフィード自体」を実現しました。さらに、これは理解側と生成側の 2 つの側面からのアプローチであり、両方の側で高品質のマルチモーダルな新しいデータを生成し、モデル自体にデータのフィードバックを提供できます。モデルとは何ですか? Awaker 1.0 は、中関村フォーラムに登場したばかりの大型マルチモーダル モデルです。チームは誰ですか?ソフォンエンジン。人民大学ヒルハウス人工知能大学院の博士課程学生、ガオ・イージャオ氏によって設立されました。

マルチモーダル文書理解機能のための新しい SOTA!アリババの mPLUG チームは、最新のオープンソース作品 mPLUG-DocOwl1.5 をリリースしました。これは、高解像度の画像テキスト認識、一般的な文書構造の理解、指示の遵守、外部知識の導入という 4 つの主要な課題に対処するための一連のソリューションを提案しています。さっそく、その効果を見てみましょう。複雑な構造のグラフをワンクリックで認識しMarkdown形式に変換:さまざまなスタイルのグラフが利用可能:より詳細な文字認識や位置決めも簡単に対応:文書理解の詳しい説明も可能:ご存知「文書理解」 「」は現在、大規模な言語モデルの実装にとって重要なシナリオです。市場には文書の読み取りを支援する多くの製品が存在します。その中には、主にテキスト認識に OCR システムを使用し、テキスト処理に LLM と連携する製品もあります。
