NeurIPS 2022 | 新しいオープンドメイン検出手法である DetCLIP により推論効率が 20 倍向上
オープン ドメイン検出問題とは、インターネットからクロールされた多数の画像とテキストのペア、またはトレーニング用に手動で注釈が付けられた特定のカテゴリのデータを使用して、下流のシナリオでカテゴリ検出を実装する方法の問題を指します。上流で。業界におけるオープンドメイン検出手法のアプリケーションには、主に自動運転システムにおける路上物体検出、クラウドのフルシーン検出などが含まれます。
文書アドレス: https://arxiv.org/abs/2209.09407
この記事は、NeurIPS 2022 で選ばれた論文「DetCLIP: Dictionary-Enriched Visual-Concept Paralleled Pre-training for Open-world Detection」を共有しています。この論文では、オープン ドメイン検出問題に対する複数のデータ ソースの統合的で効率的な方法を提案しています。カテゴリ間の暗黙的な関係を提供する追加の知識ベースを構築しながら、並行トレーニング フレームワークを実行します。同時に、DetCLIP は、Microsoft が主催する ECCV2022 OdinW (Object Detection in the Wild[1]) コンペティションにおいて、平均検出指数 24.9% を記録し、ゼロショット検出トラックで 1 位を獲得しました。
問題の導入インターネットからクロールされた画像とテキストのペアに基づいてトレーニングされるマルチモーダル事前トレーニング モデル (CLIP など) の人気により、ゼロショットでの使用は分類の分野で優れたパフォーマンスを実証しており、この機能をオープンドメインの高密度予測 (任意のカテゴリ検出、セグメンテーションなど) に移行しようとする手法がますます増えています。既存の手法では、多くの場合、特徴レベルの抽出に事前トレーニング済みの大分類モデルを使用するか [1]、擬似ラベル付けキャプションと自己トレーニングによって学習します [2] が、これは多くの場合、大分類モデルのパフォーマンスによって制限されます。キャプションの注釈。
既存の SOTA オープンドメイン検出モデル GLIP[3] は、その利点を最大限に活用して、検出データの形式をグラウンディング データの形式に変換することにより、複数のデータ ソースの共同学習を実行します。 (検出データ セットには一般的なカテゴリに対して比較的完全な注釈が付いていますが、グラウンディング データ セットにはより広い範囲のカテゴリ カバー間隔があります)。ただし、カテゴリ名詞を連結する方法はモデルの全体的な学習効率の低下につながり、カテゴリ単語をテキスト入力として直接使用すると、カテゴリ間の粒度の細かいアプリオリな関係を提供できないことがわかりました。
#図 1: 複数のデータ ソースが共同で事前トレーニングされたオープン ドメイン検出モデル パイプライン モデル フレームワーク
下の図に示すように、ATSS[4] 1 段階検出モデルに基づいて、DetCLIP には画像エンコーダーが含まれています検出ボックスの画像特徴を取得するには およびテキスト エンコーダ テキストを取得するにはカテゴリ の特徴。次に、上記の画像特徴とテキスト特徴に基づいて、対応する分類アライメント損失 #、中心点損失 #、および回帰損失 が計算されます。
図 2: DetCLIP モデル フレームワーク図 2 の右上と左上に示すように、この記事の主な革新は、1) トレーニング効率を最適化するために並列入力を使用して、複数のデータ ソースからのオブジェクトとテキストを共同トレーニングするためのフレームワークを提案すること、2) 追加のオブジェクトを構築することです。オープン ドメインの検出トレーニングを支援するナレッジ ベース。
複数のデータソースの並列入力事前トレーニング フレームワーク
カテゴリ名詞をつなぎ合わせて検出データを接地形式 (シリアル) に変換する GLIP と比較して、抽出データを使用します。グラウンディング データ内の対応する名詞フレーズと検出内のカテゴリを独立した入力としてテキスト エンコーダーに (並行して) 入力することで、不必要な注意計算を回避し、より高いトレーニング効率を実現します。
図 3: DetCLIP 並列入力事前トレーニング フレームワークと GLIP の比較
オブジェクト知識ライブラリ
異なるデータソースにおける不均一なカテゴリ空間の問題(同じカテゴリ名が異なる、またはカテゴリに含まれる内容など)を解決し、先験的な情報を提供するためカテゴリ間の関係については、より効率的なトレーニングを実現するためにオブジェクト知識ベースを構築しました。
構築: 検出データのカテゴリ、画像とテキストのペアの名詞句、および対応する定義を包括的に統合することにより、オブジェクト知識ベースを同時に構築します。
使用法: 1. オブジェクト知識ベースの定義を使用して、既存の検出データ内のカテゴリ単語を拡張し、カテゴリ間の関係に関する事前情報を提供します (概念強化)。
#図 4: オブジェクト ナレッジ ベースを使用してカテゴリ単語の定義を拡張する例
2. グラウンディング データと画像キャプション データのキャプション アノテーションが不完全であるため (画像に表示されるカテゴリがキャプションに表示されない)、これらの画像はネガティブとして使用できます。カテゴリの数が非常に少ないため、一部の一般的ではないカテゴリについてモデルを区別しにくくなります。したがって、オブジェクト知識ベースからオブジェクト名詞をネガティブ サンプル カテゴリとしてランダムに選択し、まれなカテゴリの特徴 (ネガティブ サンプル) のモデルの識別を向上させます。
#図 5: オブジェクト ナレッジ ベース内のカテゴリをネガティブ サンプル カテゴリとして導入
#3. フレーム注釈のない画像とテキストのペアのデータについては、Huawei Noah が自社開発した大規模モデル FILIP [5] と事前トレーニングされた RPN を使用して注釈を付け、変換できるようにします。通常の接地データに基づきます。同時に、キャプション内の画像内のオブジェクトの注釈が不完全である問題を軽減するために、オブジェクト知識ベース内のすべてのカテゴリフレーズを疑似ラベル付けの候補カテゴリとして使用し (2 行目)、カテゴリのみを使用します。キャプション (最初の行) の注釈効果。行) 比較は次のとおりです:
図 6: カテゴリの紹介実験結果
提案手法のオープンドメイン検出性能を、ダウンストリーム LVIS 検出データセット (1203 クラス) からわかるように、swin-t バックボーンベースのアーキテクチャに基づいて、DetCLIP は既存の SOTA モデル GLIP と比較して 9.9% の AP 向上を達成し、Rare モデルでは 12.4% の AP 向上を達成しました。ただし、GLIP データ量の半分未満しか使用しませんが、トレーニング セットには LVIS の画像が含まれていないことに注意してください。
#表 1: LVIS でのさまざまな方式のゼロショット転送パフォーマンスの比較 ##トレーニング効率の観点から、32 台の V100 の同じハードウェア条件に基づくと、GLIP-T のトレーニング時間は DetCLIP-T の 5 倍です (10.7K GPU 時間対 2.0K GPU 時間) GPU 時間)。テスト効率の点では、単一の V100 に基づくと、DetCLIP-T の推論効率 2.3 FPS (画像あたり 0.4 秒) は、GLIP-T の 0.12 FPS (画像あたり 8.6 秒) の 20 倍です。また、DetCLIP の主要なイノベーション (並列フレームワークとオブジェクト知識ベース) が精度に与える影響についても個別に調査しました。
#表 3: LVIS データセットでの DetCLIP アブレーション研究結果
可視化結果以下の図に示すように、同じ swin-t バックボーンに基づいて、LVIS データセットの視覚化効果は、特にレアなカテゴリの注釈と完全性において、GLIP と比較して大幅に向上しました。注釈の。
図 7: LVIS データセットに対する DetCLIP と GLIP の予測結果の視覚的な比較
以上がNeurIPS 2022 | 新しいオープンドメイン検出手法である DetCLIP により推論効率が 20 倍向上の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









DDREASE は、ハード ドライブ、SSD、RAM ディスク、CD、DVD、USB ストレージ デバイスなどのファイル デバイスまたはブロック デバイスからデータを回復するためのツールです。あるブロック デバイスから別のブロック デバイスにデータをコピーし、破損したデータ ブロックを残して正常なデータ ブロックのみを移動します。 ddreasue は、回復操作中に干渉を必要としないため、完全に自動化された強力な回復ツールです。さらに、ddasue マップ ファイルのおかげでいつでも停止および再開できます。 DDREASE のその他の主要な機能は次のとおりです。 リカバリされたデータは上書きされませんが、反復リカバリの場合にギャップが埋められます。ただし、ツールに明示的に指示されている場合は切り詰めることができます。複数のファイルまたはブロックから単一のファイルにデータを復元します

0.この記事は何をするのですか?私たちは、多用途かつ高速な最先端の生成単眼深度推定モデルである DepthFM を提案します。従来の深度推定タスクに加えて、DepthFM は深度修復などの下流タスクでも最先端の機能を実証します。 DepthFM は効率的で、いくつかの推論ステップ内で深度マップを合成できます。この作品について一緒に読みましょう〜 1. 論文情報タイトル: DepthFM: FastMonocularDepthEstimationwithFlowMatching 著者: MingGui、JohannesS.Fischer、UlrichPrestel、PingchuanMa、Dmytr

Excel で複数の条件によるフィルタリングを使用する方法を知る必要がある場合は、次のチュートリアルで、データを効果的にフィルタリングおよび並べ替えできるようにするための手順を説明します。 Excel のフィルタリング機能は非常に強力で、大量のデータから必要な情報を抽出するのに役立ちます。設定した条件でデータを絞り込み、条件に合致した部分のみを表示することができ、データ管理を効率化できます。フィルター機能を利用すると、目的のデータを素早く見つけることができ、データの検索や整理の時間を節約できます。この機能は、単純なデータ リストに適用できるだけでなく、複数の条件に基づいてフィルタリングすることもできるため、必要な情報をより正確に見つけることができます。全体として、Excel のフィルタリング機能は非常に実用的です。

Google が推進する JAX のパフォーマンスは、最近のベンチマーク テストで Pytorch や TensorFlow のパフォーマンスを上回り、7 つの指標で 1 位にランクされました。また、テストは最高の JAX パフォーマンスを備えた TPU では行われませんでした。ただし、開発者の間では、依然として Tensorflow よりも Pytorch の方が人気があります。しかし、将来的には、おそらくより大規模なモデルが JAX プラットフォームに基づいてトレーニングされ、実行されるようになるでしょう。モデル 最近、Keras チームは、ネイティブ PyTorch 実装を使用して 3 つのバックエンド (TensorFlow、JAX、PyTorch) をベンチマークし、TensorFlow を使用して Keras2 をベンチマークしました。まず、主流のセットを選択します

iPhone のモバイル データ接続に遅延や遅い問題が発生していませんか?通常、携帯電話の携帯インターネットの強度は、地域、携帯ネットワークの種類、ローミングの種類などのいくつかの要因によって異なります。より高速で信頼性の高いセルラー インターネット接続を実現するためにできることがいくつかあります。解決策 1 – iPhone を強制的に再起動する 場合によっては、デバイスを強制的に再起動すると、携帯電話接続を含む多くの機能がリセットされるだけです。ステップ 1 – 音量を上げるキーを 1 回押して放します。次に、音量小キーを押して、もう一度放します。ステップ 2 – プロセスの次の部分は、右側のボタンを押し続けることです。 iPhone の再起動が完了するまで待ちます。セルラーデータを有効にし、ネットワーク速度を確認します。もう一度確認してください 修正 2 – データ モードを変更する 5G はより優れたネットワーク速度を提供しますが、信号が弱い場合はより適切に機能します

世界は狂ったように大きなモデルを構築していますが、インターネット上のデータだけではまったく不十分です。このトレーニング モデルは「ハンガー ゲーム」のようであり、世界中の AI 研究者は、データを貪欲に食べる人たちにどのように餌を与えるかを心配しています。この問題は、マルチモーダル タスクで特に顕著です。何もできなかった当時、中国人民大学学部のスタートアップチームは、独自の新しいモデルを使用して、中国で初めて「モデル生成データフィード自体」を実現しました。さらに、これは理解側と生成側の 2 つの側面からのアプローチであり、両方の側で高品質のマルチモーダルな新しいデータを生成し、モデル自体にデータのフィードバックを提供できます。モデルとは何ですか? Awaker 1.0 は、中関村フォーラムに登場したばかりの大型マルチモーダル モデルです。チームは誰ですか?ソフォンエンジン。人民大学ヒルハウス人工知能大学院の博士課程学生、ガオ・イージャオ氏によって設立されました。

最近、軍事界は、米軍戦闘機が AI を使用して完全自動空戦を完了できるようになったというニュースに圧倒されました。そう、つい最近、米軍のAI戦闘機が初めて公開され、その謎が明らかになりました。この戦闘機の正式名称は可変安定性飛行シミュレーター試験機(VISTA)で、アメリカ空軍長官が自ら飛行させ、一対一の空戦をシミュレートした。 5 月 2 日、フランク ケンダル米国空軍長官は X-62AVISTA でエドワーズ空軍基地を離陸しました。1 時間の飛行中、すべての飛行動作が AI によって自律的に完了されたことに注目してください。ケンダル氏は「過去数十年にわたり、私たちは自律型空対空戦闘の無限の可能性について考えてきたが、それは常に手の届かないものだと思われてきた」と語った。しかし今では、

今週、OpenAI、Microsoft、Bezos、Nvidiaが投資するロボット企業FigureAIは、7億ドル近くの資金調達を受け、来年中に自立歩行できる人型ロボットを開発する計画であると発表した。そしてテスラのオプティマスプライムには繰り返し良い知らせが届いている。今年が人型ロボットが爆発的に普及する年になることを疑う人はいないだろう。カナダに拠点を置くロボット企業 SanctuaryAI は、最近新しい人型ロボット Phoenix をリリースしました。当局者らは、多くのタスクを人間と同じ速度で自律的に完了できると主張している。人間のスピードでタスクを自律的に完了できる世界初のロボットである Pheonix は、各オブジェクトを優しくつかみ、動かし、左右にエレガントに配置することができます。自律的に物体を識別できる
