文字を入力するよりも大きなモデルの写真を効率的に見てみましょう。 NeurIPS 2023 の新しい研究では、精度が 7.8% 向上するマルチモーダルクエリ手法が提案されています-AI-php.cn

大型モデルの「画像を読み取る」能力は非常に優れているのに、なぜ依然として間違ったものを見つけてしまうのでしょうか?

たとえば、見た目が似ていないコウモリとコウモリを混同したり、一部のデータセットで珍しい魚を認識しなかったり...

これは、「検索するときに大規模なモデルを使用しているため」です。何か」というテキスト # が入力されることがよくあります。

「コウモリ」 (コウモリかコウモリ?) や「悪魔のメダカ」 (キプリノドンディアボリス) など、説明があいまいまたは偏りすぎている場合、AI は大いに混乱するでしょう。

これにより、ターゲット検出、特にオープンワールド (未知のシーン) ターゲット検出タスクに大規模なモデルが使用されるようになります。効果がないことが多いですが、想像通りでした。

NeurIPS 2023 に含まれる論文で、この問題がついに解決されました。

让大模型看图比打字管用！NeurIPS 2023新研究提出多模态查询方法，准确率提升7.8%

この論文では、マルチモーダルクエリMQ-Det に基づくターゲット検出方法を提案しています。これには、前の画像の例では、大規模なモデルを使用して物を見つける精度が大幅に向上します。

ベンチマーク検出データセット LVIS では、ダウンストリームタスクモデルの微調整を必要とせずに、MQ-Det により、主流の検出大規模モデルの GLIP 精度が約 # 向上します。平均 ##7.8%#。##、13 のベンチマークの小さなサンプルの下流タスクでは、平均精度が 6.3% 向上しました。 これはどのように行われるのでしょうか?見に来ましょう。

次の内容は、論文の著者であり Zhihu ブロガーである @沁园夏からの転載です:

Directory

MQ-Det : マルチモード動的クエリのための大規模なオープンワールドターゲット検出モデル

1.1 テキストクエリからマルチモーダルクエリへ
1.2 MQ-Det プラグアンドプレイマルチモーダルクエリモデルアーキテクチャ
1.3 MQ-Det の効率的なトレーニング戦略
1.4 実験結果: 微調整不要の評価
1.5 実験結果: 少数ショットの評価
1.6 マルチ-モーダルクエリターゲット検出 Prospect
MQ-Det: マルチモーダルクエリを使用したオープンワールドオブジェクト検出のための大規模モデル

論文名:

Multi-モーダルクエリされたオブジェクトの実際の検出

ペーパーリンク:

https://www.php.cn/link/9c6947bd95ae487c81d4e19d3ed8cd6f

コードアドレス:

https://www.php.cn/link/2307ac1cfee5db3a5402aac9db25cc5d

让大模型看图比打字管用！NeurIPS 2023新研究提出多模态查询方法，准确率提升7.8%

1.1 テキストクエリからマルチモーダルクエリへ

百聞は一見にしかず : 画像とテキストの事前トレーニングの台頭と、テキストのオープンセマンティクスの助けにより、ターゲット検出は徐々にオープンの段階に入りました。世界認識。この目的を達成するために、多くの大規模な検出モデルはテキストクエリのパターンに従い、カテゴリ別テキストの説明を使用してターゲット画像内の潜在的なターゲットをクエリします。ただし、このアプローチは「広範囲であるが正確ではない」という問題に直面することがよくあります。

たとえば、(1) 図 1 のきめの細かいオブジェクト

(魚種) の検出では、限られたテキストでさまざまなきめの細かい魚種を説明するのが難しいことがよくあります。 2) カテゴリの曖昧さ (「バット」はコウモリとコウモリの両方を指す可能性があります) 。

しかし、上記の問題は画像の例によって解決できます。テキストと比較して、画像は対象オブジェクトの

より豊富な特徴のヒント を提供できますが、同時にテキストには があります。強力な汎用性。

したがって、2 つのクエリ方法を有機的に組み合わせる方法は自然なアイデアになりました。

マルチモーダルクエリ機能を取得する際の難しさ : マルチモーダルクエリを使用してこのようなモデルを取得する方法には 3 つの課題があります: (1) 直接微調整するのは非常に困難です。画像例が限られているため、壊滅的な忘却を引き起こしやすいです; (2) 大規模な検出モデルを最初からトレーニングすると、より一般化できますが、多額の費用がかかります。たとえば、1 枚のカードで GLIP をトレーニングするには、480 日間で 3,000 万のデータが必要です。

マルチモーダルクエリターゲット検出: 上記の考慮事項に基づいて、著者はシンプルで効果的なモデル設計とトレーニング戦略 MQ-Det を提案しました。

MQ-Det は、既存の大規模なフリーズテキストクエリ検出モデルに基づいて少数のゲート知覚モジュール

(GCP) を挿入し、視覚的な例から入力を受け取り、視覚条件マスクも設計します。言語予測トレーニング戦略により、マルチモーダルクエリに対する高性能の検出器が効率的に得られます。

1.2 MQ-Det プラグアンドプレイマルチモーダルクエリモデルアーキテクチャ

##△図 1 MQ-Det メソッドアーキテクチャ図

#ゲートアウェアネスモジュール

図 1 に示すように、作成者は、既存のフリーズテキストクエリ検出大規模モデルのテキストエンコーダー側に、ゲートアウェアネスモジュール

(GCP) をレイヤーごとに挿入しました。 ##、GCP の動作モードは、次の式で簡潔に表すことができます。

i 番目のカテゴリについて、最初に交差する視覚的な例 Vi を入力します。ターゲット画像 I アテンション让大模型看图比打字管用！NeurIPS 2023新研究提出多模态查询方法，准确率提升7.8% (X-MHA)

は表現能力を強化するために

を取得し、各カテゴリのテキスト ti は対応するカテゴリの視覚的な例とクロスアテンションされて ## を取得します。 #、その後、元のテキスト ti と視覚的に拡張されたテキストが、ゲートモジュールのゲートを通じて融合され、現在のレイヤーの出力让大模型看图比打字管用！NeurIPS 2023新研究提出多模态查询方法，准确率提升7.8% が得られます。このような単純な設計は、(1) カテゴリの拡張性、(2) 意味の補完、(3) 忘れ防止の 3 つの原則に従っています。詳細な説明については、原文を参照してください。让大模型看图比打字管用！NeurIPS 2023新研究提出多模态查询方法，准确率提升7.8% 1.3 MQ-Det の効率的なトレーニング戦略

凍結された言語クエリ検出器に基づいた調整されたトレーニング

現在の大規模な事前トレーニング済み検出モデルにより、テキストクエリ優れた一般化能力を備えており、論文の著者は、元のテキストの特徴に基づいて視覚的な詳細をわずかに調整するだけで十分だと考えています。この記事には、元の事前トレーニング済みモデルのパラメーターを開いた後で微調整すると、壊滅的な忘却の問題が発生しやすく、代わりにオープンワールドを検出する能力が失われる可能性があることを発見した具体的な実験デモンストレーションもあります。。

したがって、MQ-Det は、フリーズされたテキストクエリの事前トレーニングされた検出器に基づいてトレーニングに挿入された GCP モジュールを調整するだけで、既存のテキストクエリの検出器に視覚情報を効率的に挿入できます。

論文では、著者は、MQ-Det の構造設計とトレーニング技術を現行の SOTA モデルである GLIP と GroundingDINO にそれぞれ適用し、手法の汎用性を検証しています。

視覚条件付きマスク言語予測トレーニング戦略

著者は、フリーズした事前プログラミングの問題を解決するために、視覚条件付きマスク言語予測トレーニング戦略も提案しました。モデルのトレーニングによって引き起こされる学習の慣性の問題。いわゆる学習慣性とは、検出器がトレーニングプロセス中に元のテキストクエリの特徴を維持する傾向があるため、新しく追加されたビジュアルクエリの特徴を無視することを意味します。

この目的のために、MQ-Det はトレーニング中にテキストトークンを [MASK] トークンにランダムに置き換え、モデルにビジュアルクエリ機能側からの学習を強制します。

##この戦略は単純ですが、非常に効果的であり、実験結果から判断すると、この戦略は大幅なパフォーマンスの向上をもたらしました。

1.4 実験結果: 微調整不要の評価

微調整不要让大模型看图比打字管用！NeurIPS 2023新研究提出多模态查询方法，准确率提升7.8% : 従来のゼロショットとの比較

(ゼロショット)

評価では、カテゴリテキストがテストされ、MQ-Det はより現実的な評価戦略

finetuning-free

を提案します。これは、ダウンストリームでの微調整を行わずに、ユーザーがカテゴリテキスト、画像の例、または両方の組み合わせを使用してオブジェクト検出を実行できるように定義されています。

微調整なしの設定では、MQ-Det はカテゴリごとに 5 つの視覚的な例を選択し、カテゴリテキストを組み合わせてターゲット検出を行います。ただし、他の既存のモデルは視覚的なクエリをサポートしておらず、プレーンテキストでのオブジェクト検出のみが可能です。説明。以下の表は、LVIS MiniVal および LVIS v1.0 での検出結果を示しています。マルチモーダルクエリの導入により、オープンワールドのターゲット検出能力が大幅に向上することがわかります。

△表 1 LVIS ベンチマークデータセットにおける各検出モデルの微調整なしのパフォーマンス

表 1 からわかるように、MQ-GLIP-L はGLIP最高性能 - Lを基準にAPが7%以上増加し、効果は絶大！

1.5 実験結果: 少数ショット評価

△表 2 各モデルは 35 の検出タスクを実行します。ODinW-35 とその 13 のサブセット ODinW-13 のパフォーマンス

著者はさらに、35 の下流検出タスク ODinW-35 について包括的な実験を実施しました。表 2 からわかるように、微調整不要の強力なパフォーマンスに加えて、MQ-Det は優れた小規模サンプル検出機能も備えており、これによりマルチモーダルクエリの可能性がさらに裏付けられます。図 2 は、GLIP 上の MQ-Det の大幅な改善も示しています。

△図 2 データ利用効率の比較、横軸: トレーニングサンプル数、縦軸: OdinW-13

1.6 マルチの平均 AP modal ターゲット検出の展望を問い合わせる

ターゲット検出は実用化に基づく研究分野として、アルゴリズムの実装が非常に重要視されています。

以前の純粋なテキストクエリターゲット検出モデルは良好な一般化を示しましたが、実際のオープンワールド検出ではテキストがきめ細かい情報をカバーすることは困難であり、画像の豊富な情報の粒度を完全にカバーすることは困難です。このリンクは完了しました。

これまでのところ、テキストは一般的ですが正確ではなく、画像は正確ではありますが一般的ではないことがわかりました。この 2 つ、つまりマルチモーダルクエリを効果的に組み合わせることができれば、オープンワールドのターゲット検出が推進されるでしょう。さらに前へ。

MQ-Det はマルチモーダルクエリの最初の一歩を踏み出し、その大幅なパフォーマンスの向上は、マルチモーダルクエリのターゲット検出の大きな可能性も示しています。

同時に、テキストによる説明と視覚的な例の導入により、ユーザーの選択肢が増え、ターゲット検出がより柔軟でユーザーフレンドリーになります。

以上が文字を入力するよりも大きなモデルの写真を効率的に見てみましょう。 NeurIPS 2023 の新しい研究では、精度が 7.8% 向上するマルチモーダルクエリ手法が提案されていますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

文字を入力するよりも大きなモデルの写真を効率的に見てみましょう。 NeurIPS 2023 の新しい研究では、精度が 7.8% 向上するマルチモーダル クエリ手法が提案されています

1.2 MQ-Det プラグ アンド プレイ マルチモーダル クエリ モデル アーキテクチャ

を提案します。これは、ダウンストリームでの微調整を行わずに、ユーザーがカテゴリ テキスト、画像の例、または両方の組み合わせを使用してオブジェクト検出を実行できるように定義されています。

1.5 実験結果: 少数ショット評価

1.6 マルチの平均 AP modal ターゲット検出の展望を問い合わせる

文字を入力するよりも大きなモデルの写真を効率的に見てみましょう。 NeurIPS 2023 の新しい研究では、精度が 7.8% 向上するマルチモーダルクエリ手法が提案されています

1.2 MQ-Det プラグアンドプレイマルチモーダルクエリモデルアーキテクチャ

を提案します。これは、ダウンストリームでの微調整を行わずに、ユーザーがカテゴリテキスト、画像の例、または両方の組み合わせを使用してオブジェクト検出を実行できるように定義されています。