セグメントの特徴は、ビデオの単一フレームにラベルを付けることで学習でき、完全に監視されたパフォーマンスを実現します。 Huake がシーケンシャル動作検出の新しい SOTA を獲得-AI-php.cn

ビデオから興味深いクリップを見つけるにはどうすればよいですか? Temporal Action Localization (TAL) は一般的な方法です。

ビデオコンテンツをモデリングに使用した後は、ビデオ全体内を自由に検索できます。

華中科技大学とミシガン大学の共同チームは最近、このテクノロジーに新たな進歩をもたらしました-

以前は、TAL でのモデリングは断片またはインスタンスにすぎませんでした。レベル; これで、ビデオ内の

の 1 フレームだけが を達成でき、その効果は完全な監視の場合と同等になります。

セグメントの特徴は、ビデオの単一フレームにラベルを付けることで学習でき、完全に監視されたパフォーマンスを実現します。 Huake がシーケンシャル動作検出の新しい SOTA を獲得

華中科技大学のチームは、点ラベル付き教師付き時間動作検出のための HR-Pro と呼ばれる新しいフレームワークを提案しました。

マルチレベルの信頼性の伝播を通じて、HR-Pro は、より識別可能なフラグメントレベルの特徴と、より信頼性の高いインスタンスレベルの境界をオンラインで学習できます。

HR-Pro は 2 つの信頼性を意識したステージで構成されており、セグメントレベルおよびインスタンスレベルのポイントアノテーションから信頼性の高いキューを効果的に伝播することができ、ネットワークがより識別的なフラグメント表現とより信頼性の高い提案を学習できるようになります。

複数のベンチマークデータセットでの実験では、HR-Pro が既存の手法よりも優れた最先端の結果を示し、ポイントアノテーションの有効性と可能性を実証しています。

完全監視方式と同等のパフォーマンス

次の図は、THUMOS14 テストビデオでの時間的動作検出における HR-Pro と LACP のパフォーマンスの比較を示しています。

HR-Pro は、より正確なアクションインスタンスの検出を示します。特に:

円盤投げ動作の場合、HR-Pro は、非差別的な動作セグメントの活性化値が低い LACP よりも完全なセグメントを検出します。

#データセットのテスト結果も、この直感的な感覚を裏付けています。

THUMOS14 データセットの検出結果を視覚化すると、インスタンスレベルの整合性学習の後、高品質の予測と低品質の予測の差が大幅に増加することがわかります。

(左側はインスタンスレベルの整合性学習前の結果、右側は学習後の結果です。横軸と縦軸はそれぞれ時間と信頼性スコアを表します。)

全体として、一般的に使用される 4 つのデータセットにおいて、HR-Pro のパフォーマンスは、最先端のポイント監視手法や、ポイント監視手法の平均 mAP を大幅に上回っています。 THUMOS14 データセットは 60.3% に達し、以前の SoTA 手法 (53.7%) と比較して 6.5% の改善があり、一部の完全監視手法と同等の結果を達成できます。

THUMOS14 テストセットに関する以下の表にある以前の最先端のメソッドと比較すると、HR-Pro は 0.1 ～ 0.7 の IoU しきい値で平均 mAP 60.3% を達成しており、これは THUMOS14 テストセットよりも優れています。以前の最先端の方法である CRRC-Net は 6.5% 高いです。

そして、HR-Pro は、AFSD などの完全に監視された競合手法と同等のパフォーマンスを達成できます (平均 mAP は、0.3 ～ 0.7 の IoU しきい値で 51.1% 対 52.0%)。

△THUMOS14 データセットでの HR-Pro と以前の SOTA 手法の比較

さまざまなベンチマークデータセットでの汎用性と優位性の点で、HR-また、Pro は既存の方法を大幅に上回り、GTEA、BEOID、ActivityNet 1.3 でそれぞれ 3.8%、7.6%、2.0% の改善を達成しました。

△HR-Pro と、GTEA および他のデータセットでの以前の SOTA メソッドとの比較

それでは、HR-Pro はどのように実装されるのでしょうか?

学習は2段階で実行されます

研究チームは、フラグメントレベルで信頼性の高いフラグメントメモリモジュールを導入し、クロスアテンション法を使用して伝播する、マルチレベルの信頼性の高い伝播手法を提案しました。ポイント監視に基づく提案生成は、フラグメントとインスタンスを関連付けて、異なる信頼性を持つ提案を生成し、インスタンスレベルで提案の信頼性と境界をさらに最適化するために提案されています。

HR-Pro のモデル構造は、次の図に示されています。時間的行動検出は、

フラグメントレベルの識別学習とインスタンスという 2 段階の学習プロセスに分かれています。 -レベル完了性的学習。

フェーズ 1: セグメントレベルの識別学習

研究チームは、信頼性を意識したセグメントレベルの識別学習を導入し、カテゴリごとに信頼できるプロトタイプを保存することを提案し、これらのプロトタイプから他のクリップに信頼性の高いキューを伝播するために、ビデオ to メソッドおよびビデオ to ビデオメソッド内でそれらを使用します。

フラグメントレベルの信頼できるプロトタイプの構築

フラグメントレベルで信頼できるプロトタイプを構築するために、チームは、さまざまな動作の信頼できるプロトタイプを保存するオンライン更新プロトタイプメモリを作成しました。 mc (c = 1, 2, …, C) は、データセット全体の特徴情報を利用できるようにするためのものです。

研究チームは、点ラベル付きセグメント特徴を使用してプロトタイプを初期化することを選択しました:

次に、研究者は、疑似ラベル付き行動セグメント特徴を使用して、各セグメントを更新しました。カテゴリプロトタイプは具体的には以下のように表現されます。

フラグメントレベルの信頼性認識最適化

フラグメントの特徴情報を組み合わせるために-レベルの信頼できるプロトタイプ他のフラグメントに渡されることで、研究チームは信頼性を意識したアテンションブロック (RAB) を設計し、クロスアテンションを通じてプロトタイプから他のフラグメントに信頼できる情報を注入することで、フラグメントの特徴の堅牢性を強化し、識別性の低いものへの注目を高めました。セグメント。