ビデオから興味深いクリップを見つけるにはどうすればよいですか? Temporal Action Localization (TAL) は一般的な方法です。
ビデオ コンテンツをモデリングに使用した後は、ビデオ全体内を自由に検索できます。 華中科技大学とミシガン大学の共同チームは最近、このテクノロジーに新たな進歩をもたらしました-以前は、TAL でのモデリングは断片またはインスタンスにすぎませんでした。レベル; これで、ビデオ内のの 1 フレームだけが を達成でき、その効果は完全な監視の場合と同等になります。
華中科技大学のチームは、点ラベル付き教師付き時間動作検出のための HR-Pro と呼ばれる新しいフレームワークを提案しました。 マルチレベルの信頼性の伝播を通じて、HR-Pro は、より識別可能なフラグメント レベルの特徴と、より信頼性の高いインスタンス レベルの境界をオンラインで学習できます。 HR-Pro は 2 つの信頼性を意識したステージで構成されており、セグメント レベルおよびインスタンス レベルのポイント アノテーションから信頼性の高いキューを効果的に伝播することができ、ネットワークがより識別的なフラグメント表現とより信頼性の高い提案を学習できるようになります。 複数のベンチマーク データセットでの実験では、HR-Pro が既存の手法よりも優れた最先端の結果を示し、ポイント アノテーションの有効性と可能性を実証しています。 完全監視方式と同等のパフォーマンス次の図は、THUMOS14 テスト ビデオでの時間的動作検出における HR-Pro と LACP のパフォーマンスの比較を示しています。 HR-Pro は、より正確なアクション インスタンスの検出を示します。特に:(左側はインスタンスレベルの整合性学習前の結果、右側は学習後の結果です。横軸と縦軸はそれぞれ時間と信頼性スコアを表します。)
全体として、一般的に使用される 4 つのデータ セットにおいて、HR-Pro のパフォーマンスは、最先端のポイント監視手法や、ポイント監視手法の平均 mAP を大幅に上回っています。 THUMOS14 データセットは 60.3% に達し、以前の SoTA 手法 (53.7%) と比較して 6.5% の改善があり、一部の完全監視手法と同等の結果を達成できます。 THUMOS14 テスト セットに関する以下の表にある以前の最先端のメソッドと比較すると、HR-Pro は 0.1 ~ 0.7 の IoU しきい値で平均 mAP 60.3% を達成しており、これは THUMOS14 テスト セットよりも優れています。以前の最先端の方法である CRRC-Net は 6.5% 高いです。 そして、HR-Pro は、AFSD などの完全に監視された競合手法と同等のパフォーマンスを達成できます (平均 mAP は、0.3 ~ 0.7 の IoU しきい値で 51.1% 対 52.0%)。 △THUMOS14 データセットでの HR-Pro と以前の SOTA 手法の比較さまざまなベンチマーク データセットでの汎用性と優位性の点で、HR-また、Pro は既存の方法を大幅に上回り、GTEA、BEOID、ActivityNet 1.3 でそれぞれ 3.8%、7.6%、2.0% の改善を達成しました。 △HR-Pro と、GTEA および他のデータセットでの以前の SOTA メソッドとの比較それでは、HR-Pro はどのように実装されるのでしょうか? 学習は2段階で実行されます研究チームは、フラグメントレベルで信頼性の高いフラグメントメモリモジュールを導入し、クロスアテンション法を使用して伝播する、マルチレベルの信頼性の高い伝播手法を提案しました。ポイント監視に基づく提案生成は、フラグメントとインスタンスを関連付けて、異なる信頼性を持つ提案を生成し、インスタンス レベルで提案の信頼性と境界をさらに最適化するために提案されています。 HR-Pro のモデル構造は、次の図に示されています。時間的行動検出は、フラグメントレベルの識別学習とインスタンスという 2 段階の学習プロセスに分かれています。 -レベル完了性的学習。
研究チームは、信頼性を意識したセグメントレベルの識別学習を導入し、カテゴリごとに信頼できるプロトタイプを保存することを提案し、これらのプロトタイプから他のクリップに信頼性の高いキューを伝播するために、ビデオ to メソッドおよびビデオ to ビデオ メソッド内でそれらを使用します。
フラグメント レベルの信頼できるプロトタイプの構築
フラグメント レベルで信頼できるプロトタイプを構築するために、チームは、さまざまな動作の信頼できるプロトタイプを保存するオンライン更新プロトタイプ メモリを作成しました。 mc (c = 1, 2, …, C) は、データセット全体の特徴情報を利用できるようにするためのものです。
研究チームは、点ラベル付きセグメント特徴を使用してプロトタイプを初期化することを選択しました:
次に、研究者は、疑似ラベル付き行動セグメント特徴を使用して、各セグメントを更新しました。カテゴリプロトタイプは具体的には以下のように表現されます。
フラグメントレベルの信頼性認識最適化
フラグメントの特徴情報を組み合わせるために-レベルの信頼できるプロトタイプ 他のフラグメントに渡されることで、研究チームは信頼性を意識したアテンション ブロック (RAB) を設計し、クロスアテンションを通じてプロトタイプから他のフラグメントに信頼できる情報を注入することで、フラグメントの特徴の堅牢性を強化し、識別性の低いものへの注目を高めました。セグメント。
さらに識別可能なフラグメントの特徴を学習するために、チームは信頼性を意識したフラグメント比較損失も構築しました:
インスタンス レベルの動作の時間構造を完全に調査し、提案されたスコア ランキングを最適化するために、チームはインスタンス レベルのアクション整合性学習を導入しました。
このアプローチは、信頼性の高いインスタンス プロトタイプに基づいたインスタンス レベルの特徴学習を通じて、提案の信頼スコアと境界を改善することを目的としています。
インスタンスレベルの信頼できるプロトタイプの構築
トレーニングプロセス中にポイントアノテーションのインスタンスレベルの事前情報を利用するために、チームは次のような提案生成方法を提案しました。オンポイントアノテーション さまざまな信頼性を持つ提案を生成するために使用されます。
信頼性スコアと相対的なポイントの注釈付きタイミング位置に従って、これらの提案は 2 つのタイプに分類できます。
インスタンスレベルの信頼性を意識した最適化
各提案の完全性スコアを予測するために、研究チームは、敏感な境界の提案特徴をスコア予測ヘッド φs に入力します。 : 次に、ポジティブ/ネガティブ サンプル提案と信頼できる提案の IoU をガイドとして使用して、提案の完全性スコア予測を監視します。#より正確な境界動作提案を取得するために、研究者は各 PP の提案の開始領域の特徴と終了領域の特徴を回帰予測ヘッド φr に入力して、提案の開始と提案のオフセットを予測します。終了時間。 さらに洗練された提案を計算し、洗練された提案が信頼できる提案と一致することを期待します。
# つまり、HR-Pro は、わずかな注釈を追加するだけで優れた結果を達成できます。タグの取得コストが低く、同時に強力な一般化機能を備えているため、実際の展開アプリケーションに有利な条件を提供します。
これによると、著者は HR-Pro が行動分析、人間とコンピュータのインタラクション、運転分析などの分野で幅広い応用の可能性を秘めていると予測しています。
論文アドレス: https://arxiv.org/abs/2308.12608
以上がセグメントの特徴は、ビデオの単一フレームにラベルを付けることで学習でき、完全に監視されたパフォーマンスを実現します。 Huake がシーケンシャル動作検出の新しい SOTA を獲得の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。