タイトルリライト: ICCV 2023 優秀学生論文追跡、Github が 1.6K スターを獲得、魔法のような包括的な情報!

PHPz
リリース: 2023-10-11 11:29:14
転載
728 人が閲覧しました

1. 論文情報

今年の ICCV2023 最優秀学生論文は、現在カリフォルニア大学バークレー校で博士研究員を務めるコーネル大学の qianqian wang に授与されました!标题重写:ICCV 2023优秀学生论文跟踪,Github已经获得1.6K star,仿佛魔法般的全面信息!

#2. 分野の背景

标题重写:ICCV 2023优秀学生论文跟踪,Github已经获得1.6K star,仿佛魔法般的全面信息!

#ビデオ動き推定の分野では、従来の手法は主にスパース特徴追跡と密オプティカル フローの 2 つのタイプに分類されます。どちらの方法もそれぞれのアプリケーションで効果的であることが証明されていますが、どちらもビデオ内の動きを完全にキャプチャすることはできません。ペアのオプティカル フローは長い時間ウィンドウ内の動きの軌跡をキャプチャできませんが、スパース トラッキングではすべてのピクセルの動きをモデル化できません

このギャップを埋めるために、多くの研究がビデオのピクセル軌跡の密集距離と長距離を同時に推定することを試みてきました。これらの研究の方法は、2 つのフレームのオプティカル フロー フィールドを単純にリンクすることから、複数のフレームにわたる各ピクセルの軌跡を直接予測することまでさまざまです。ただし、これらの方法は、動きを推定するときに限られたコンテキストのみを考慮し、時間または空間的に遠く離れた情報を無視することがよくあります。この近視眼性は、長い軌道での誤差の蓄積や、動き推定における時空間の不一致を引き起こす可能性があります。一部の方法は長期的なコンテキストを考慮していますが、依然として 2D ドメインで動作するため、オクルージョン イベントの追跡損失が発生する可能性があります。

全体として、ビデオにおける高密度で長距離の軌道推定は、この分野ではまだ未解決の問題です。この問題には 3 つの主要な課題が含まれます: 1) 長いシーケンスで軌道の精度を維持する方法、2) オクルージョン下のポイントの位置を追跡する方法、3) 時空間の一貫性を維持する方法

ここ この記事では、著者はは、ビデオ内のすべての情報を使用して各ピクセルの完全な動き軌跡を共同推定する、新しいビデオ動き推定方法を提案しました。この方法は「オムニモーション」と呼ばれ、擬似 3D 表現が使用されます。この表現では、標準 3D ボリュームが各フレームでローカル ボリュームにマッピングされます。このマッピングは、動的なマルチビュー ジオメトリの柔軟な拡張機能として機能し、カメラとシーンの動きを同時にシミュレートできます。この表現により、ループの一貫性が確保されるだけでなく、オクルージョン中のすべてのピクセルが追跡されます。作成者は、ビデオごとにこの表現を最適化し、ビデオ全体の動きに対するソリューションを提供します。最適化後、この表現をビデオの任意の連続座標でクエリして、ビデオ全体にわたるモーション軌跡を取得できます。

この記事で提案する方法では、次のことが可能です。 1) ビデオ全体のすべてのポイントに対して生成 グローバルに一貫性のある完全なモーション軌跡、2) オクルージョンによるポイントの追跡、3) さまざまなカメラとシーン アクションの組み合わせによる現実世界のビデオの処理。 TAP ビデオ追跡ベンチマークでは、この方法は以前の方法をはるかに上回り、良好なパフォーマンスを示しました。

3. 方法

この論文では、ビデオ シーケンスから密集した長距離の動きを推定するためのテスト時間の最適化に基づく方法を提案します。まず、この論文で提案されている方法の概要を説明します。

  • Input: 著者の方法は、フレームのセットとノイズの多い動き推定のペア (オプティカル フローなど) を取得します。フィールド) を入力として使用します。
  • メソッド操作: これらの入力を使用して、メソッドはビデオ全体の完全でグローバルに一貫したモーション表現を見つけようとします。
  • 結果の特徴: 最適化後、この表現はビデオ内の任意のフレームの任意のピクセルでクエリできるため、ビデオ全体にわたってスムーズで正確なモーション軌跡が得られます。このメソッドは、ポイントがいつオクルージョンされるかを識別し、オクルージョンを通過するポイントを追跡することもできます。
  • コアコンテンツ:
  1. OmniMotion表現: 後続のセクションでは、著者は最初に、と呼ばれる基本的な表現について説明します。オムニモーション用。
  2. 最適化プロセス: 次に、著者はビデオからこの表現を復元する方法の最適化プロセスについて説明します。

この方法は、包括的で一貫したビデオ モーション表現を提供し、オクルージョンなどの困難な問題を効果的に解決できます。さあ、

标题重写:ICCV 2023优秀学生论文跟踪,Github已经获得1.6K star,仿佛魔法般的全面信息!

について詳しく見てみましょう。

3.1 正準 3D ボリューム

ビデオ コンテンツは、G という名前の典型的なボリュームで表され、観察されたシーンの 3 次元マップとして機能します。 NeRF で行われたのと同様に、G #Map で各典型的な 3D 座標 uvw## に対して座標ベースのネットワーク nerf を定義しました。密度 σ と色 cG に保存されている密度は、表面が一般的な空間のどこにあるかを示します。 3D 全単射と組み合わせると、複数のフレームにわたってサーフェスを追跡し、オクルージョン関係を理解できるようになります。 G に保存されている色を使用すると、最適化中に測光損失を計算できます。

3.2 3D 全単射

この記事では、 で示される連続全単射マッピングを紹介します。これは、3D 点をローカル座標系から標準 3D 座標系に変換します。この正準座標は、シーン ポイントまたは 3D 軌跡の時間における一貫した参照または「インデックス」として機能します。全単射マッピングを使用する主な利点は、すべてが同じ正準点から発生するため、異なるフレーム間の 3D 点に定期的な一貫性が提供されることです。

あるローカル フレームから別のローカル フレームの 3D ポイントへのマッピング方程式は次のとおりです。

标题重写:ICCV 2023优秀学生论文跟踪,Github已经获得1.6K star,仿佛魔法般的全面信息!

複雑な現実世界の動きをキャプチャするために、これらの全単射はパラメータ化され、反転可能です。ニューラル ネットワーク (INN)。 Real-NVP をモデルとして選択したのは、そのシンプルさと分析的に可逆的な特性に影響を受けました。 Real-NVP は、アフィン結合層と呼ばれる基本的な変換を使用して全単射マッピングを実装します。これらのレイヤーは入力を分割し、一方の部分が変更されないまま、もう一方の部分がアフィン変換を受けるようにします。

このアーキテクチャをさらに強化するには、各フレームの潜在コード latent_i を条件付きで設定することで実現できます。したがって、すべての可逆マッピング マッピング i は、単一の可逆ネットワーク マッピングネットによって決定されますが、異なる潜在コードを持っています。

3.3 フレーム間の動きの計算

フレーム間の動きを再計算します。

このセクションでは、フレーム i のクエリピクセルの 2D モーションを計算する方法を説明します。直感的には、まずレイ上の点をサンプリングすることによってクエリ ピクセルが 3D に「リフト」され、次にこれらの 3D 点が全単射マッピング i とマッピング j を使用してターゲット フレーム j に「マッピング」され、その後、さまざまなサンプルからのアルファ合成が続きます。」は「レンダリング」され、最後に 2D に「投影」されて、想定される対応関係が得られます。

标题重写:ICCV 2023优秀学生论文跟踪,Github已经获得1.6K star,仿佛魔法般的全面信息!

#4. 実験の比較

标题重写:ICCV 2023优秀学生论文跟踪,Github已经获得1.6K star,仿佛魔法般的全面信息!この実験データ表は、3 つのデータセットの結果を示しています。 - Kinetics、DAVIS、RGB-Stacking でのさまざまな動き推定方法のパフォーマンス。個々のメソッドのパフォーマンスを評価するには、AJ、avg、OA、TC の 4 つの指標が使用されます。著者らが提案した 2 つの手法 (弊社 (TAP-Net) と弊社 (RAFT)) に加えて、他に 7 つの手法があります。どちらの著者の手法も、ほとんどのメトリクスとデータセットで良好に機能することは注目に値します。具体的には、私たちの (RAFT) メソッドは、3 つのデータセットすべての AJ、avg、OA で最良の結果を達成し、TC では 2 番目に優れた結果を達成しました。私たちの (TAP-Net) 手法も、いくつかの測定において同様の優れたパフォーマンスを達成します。一方、他の方法では、これらのメトリックに対するパフォーマンスがまちまちです。著者の方法と「変形可能なスプライト」方法は、各ビデオのテスト時の最適化を通じてグローバル モーションを推定するのに対し、他のすべての方法は順方向アプローチを使用してローカルでモーション推定を実行することに注意してください。要約すると、著者の方法は、位置精度、咬合精度、および時間的連続性において、テストされた他のすべての方法を上回っており、大きな利点を示しています。

标题重写:ICCV 2023优秀学生论文跟踪,Github已经获得1.6K star,仿佛魔法般的全面信息!これは、DAVIS のアブレーション実験結果の表です。データセット。アブレーション実験は、システム全体のパフォーマンスに対する各コンポーネントの寄与を検証するために実施されます。この表には 4 つの方法がリストされています。そのうち 3 つは特定の主要コンポーネントを削除したバージョンであり、最終的な「完全」バージョンにはすべてのコンポーネントが含まれています。

  1. 不可逆: このバージョンでは、「可逆性」コンポーネントが削除されています。完全な方法と比較して、そのすべてのメトリクスは、特に AJ と で大幅に低下しており、可逆性がシステム全体で重要な役割を果たしていることがわかります。
  2. フォトメトリックなし: このバージョンでは、「フォトメトリック」コンポーネントが削除されています。 「完全」バージョンよりもパフォーマンスは低くなりますが、「不可逆」バージョンと比較するとパフォーマンスが向上します。これは、測光コンポーネントがパフォーマンスの向上に一定の役割を果たしているものの、その重要性は可逆コンポーネントに比べて低い可能性があることを示しています。
  3. 均一サンプリング: このバージョンでは、統一サンプリング戦略が使用されています。また、完全バージョンよりも若干パフォーマンスが劣りますが、それでも「不可逆性」バージョンや「アルミニウム」バージョンよりは優れています。
  4. 完全版: これは、すべてのコンポーネントを備えた完全版であり、すべてのメトリクスで最高のパフォーマンスを実現します。これは、各コンポーネントがパフォーマンスの向上に貢献していることを示しており、特にすべてのコンポーネントが統合されている場合、システムは最高のパフォーマンスを達成できます。

标题重写:ICCV 2023优秀学生论文跟踪,Github已经获得1.6K star,仿佛魔法般的全面信息!

# 全体として、このアブレーション実験の結果は、各コンポーネントのパフォーマンスがある程度向上しているものの、可逆性が最も重要なコンポーネントである可能性があることを示しています。パフォーマンスの低下は非常に深刻です

5. ディスカッション

标题重写:ICCV 2023优秀学生论文跟踪,Github已经获得1.6K star,仿佛魔法般的全面信息!

この作業で使用された DAVIS データセット 実行されたアブレーション実験は、提供されたものです。システム全体のパフォーマンスに対する各コンポーネントの重要な役割について貴重な洞察を得ることができます。実験結果から、可逆性コンポーネントが全体のフレームワークにおいて重要な役割を果たしていることが明確にわかります。この重要なコンポーネントが欠けていると、システムのパフォーマンスが大幅に低下します。これは、動的ビデオ分析における可逆性を考慮することの重要性をさらに強調しています。同時に、測光コンポーネントの損失もパフォーマンスの低下につながりますが、可逆性ほどパフォーマンスに大きな影響を与えるものではないようです。さらに、統合サンプリング戦略はパフォーマンスに一定の影響を与えますが、その影響は最初の 2 つに比べて比較的小さいです。最後に、完全なアプローチでは、これらすべてのコンポーネントが統合され、あらゆる考慮事項の下で達成可能な最高のパフォーマンスが示されます。全体として、この作業は、ビデオ分析のさまざまなコンポーネントがどのように相互作用するか、および全体的なパフォーマンスに対するそれらのコンポーネントの具体的な貢献についての洞察を得る貴重な機会を提供し、それによってビデオ処理アルゴリズムを設計および最適化する際の統合アプローチの必要性を強調します。

#しかし、多くの動き推定方法と同様に、私たちの方法は、高速で非常に非剛的な動きや小さな構造を処理するという困難に直面しています。これらのシナリオでは、ペアごとの対応方法では、正確なグローバル モーションを計算するための十分な信頼性の高い対応が得られない可能性があります。さらに、根底にある最適化問題の高度に非凸的な性質により、特定の難しいビデオでは、最適化プロセスが初期化に非常に敏感になる可能性があることが観察されています。これにより、最適化されていない極小値が発生する可能性があります。たとえば、サーフェスの順序が間違っていたり、正規空間内でオブジェクトが重複していたり​​します。これらは、最適化によって修正することが難しい場合があります。

最後に、この方法は現在の形式では計算コストが高くなる可能性があります。まず、フロー収集プロセスには、すべてのペアごとのフローの包括的な計算が含まれ、シーケンスの長さに応じて二次関数的に増加します。しかし、ボキャブラリー ツリーやキーフレーム ベースのマッチングなどのより効率的なマッチング方法を模索し、構造モーションや SLAM 文献からインスピレーションを得ることによって、このプロセスのスケーラビリティを改善できると考えています。第二に、ニューラル暗黙的表現を使用する他の方法と同様に、私たちの方法には比較的長い最適化プロセスが含まれます。この分野における最近の研究は、このプロセスを加速し、さらに長いシーケンスに拡張するのに役立つ可能性があります。

6. 結論

この論文では、新しいテスト時間最適化手法を提案します。ビデオ全体で完全かつグローバルに一貫したモーションを推定します。 OmniMotion と呼ばれる新しいビデオ モーション表現が導入されました。これは、各フレームの準 3D 標準ボリュームとローカル正準全単射で構成されます。 OmniMotion は、さまざまなカメラ設定やシーン ダイナミクスを使用して通常のビデオを処理し、オクルージョンを通じて正確かつスムーズな長距離モーションを生成できます。以前の最先端の方法と比較して、定性的および量的の両方で大幅な改善が達成されています。

标题重写:ICCV 2023优秀学生论文跟踪,Github已经获得1.6K star,仿佛魔法般的全面信息!

書き直す必要がある内容は次のとおりです: 元のリンク: https://mp.weixin.qq.com/s/HOIi5y9j-JwUImhpHPYgkg

以上がタイトルリライト: ICCV 2023 優秀学生論文追跡、Github が 1.6K スターを獲得、魔法のような包括的な情報!の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:51cto.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート