原題: DifFlow3D: Toward Robust Uncertainty-Aware Scene Flow Estimation with Iterative Diffusion-Based Refinement
論文リンク: https://arxiv.org/pdf/2311.17456.pdf
コードリンク: https://github.com/IRMVLab/DifFlow3D
著者の所属: 上海交通大学、ケンブリッジ大学、浙江大学識別ロボット
シーン フロー推定は、動的なシーン内の各ポイントの 3D 変位変化を予測することを目的としており、これはコンピューター ビジョンの分野における基本的なタスクです。ただし、以前の研究では、局所的に制限された検索範囲によって引き起こされる信頼性の低い相関が発生し、粗い構造から細かい構造までの不正確さが蓄積されることがよくありました。これらの問題を軽減するために、本論文では、拡散確率モデルを採用する、新しい不確実性を認識したシーンフロー推定ネットワーク (DifFlow3D) を提案します。反復拡散ベースの改良は、相関の堅牢性を強化し、困難な状況 (ダイナミクス、ノイズの多い入力、繰り返されるパターンなど) への強力な適応性を持たせるように設計されています。生成の多様性を制限するために、3 つの主要な流れ関連の特徴が拡散モデルの条件として利用されています。さらに,本稿では,推定されたシーンフローの信頼性を評価するための拡散における不確実性推定モジュールを開発した。この記事の DifFlow3D は、FlyingThings3D および KITTI 2015 データ セットで 3 次元エンドポイント エラー (EPE3D) をそれぞれ 6.7% と 19.1% 削減し、KITTI データ セットで前例のないミリメートルレベルの精度 (EPE3D では 0.0089 メートル) を達成しました。さらに、拡散ベースのリファインメント パラダイムは、プラグ アンド プレイ モジュールとして既存のシーン フロー ネットワークに簡単に統合でき、推定精度が大幅に向上します。
堅牢なシーン フロー推定を実現するために、この研究では、新しいプラグ アンド プレイの拡散ベースの改良プロセスを提案します。私たちの知る限り、シーン フロー タスクで拡散確率モデルが採用されたのはこれが初めてです。
著者は、粗いフローの埋め込み、幾何学的エンコーディング、クロスフレーム コスト ボリュームなどの技術を組み合わせて、生成される結果の多様性を制御するための効果的な条件付きガイダンス方法を設計します。
この論文でフローの信頼性を評価し、不正確な点の一致を特定するために、著者は拡散モデルの各点の不確実性推定も導入しています。
研究結果は、この記事で提案された方法が FlyingThings3D および KITTI データセットで良好に機能し、他の既存の方法よりも優れていることを示しています。特に、DifFlow3D は、KITTI データセット上で初めてミリメートルレベルのエンドポイントエラー (EPE3D) を達成しました。以前の研究と比較して、私たちの方法は、ノイズの多い入力や動的な変化などの困難な状況の処理においてより堅牢です。
コンピューター ビジョンの基本タスクとしてのシーン フローは、連続画像または点群から推定される 3 次元のモーション フィールドを指します。これは、動的なシーンの低レベルの認識のための情報を提供し、自動運転 [21]、姿勢推定 [9]、モーション セグメンテーション [1] など、さまざまな下流アプリケーションがあります。初期の研究は、ステレオ [12] または RGB-D 画像 [10] を入力として使用することに焦点を当てていました。 LIDAR などの 3D センサーの人気が高まっているため、最近の作業では点群を入力として直接使用することがよくあります。
先駆的な研究として、FlowNet3D [16] は PointNet [25] を使用して階層的な特徴を抽出し、シーン フローを反復的に回帰します。 PointPWC [42] は、ピラミッド、変形、コスト ボリューム構造 [31] を通じてこれをさらに改善しています。 HALFlow [35] はこれに続き、フローの埋め込みを改善するためのアテンション メカニズムを導入しています。ただし、これらの回帰ベースの研究は、信頼性の低い相関や局所最適化の問題に悩まされることがよくあります [17]。主な理由は 2 つあります。(1) 彼らのネットワークでは、点の対応関係を検索するために K 最近傍 (KNN) が使用されます。これは、正確ではあるが離れた点のペアを考慮していません。また、マッチング ノイズも存在します [7]。 (2) もう 1 つの潜在的な問題は、以前の研究で広く使用されていた粗密構造から生じます [16、35、36、42]。基本的に、初期の流れは最も粗い層で推定され、その後、より高い解像度で繰り返し改良されます。ただし、後続のリファインメントは通常、初期化の周囲の小さな空間範囲に制限されるため、フロー リファインメントのパフォーマンスは、初期の粗いフローの信頼性に大きく依存します。
信頼性の問題を解決するために、3DFlow[36] は全対全ポイント収集モジュールを設計し、逆検証を追加しました。同様に、Bi-PointFlowNet [4] とその拡張 MSBRN [5] は、前方後方相関を備えた双方向ネットワークを提案しています。 IHNet [38] は、高解像度のブートストラップおよびリサンプリング スキームを備えたリカレント ネットワークを利用します。ただし、これらのネットワークのほとんどは、双方向の相関やループの反復による計算コストに悩まされます。この論文では、拡散モデルはノイズ除去の性質により、相関の信頼性と一致するノイズに対する回復力も強化できることを発見しました (図 1 を参照)。この論文は、ランダム ノイズの注入が局所最適からの飛び出しに役立つという [30] の発見に触発され、図 2 に示すように、確率的拡散モデルを使用して決定論的フロー回帰タスクを再構成しました。さらに、私たちの方法は、以前のシーン フロー ネットワークにサービスを提供するプラグ アンド プレイ モジュールとして使用できます。これはより一般的で、計算コストがほとんどかかりません (セクション 4.5)。
ただし、拡散モデルには固有の生成的多様性があるため、タスクで生成モデルを活用することは非常に困難です。多様な出力サンプルを必要とする点群生成タスクとは異なり、シーン フロー予測は、ポイントごとの正確な動きベクトルを計算する決定論的タスクです。この問題を解決するために、本論文では強力な条件情報を利用して多様性を制限し、生成されるフローを効果的に制御します。具体的には、大まかなまばらなシーン フローが最初に初期化され、次にフロー残差が拡散を通じて反復的に生成されます。各拡散ベースのリファインメント層では、粗いフローの埋め込み、コスト ボリューム、幾何学的エンコーディングを条件として利用します。この場合、条件付き入力からストリーム残差への確率的マッピングを実際に学習するために拡散が適用されます。
さらに、これまでの研究では、シーン フロー推定の信頼性と信頼性を検討したものはほとんどありませんでした。ただし、図 1 に示すように、高密度フロー マッチングでは、ノイズ、動的変化、小さなオブジェクト、繰り返しパターンが存在するとエラーが発生しやすくなります。したがって、推定された各点の対応関係が信頼できるかどうかを知ることが非常に重要です。オプティカル フロー タスクにおける不確実性推定の最近の成功 [33] に触発され、シーン フロー推定の信頼性を評価するために拡散モデルにおける点ごとの不確実性を提案します。
#画像 3. DifFlow3D の全体構造。この記事では、最初に最下層の大まかなまばらなシーン フローを初期化します。次に、反復拡散リファインメント レイヤーを流れ関連の条件付き信号と組み合わせて使用し、より高密度の流れの残差を回復します。この論文で推定されたフローの信頼性を評価するために、各ポイントにおける不確実性もシーン フローと併せて予測されます。 図 2。この記事でシーン フロー推定に使用される拡散プロセスの概略図。#図 4.不確実性を視覚化する。トレーニング プロセス中に、この記事で設計された不確実性区間は徐々に縮小し、予測されたフローが真の値に近づくことが促進されます。
実験結果:図 1.困難な状況での比較。 DifFlow3D は、(a) 動的変化、(b) ノイズの多い入力、(c) 小さなオブジェクト、(d) ) 繰り返しパターンに対してより堅牢な拡散モデルを使用して、不確実性を認識したシーン フローを予測します。
図 5. 拡散ベースのシーン フロー リファインメント (DSFR) を使用した場合と使用した場合の視覚化の結果。
#図 6.ランダムなガウス ノイズを入力ポイントに追加します。
#図 7.トレーニングプロセスにおける不確実性の役割。この論文では、さまざまなトレーニング段階 (10 ラウンドと 100 ラウンド) における不確実性の間隔を視覚化します。この記事は、革新的に普及を提案します。推定の不確実性を認識する、ベースのシーン フロー調整ネットワーク。この論文では、マルチスケール拡散リファインメントを採用して、きめの細かい緻密な流れの残差を生成します。推定のロバスト性を向上させるために、この論文では、シーン フローとともに生成される点ごとの不確実性も導入します。広範な実験により、DifFlow3D の優位性と一般化機能が実証されています。この論文の拡散ベースの改良は、プラグアンドプレイモジュールとして以前の研究に適用でき、将来の研究に新たな意味を与える可能性があることは注目に値します。
Liu J、Wang G、Ye W、他 DifFlow3D: 拡散モデルを使用したロバストな不確実性を考慮したシーン フロー推定に向けて [J]. arXivプレプリント arXiv:2311.17456、2023.
以上がDifFlow3D: シーン フロー推定用の新しい SOTA、拡散モデルがまた成功しました!の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。