自動運転における多くのタスクは、トップダウン、地図、または鳥瞰図 (BEV) の観点から実行する方が簡単です。自動運転のトピックの多くは地上面に限定されているため、上面図はより実用的な低次元表現であり、関連する障害物や危険を捉えるナビゲーションに最適です。自動運転などのシナリオでは、自由に移動する物体や一度だけ訪れるシーンを処理するために、意味的にセグメント化された BEV マップを瞬時の推定値として生成する必要があります。
画像から BEV マップを推測するには、画像要素と環境内の位置との対応を判断する必要があります。 以前の研究の中には、この変換プロセスをガイドするために高密度深度マップと画像セグメンテーション マップを使用したものや、深度およびセマンティクスを暗黙的に解析する方法を拡張した研究もありました。一部の研究では、カメラの幾何学的事前分布を利用していますが、画像要素と BEV プレーンの間の相互作用を明示的に学習していません。
最近の論文で、サリー大学の研究者は、自動運転の 2D 画像を鳥瞰図に変換するアテンション メカニズムを導入し、モデルの認識精度を向上させました。この研究は、つい最近閉幕した ICRA 2022 会議で優秀論文賞を受賞しました。
紙のリンク: https://arxiv.org/pdf/2110.00966.pdf
##これまでの方法とは異なり、この研究では BEV 変換を「画像から世界へ」の変換問題として扱います の目標は、画像の垂直走査線と BEV の極光線の間の位置合わせを学習することです。したがって、この射影ジオメトリはネットワークに対して暗黙的になります。
研究者らは、アライメント モデルに、注意ベースのシーケンス予測構造である Transformer を採用しました。。これらの注意メカニズムを活用して、画像内の垂直走査線とその極 BEV 投影の間のペアごとの相互作用を明示的にモデル化します。 トランスフォーマーは、オブジェクト、深度、シーンの照明間の相互依存性を推論して、グローバルに一貫した表現を実現できるため、画像から BEV への変換問題に適しています。 研究者らは、Transformer ベースのアライメント モデルを、単眼画像とその固有行列を入力として受け取るエンドツーエンドの学習式に埋め込みました。静的クラスと動的クラスのセマンティック BEV マッピングを予測します。
この論文では、アライメント モデルの周囲の単眼画像からセマンティック BEV マッピングを予測するのに役立つアーキテクチャを構築します。以下の図 1 に示すように、これには 3 つの主要コンポーネントが含まれています: 画像平面上の空間特徴を抽出する標準 CNN バックボーン、画像平面上の特徴を BEV に変換するエンコーダー/デコーダー トランスフォーマー、そして最後にセグメンテーション ネットワーク BEV 特徴をデコードします。セマンティックマップに変換します。
具体的には、この研究の主な貢献は次のとおりです。
アブレーション実験
以下の表 2 の最初の部分に示すように、研究者らはソフト アテンション (見た目) を比較しました。両方向)、画像の下部を振り返る単調な注意(下を向く)、画像の上部を振り返る(見上げる)単調な注意。
結果は、画像内の点から見下ろしたほうが、見上げるよりも優れていることを示しています。ローカル テクスチャの手がかりに沿って - これは、人間が都市環境でオブジェクトの距離を決定しようとする方法と一致しており、オブジェクトと地面を使用します。交差点の位置。この結果は、両方向の観察により精度がさらに向上し、深い推論がより識別できることも示しています。
#長いシーケンスの水平コンテキストの有用性。
ここでの画像から BEV への変換は、一連の 1D シーケンスからシーケンスへの変換として実行されるため、1 つの疑問は、画像全体が BEV に変換されるとどうなるかということです。アテンション マップの生成に必要な二次計算時間とメモリを考慮すると、このアプローチは法外に高価です。ただし、画像全体を使用するコンテキスト上の利点は、画像面の特徴に水平軸の注意を適用することで近似できます。画像ラインを介した軸方向の注意により、垂直走査線のピクセルは長距離の水平コンテキストを持ち、その後、以前と同様に 1D シーケンス間の遷移によって長距離の垂直コンテキストが提供されます。 表 2 の中央部分に示されているように、長いシーケンスの水平コンテキストをマージすることはモデルに利益をもたらしません
、さらにはわずかな影響さえあります。悪影響。これは 2 つの点を示しています: まず、変換された各レイは入力画像の幅全体に関する情報を必要とせず、むしろ、長いシーケンスのコンテキストは、フロントエンドの畳み込みによってすでに集約されたコンテキストと比較して追加情報を提供しません。 。これは、画像全体を使用して変換を実行しても、ベースライン制約式を超えてモデルの精度が改善されないことを示しています。さらに、水平軸の注意の導入によって引き起こされるパフォーマンスの低下は、画像幅のトレーニング シーケンスに注意を使用することが困難であることを意味します。見てわかるように、画像全体を入力シーケンスとして使用してトレーニングすることはより困難になります。 極非依存型変圧器と極適応型変圧器
: 表 2 の最後の部分では、Po-Ag と Po-Ag を比較しています。 . Po - 広告のバリエーション。 Po-Ag モデルには偏光位置情報がありません。イメージ プレーンの Po-Ad には、Transformer エンコーダに追加された極エンコーディングが含まれます。BEV プレーンの場合、この情報はデコーダに追加されます。いずれかの平面に極エンコーディングを追加することは、非依存モデルに追加するよりも有益であり、動的クラスが最も多くの追加を行います。これを両方のプレーンに追加すると、これがさらに強制されますが、静的クラスに最も大きな影響を与えます。 SOTA メソッドとの比較
研究者は、この記事のメソッドをいくつかの SOTA メソッドと比較しました。 以下の表 1 に示すように、空間モデルのパフォーマンスは現在の圧縮 SOTA メソッド STA-S よりも優れており、平均で 15% の相対的な改善が見られます。小規模な動的クラスでは改善がさらに顕著で、バス、トラック、トレーラー、障害物の検出精度はすべて相対的に 35 ~ 45% 向上しています。
以下の図 2 で得られた定性的結果もこの結論を裏付けており、この記事のモデルは構造の類似性が高く、形状感覚が優れていることを示しています。この違いの一部は、圧縮に使用される全結合層 (FCL) に起因する可能性があります。小さくて遠くにある物体を検出する場合、画像の大部分は冗長なコンテキストになります。
#さらに、歩行者やその他の物体の一部が車両によって遮られることもよくあります。この場合、完全に接続された層は歩行者を無視し、代わりに車両のセマンティクスを維持する傾向があります。ここで、注意方法は、各放射状の深さを画像とは独立して認識できるため、その利点を示しています。つまり、より深い深さでは歩行者の身体が見えるようになりますが、それ以前の深さでは車両のみに気づくことができます。
以下の表 3 の Argoverse データセットの結果は同様のパターンを示しており、私たちの方法は PON [8] と比較して 30% 改善されています。
以下の表 4 に示すように、nuScenes と Lyft でのこの方法のパフォーマンスは、LSS [9] や FIERY [20] よりも優れています。 Lyft では正規の train/val 分割がなく、LSS で使用される分割を取得する方法がないため、実際の比較は不可能です。
研究の詳細については、元の論文を参照してください。
以上がICRA 2022 優秀論文: 自動運転の 2D 画像を鳥瞰図に変換し、モデル認識精度が 15% 向上の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。