ICRA 2022 優秀論文: 自動運転の 2D 画像を鳥瞰図に変換し、モデル認識精度が 15% 向上
自動運転における多くのタスクは、トップダウン、地図、または鳥瞰図 (BEV) の観点から実行する方が簡単です。自動運転のトピックの多くは地上面に限定されているため、上面図はより実用的な低次元表現であり、関連する障害物や危険を捉えるナビゲーションに最適です。自動運転などのシナリオでは、自由に移動する物体や一度だけ訪れるシーンを処理するために、意味的にセグメント化された BEV マップを瞬時の推定値として生成する必要があります。
画像から BEV マップを推測するには、画像要素と環境内の位置との対応を判断する必要があります。 以前の研究の中には、この変換プロセスをガイドするために高密度深度マップと画像セグメンテーション マップを使用したものや、深度およびセマンティクスを暗黙的に解析する方法を拡張した研究もありました。一部の研究では、カメラの幾何学的事前分布を利用していますが、画像要素と BEV プレーンの間の相互作用を明示的に学習していません。
最近の論文で、サリー大学の研究者は、自動運転の 2D 画像を鳥瞰図に変換するアテンション メカニズムを導入し、モデルの認識精度を向上させました。この研究は、つい最近閉幕した ICRA 2022 会議で優秀論文賞を受賞しました。
紙のリンク: https://arxiv.org/pdf/2110.00966.pdf
##これまでの方法とは異なり、この研究では BEV 変換を「画像から世界へ」の変換問題として扱います の目標は、画像の垂直走査線と BEV の極光線の間の位置合わせを学習することです。したがって、この射影ジオメトリはネットワークに対して暗黙的になります。
研究者らは、アライメント モデルに、注意ベースのシーケンス予測構造である Transformer を採用しました。。これらの注意メカニズムを活用して、画像内の垂直走査線とその極 BEV 投影の間のペアごとの相互作用を明示的にモデル化します。 トランスフォーマーは、オブジェクト、深度、シーンの照明間の相互依存性を推論して、グローバルに一貫した表現を実現できるため、画像から BEV への変換問題に適しています。 研究者らは、Transformer ベースのアライメント モデルを、単眼画像とその固有行列を入力として受け取るエンドツーエンドの学習式に埋め込みました。静的クラスと動的クラスのセマンティック BEV マッピングを予測します。
この論文では、アライメント モデルの周囲の単眼画像からセマンティック BEV マッピングを予測するのに役立つアーキテクチャを構築します。以下の図 1 に示すように、これには 3 つの主要コンポーネントが含まれています: 画像平面上の空間特徴を抽出する標準 CNN バックボーン、画像平面上の特徴を BEV に変換するエンコーダー/デコーダー トランスフォーマー、そして最後にセグメンテーション ネットワーク BEV 特徴をデコードします。セマンティックマップに変換します。
具体的には、この研究の主な貢献は次のとおりです。
- (1) 一連の 1D シーケンス-シーケンス変換を使用して、画像から BEV マップを生成します;
- (2) 主題の構築 限定されたデータ空間認識を備えた効率的な Transformer ネットワーク;
- # 式 (3) と言語分野における単調な注意の組み合わせは、正確なマッピングのためには、点の下に何があるかを知ることがより重要であることを示しています。両方を使用すると最高のパフォーマンスが得られますが、その上にあるものを知るよりも、パフォーマンスと現在の状態を向上させるために時間的認識を提供することで、軸方向の注意がどのように役立つかを示しています。 - 3 つの大規模なデータセットに関する最新の結果。
- 実験結果
アブレーション実験
以下の表 2 の最初の部分に示すように、研究者らはソフト アテンション (見た目) を比較しました。両方向)、画像の下部を振り返る単調な注意(下を向く)、画像の上部を振り返る(見上げる)単調な注意。
結果は、画像内の点から見下ろしたほうが、見上げるよりも優れていることを示しています。ローカル テクスチャの手がかりに沿って - これは、人間が都市環境でオブジェクトの距離を決定しようとする方法と一致しており、オブジェクトと地面を使用します。交差点の位置。この結果は、両方向の観察により精度がさらに向上し、深い推論がより識別できることも示しています。
#長いシーケンスの水平コンテキストの有用性。
ここでの画像から BEV への変換は、一連の 1D シーケンスからシーケンスへの変換として実行されるため、1 つの疑問は、画像全体が BEV に変換されるとどうなるかということです。アテンション マップの生成に必要な二次計算時間とメモリを考慮すると、このアプローチは法外に高価です。ただし、画像全体を使用するコンテキスト上の利点は、画像面の特徴に水平軸の注意を適用することで近似できます。画像ラインを介した軸方向の注意により、垂直走査線のピクセルは長距離の水平コンテキストを持ち、その後、以前と同様に 1D シーケンス間の遷移によって長距離の垂直コンテキストが提供されます。 表 2 の中央部分に示されているように、長いシーケンスの水平コンテキストをマージすることはモデルに利益をもたらしません
、さらにはわずかな影響さえあります。悪影響。これは 2 つの点を示しています: まず、変換された各レイは入力画像の幅全体に関する情報を必要とせず、むしろ、長いシーケンスのコンテキストは、フロントエンドの畳み込みによってすでに集約されたコンテキストと比較して追加情報を提供しません。 。これは、画像全体を使用して変換を実行しても、ベースライン制約式を超えてモデルの精度が改善されないことを示しています。さらに、水平軸の注意の導入によって引き起こされるパフォーマンスの低下は、画像幅のトレーニング シーケンスに注意を使用することが困難であることを意味します。見てわかるように、画像全体を入力シーケンスとして使用してトレーニングすることはより困難になります。 極非依存型変圧器と極適応型変圧器
: 表 2 の最後の部分では、Po-Ag と Po-Ag を比較しています。 . Po - 広告のバリエーション。 Po-Ag モデルには偏光位置情報がありません。イメージ プレーンの Po-Ad には、Transformer エンコーダに追加された極エンコーディングが含まれます。BEV プレーンの場合、この情報はデコーダに追加されます。いずれかの平面に極エンコーディングを追加することは、非依存モデルに追加するよりも有益であり、動的クラスが最も多くの追加を行います。これを両方のプレーンに追加すると、これがさらに強制されますが、静的クラスに最も大きな影響を与えます。 SOTA メソッドとの比較
研究者は、この記事のメソッドをいくつかの SOTA メソッドと比較しました。 以下の表 1 に示すように、空間モデルのパフォーマンスは現在の圧縮 SOTA メソッド STA-S よりも優れており、平均で 15% の相対的な改善が見られます。小規模な動的クラスでは改善がさらに顕著で、バス、トラック、トレーラー、障害物の検出精度はすべて相対的に 35 ~ 45% 向上しています。
以下の図 2 で得られた定性的結果もこの結論を裏付けており、この記事のモデルは構造の類似性が高く、形状感覚が優れていることを示しています。この違いの一部は、圧縮に使用される全結合層 (FCL) に起因する可能性があります。小さくて遠くにある物体を検出する場合、画像の大部分は冗長なコンテキストになります。
#さらに、歩行者やその他の物体の一部が車両によって遮られることもよくあります。この場合、完全に接続された層は歩行者を無視し、代わりに車両のセマンティクスを維持する傾向があります。ここで、注意方法は、各放射状の深さを画像とは独立して認識できるため、その利点を示しています。つまり、より深い深さでは歩行者の身体が見えるようになりますが、それ以前の深さでは車両のみに気づくことができます。
以下の表 3 の Argoverse データセットの結果は同様のパターンを示しており、私たちの方法は PON [8] と比較して 30% 改善されています。
以下の表 4 に示すように、nuScenes と Lyft でのこの方法のパフォーマンスは、LSS [9] や FIERY [20] よりも優れています。 Lyft では正規の train/val 分割がなく、LSS で使用される分割を取得する方法がないため、実際の比較は不可能です。
研究の詳細については、元の論文を参照してください。
以上がICRA 2022 優秀論文: 自動運転の 2D 画像を鳥瞰図に変換し、モデル認識精度が 15% 向上の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









昨日の面接で、ロングテール関連の質問をしたかと聞かれたので、簡単にまとめてみようと思いました。自動運転のロングテール問題とは、自動運転車におけるエッジケース、つまり発生確率が低い考えられるシナリオを指します。認識されているロングテール問題は、現在、単一車両のインテリジェント自動運転車の運用設計領域を制限している主な理由の 1 つです。自動運転の基礎となるアーキテクチャとほとんどの技術的問題は解決されており、残りの 5% のロングテール問題が徐々に自動運転の開発を制限する鍵となってきています。これらの問題には、さまざまな断片的なシナリオ、極端な状況、予測不可能な人間の行動が含まれます。自動運転におけるエッジ シナリオの「ロング テール」とは、自動運転車 (AV) におけるエッジ ケースを指します。エッジ ケースは、発生確率が低い可能性のあるシナリオです。これらの珍しい出来事

従来のコンピューティングを超える能力を備えているだけでなく、より低コストでより効率的なパフォーマンスを実現する人工知能モデルを想像してみてください。これは SF ではありません。世界で最も強力なオープンソース MoE モデルである DeepSeek-V2[1] が登場しました。 DeepSeek-V2 は、経済的なトレーニングと効率的な推論の特徴を備えた強力な専門家混合 (MoE) 言語モデルです。これは 236B のパラメータで構成されており、そのうち 21B は各マーカーをアクティブにするために使用されます。 DeepSeek67B と比較して、DeepSeek-V2 はパフォーマンスが優れていると同時に、トレーニング コストを 42.5% 節約し、KV キャッシュを 93.3% 削減し、最大生成スループットを 5.76 倍に高めます。 DeepSeek は一般的な人工知能を研究する会社です

今月初め、MIT やその他の機関の研究者らは、MLP に代わる非常に有望な代替案である KAN を提案しました。 KAN は、精度と解釈可能性の点で MLP よりも優れています。また、非常に少数のパラメーターを使用して、多数のパラメーターを使用して実行する MLP よりも優れたパフォーマンスを発揮できます。たとえば、著者らは、KAN を使用して、より小規模なネットワークと高度な自動化で DeepMind の結果を再現したと述べています。具体的には、DeepMind の MLP には約 300,000 個のパラメーターがありますが、KAN には約 200 個のパラメーターしかありません。 KAN は、MLP が普遍近似定理に基づいているのに対し、KAN はコルモゴロフ-アーノルド表現定理に基づいているのと同様に、強力な数学的基礎を持っています。以下の図に示すように、KAN は

AI は確かに数学を変えつつあります。最近、この問題に細心の注意を払っている陶哲軒氏が『米国数学協会会報』(米国数学協会会報)の最新号を送ってくれた。 「機械は数学を変えるのか?」というテーマを中心に、多くの数学者が意見を述べ、そのプロセス全体は火花に満ち、ハードコアで刺激的でした。著者には、フィールズ賞受賞者のアクシャイ・ベンカテシュ氏、中国の数学者鄭楽軍氏、ニューヨーク大学のコンピューター科学者アーネスト・デイビス氏、その他業界で著名な学者を含む強力な顔ぶれが揃っている。 AI の世界は劇的に変化しています。これらの記事の多くは 1 年前に投稿されたものです。

Boston Dynamics Atlas は正式に電動ロボットの時代に突入します!昨日、油圧式アトラスが歴史の舞台から「涙ながらに」撤退したばかりですが、今日、ボストン・ダイナミクスは電動式アトラスが稼働することを発表しました。ボストン・ダイナミクス社は商用人型ロボットの分野でテスラ社と競争する決意を持っているようだ。新しいビデオが公開されてから、わずか 10 時間ですでに 100 万人以上が視聴しました。古い人が去り、新しい役割が現れるのは歴史的な必然です。今年が人型ロボットの爆発的な年であることは間違いありません。ネットユーザーは「ロボットの進歩により、今年の開会式は人間のように見え、人間よりもはるかに自由度が高い。しかし、これは本当にホラー映画ではないのか?」とコメントした。ビデオの冒頭では、アトラスは仰向けに見えるように地面に静かに横たわっています。次に続くのは驚くべきことです

Google が推進する JAX のパフォーマンスは、最近のベンチマーク テストで Pytorch や TensorFlow のパフォーマンスを上回り、7 つの指標で 1 位にランクされました。また、テストは最高の JAX パフォーマンスを備えた TPU では行われませんでした。ただし、開発者の間では、依然として Tensorflow よりも Pytorch の方が人気があります。しかし、将来的には、おそらくより大規模なモデルが JAX プラットフォームに基づいてトレーニングされ、実行されるようになるでしょう。モデル 最近、Keras チームは、ネイティブ PyTorch 実装を使用して 3 つのバックエンド (TensorFlow、JAX、PyTorch) をベンチマークし、TensorFlow を使用して Keras2 をベンチマークしました。まず、主流のセットを選択します

先頭と開始点に書かれている エンドツーエンドのパラダイムでは、統一されたフレームワークを使用して自動運転システムのマルチタスクを実現します。このパラダイムの単純さと明確さにも関わらず、サブタスクにおけるエンドツーエンドの自動運転手法のパフォーマンスは、依然としてシングルタスク手法に比べてはるかに遅れています。同時に、以前のエンドツーエンド手法で広く使用されていた高密度鳥瞰図 (BEV) 機能により、より多くのモダリティやタスクに拡張することが困難になります。ここでは、スパース検索中心のエンドツーエンド自動運転パラダイム (SparseAD) が提案されています。このパラダイムでは、スパース検索は、高密度の BEV 表現を使用せずに、空間、時間、タスクを含む運転シナリオ全体を完全に表します。具体的には、統合されたスパース アーキテクチャが、検出、追跡、オンライン マッピングなどのタスク認識のために設計されています。さらに、重い

この 1 か月間、いくつかのよく知られた理由により、私は業界のさまざまな教師やクラスメートと非常に集中的な交流をしてきました。この交換で避けられない話題は当然、エンドツーエンドと人気の Tesla FSDV12 です。この機会に、現時点での私の考えや意見を整理し、皆様のご参考とご議論に役立てたいと思います。エンドツーエンドの自動運転システムをどのように定義するか、またエンドツーエンドで解決することが期待される問題は何でしょうか?最も伝統的な定義によれば、エンドツーエンド システムとは、センサーから生の情報を入力し、関心のある変数をタスクに直接出力するシステムを指します。たとえば、画像認識では、従来の特徴抽出 + 分類子方式と比較して、CNN はエンドツーエンドと言えます。自動運転タスクでは、各種センサー(カメラ/LiDAR)からのデータを入力
