ReSimAD: 仮想データを通じて知覚モデルの汎化パフォーマンスを向上させる方法
以前に書いたものおよび著者の個人的な理解
自動運転車のセンサー レベルでのドメインの変化は、非常に一般的な現象です。たとえば、さまざまなシナリオや場所にある自動運転車は、自己の中にあります。 - 異なる照明や気象条件下での車両の運転、異なるセンサー機器を装備した自動運転車両など、上記すべては自動運転領域における典型的な違いと考えることができます。このドメインの違いが自動運転に課題をもたらします。その主な理由は、古いドメインの知識に依存する自動運転モデルは、追加コストなしでこれまで見たことのない新しいドメインに直接展開することが難しいためです。したがって、この論文では、ドメイン移行のための新しい視点と方法を提供する再構築シミュレーション認識 (ReSimAD) スキームを提案します。具体的には、暗黙的再構成技術を用いて運転シーンにおける古いドメイン知識を取得し、その再構成プロセスの目的は、古いドメインのドメイン関連知識をドメイン不変表現(ドメイン不変表現)に変換する方法を研究することです。たとえば、3D シーンレベルのメッシュ表現 (3D メッシュ表現) はドメイン不変の表現であると考えられます。再構成された結果に基づいて、シミュレーターを使用して、ターゲット ドメインのより現実的なシミュレーション点群を生成します。このステップは、再構成された背景情報とターゲット ドメインのセンサー ソリューションに依存するため、データ収集とラベル付けの時間が短縮されます。その後のセンシングプロセス 新しいドメインデータのコスト。
実験検証部分では、Waymo-to-KITTI、Waymo-to-nuScenes、Waymo-to-ONCE などのさまざまなクロスドメイン設定を検討しました。すべてのクロスドメイン設定はゼロショット実験設定を採用しており、ソース ドメインのバックグラウンド メッシュとシミュレートされたセンサーのみに依存してターゲット ドメイン サンプルをシミュレートし、モデルの汎化機能を向上させます。結果は、ReSimAD がターゲット ドメイン シーンに対する知覚モデルの一般化能力を大幅に向上させ、教師なしドメイン適応手法よりも優れていることを示しています。
論文情報
- 論文タイトル: ReSimAD: ソース再構築と自動運転のためのゼロショット 3D ドメイン転送ターゲットシミュレーション
- ICLR-2024は
- 論文発行者: 上海人工知能研究所、上海交通大学、復旦大学、北杭大学
- 論文アドレス: https:/// arxiv.org/abs/2309.05527
- コード アドレス: シミュレーション データ セットと認識部分、https://github.com/PJLab-ADG/3DTrans#resimad; ソース ドメイン再構成部分、https:// github. com/pjlab-ADG/neuralsim; ターゲット ドメイン シミュレーション パート、https://github.com/PJLab-ADG/PCSim
研究動機#課題
: 3D モデルは自動運転車が周囲を認識するのに役立ちますが、既存のベースライン モデルを新しい領域 (異なるセンサー設定や目に見えない都市など) に一般化することは困難です。自動運転分野の長期的なビジョンは、モデルがより低コストでドメイン移行を実現できるようにすることです。つまり、ソース ドメインで完全にトレーニングされたモデルを、ソース ドメインとターゲット ドメインのシナリオにうまく適応させることです。ターゲット ドメインがそれぞれ存在します。明らかなデータ分布の違いがある 2 つのドメインがあります。たとえば、ソース ドメインは晴れ、ターゲット ドメインは雨、ソース ドメインは 64 ビーム センサー、ターゲット ドメインは 32 ビーム センサーです。 一般的に使用されるソリューションのアイデア
: 上記のドメインの違いに直面した場合、最も一般的な解決策は、ターゲット ドメインのシナリオのデータを取得してアノテーションを付けることです。この方法により、ドメインの違いをある程度回避できます。違いによるモデルの性能低下が問題ですが、1) データ収集コストと 2) データのラベル付けコストが膨大です。したがって、以下の図に示すように (2 つのベースライン メソッド (a) と (b) を参照)、新しいドメインのデータ収集とデータ アノテーションのコストを軽減するために、シミュレーション エンジンを使用して、いくつかのシミュレートされたデータをレンダリングできます。点群サンプル: これは、シミュレーションから現実への研究作業における一般的なソリューションのアイデアです。もう 1 つのアイデアは、教師なしドメイン適応 (UDA for 3D) です。このタイプの研究の目的は、ラベルのないターゲット ドメイン データ (実際のデータであることに注意してください) のみにさらされる条件下で、ほぼ完全に教師ありの微調整を実現する方法を研究することです。 ) これが達成できれば、ターゲット ドメインのラベル付けコストは確かに節約されますが、UDA 手法では、ターゲット ドメインのデータ分布を特徴付けるために、実際のターゲット ドメイン データを大量に収集する必要があります。図 1: さまざまなトレーニング パラダイムの比較
私たちのアイデア: 上記の 2 つのカテゴリの研究アイデアとは異なり、下図 ((c) ベースライン プロセスを参照) に示すように、私たちはデータ シミュレーションと知覚の統合ルートに取り組んでいます。 virtual と real を組み合わせます。ここで、virtual と real の組み合わせにおけるリアリティとは、大規模なラベル付けされたソース ドメイン データに基づいてドメイン不変表現を構築することを指します。この仮定は、多くのシナリオにとって実際的に重要です。長期にわたる履歴データの蓄積後、次のことができるからです。この種のラベル付きソース ドメイン データが存在すると常に考えますが、一方で、仮想と現実の組み合わせでのシミュレーションは、ソース ドメイン データに基づいてドメイン不変表現を構築する場合、この表現を既存のドメイン データにインポートすることができます。ターゲット ドメイン データのシミュレーションを実行するレンダリング パイプライン。現在のシミュレーションとリアルの研究作業と比較して、私たちの方法は、道路構造、上り坂と下り坂の斜面などの実際の情報を含む実際のシーンレベルのデータによってサポートされています。この情報は、シミュレーションエンジンのみに依存するだけでは取得することが困難です。自体。ターゲット ドメインでデータを取得した後、そのデータを PV-RCNN などの現在の最適な知覚モデルに統合してトレーニングし、ターゲット ドメインでのモデルの精度を検証します。全体的な詳細なワークフローについては、以下の図を参照してください。
図 2 ReSimAD のフローチャート
ReSimAD のフローチャートを図 2 に示します。これには主に a)ポイントツーメッシュ暗黙的再構成プロセス, b) メッシュツーポイント シミュレーション エンジン レンダリング プロセス, c) ゼロサンプルセンシングプロセス。
ReSimAD: シミュレーション再構成を意識したパラダイム
a) ポイントツーメッシュ暗黙的再構成プロセス: の影響を受けます。 StreetSurf に触発され、実際の多様なストリート シーンの背景と動的な交通流情報を再構築するために LIDAR 再構築のみを使用します。私たちは最初に純粋な点群 SDF 再構成モジュール (LiDAR のみの暗黙的ニューラル再構成、LINR) を設計しました。その利点は、照明の変化、気象条件の変化、カメラのセンシングによって引き起こされるドメインの違いの影響を受けないことです。等。純粋な点群 SDF 再構成モジュールは、LiDAR レイを入力として受け取り、深度情報を予測し、最後にシーンの 3D メッシュ表現を構築します。
具体的には、原点 から方向
で放射された光線
に対して、ボリューム レンダリングを LIDAR に適用して、符号付き距離フィールド (SDF) ネットワークとレンダリング深度 D をトレーニングします。
ここで、 はサンプル ポイント のサンプリング深さ、 は累積透過率 (累積透過率) であり、近似関数を使用して取得されます。 NeuSのレンジモデル。
StreetSurf からインスピレーションを得て、この記事で提案する再構成プロセスのモデル入力は LIDAR レイから取得され、出力は予測深度です。サンプリングされた LIDAR ビーム ごとに、対数 L1 損失を
に適用します。これは、近距離モデルと遠距離モデルのレンダリング深度を組み合わせたものです。
ただし、 LINR 手法にはまだいくつかの課題があります。 LIDAR によって取得されるデータは本質的に希薄であるため、単一の LIDAR 点群フレームでは、標準の RGB 画像に含まれる情報の一部しかキャプチャできません。この違いは、効果的なトレーニングに必要な幾何学的詳細を提供する際の深度レンダリングの潜在的な欠点を浮き彫りにします。したがって、結果として再構築されたメッシュ内に多数のアーティファクトが発生する可能性があります。この課題に対処するために、Waymo シーケンス内のすべてのフレームを結合して点群の密度を高めることを提案します。
Waymo データセットの Top LiDAR の垂直視野の制限により、-17.6° ~ 2.4° の範囲の点群を取得するだけでは、周囲の高層ビルの再構成に明らかな制限があります。この課題に対処するために、Side LiDAR の点群を再構築用のサンプリング シーケンスに組み込むソリューションを導入します。自動運転車の前後左右に 4 つのブラインドフィリング レーダーが設置されており、垂直視野は [-90°、30°] に達し、視野範囲が狭いという欠点を効果的に補います。上部のライダー。側面 LIDAR と上部 LIDAR の間の点群密度の違いにより、高層ビル シーンの再構成品質を向上させるために、側面 LIDAR に高いサンプリング ウェイトを割り当てることを選択します。
再構築の品質評価: 動的オブジェクトによって引き起こされるオクルージョンと LIDAR ノイズの影響により、再構築の暗黙的表現にはある程度のノイズが存在する可能性があります。そこで、再構成精度を評価した。旧ドメインから大量の注釈付き点群データを取得できるため、旧ドメインで再レンダリングすることで旧ドメインのシミュレートされた点群データを取得し、再構成されたメッシュの精度を評価できます。二乗平均平方根誤差 (RMSE) と面取り距離 (CD) を使用して、シミュレートされた点群と元の実際の点群を測定します。
それぞれの説明については、配列再構築スコアといくつかの詳細なプロセスについては、元の付録を参照してください。
b) メッシュからポイントへのシミュレーション エンジン レンダリング プロセス : 上記の LINR メソッドを通じて静的背景メッシュを取得した後、Blender Python API を使用して変換します。データは .ply 形式から .fbx 形式の 3D モデル ファイルに変換され、最終的に背景メッシュがアセット ライブラリとしてオープン ソース シミュレーター CARLA にロードされます。
まず、Waymo のアノテーション ファイルを取得して、各トラフィック参加者のバウンディング ボックス カテゴリと 3 次元オブジェクト サイズを取得し、この情報に基づいて、CARLA のデジタル アセット ライブラリで同じカテゴリのトラフィック参加者を検索します。サイズが最も近いデジタル資産がインポートされ、トラフィック参加者モデルとして使用されます。 CARLA シミュレーターで利用可能なシーンの信頼性情報に基づいて、交通シーン内の検出可能なオブジェクトごとに検出ボックス抽出ツールを開発しました。詳細については、PCSim 開発ツールを参照してください。
図 3 さまざまなデータセットにおける交通参加者のオブジェクト サイズ (長さ、幅、高さ) の分布。図 3 からわかるように、この方法を使用してシミュレートされたオブジェクト サイズの分布の多様性は非常に幅広く、KITTI、nuScenes、Waymo、ONCE などの現在公開されているデータ セットを超えています。
Waymo をソース ドメイン データとして使用し、Waymo 上で再構築してより現実的な 3D メッシュを取得します。同時に、KITTI、nuScenes、ONCE をターゲット ドメイン シナリオとして使用し、これらのターゲット ドメイン シナリオで私たちの方法によって達成されるゼロショット パフォーマンスを検証します。
上記の章の導入に従って、Waymo データセットに基づいて 3D シーンレベルのメッシュ データを生成し、上記の評価基準を使用してどの 3D メッシュが Waymo ドメインで高品質であるかを判断します。スコアに基づいて最高の 146 メッシュを選択し、その後のターゲット ドメイン シミュレーション プロセスを実行します。
評価結果
ResimAD データセットのいくつかの視覚化例を以下に示します。
評価結果実験設定
ベースラインの選択: 提案された ReSimAD を 3 つの典型的なクロスドメイン ベースラインと比較します。 a) データ シミュレーションのベースラインb) シミュレーション エンジンのセンサー パラメーター設定を変更することによるデータ シミュレーションのベースライン; c) ドメイン アダプテーション (UDA) ベースライン.
- メトリクス: We Align 3D クロスドメイン オブジェクトの現在の評価基準検出では、BEV ベースの AP と 3D ベースの AP をそれぞれ評価指標として使用します。
- パラメータ設定: 詳細については論文を参照してください。
ここでは主な実験結果のみを示します。さらに詳しい結果論文については、お問い合わせください。
3 つのクロスドメイン設定における PV-RCNN/PV-RCNN の 2 つのモデルの適応パフォーマンス
上の表からわかること: UDA と教師なしドメイン アダプテーション (UDA) テクノロジを使用する ReSimAD の主な違いは、前者はモデル ドメイン移行にターゲット ドメイン 実際のシーン のサンプルを使用することです。 ReSimAD の実験設定では、ターゲット ドメイン内の実際の点群データに アクセスできないことが必要です。上の表からわかるように、ReSimAD によって得られたクロスドメインの結果は、UDA メソッドによって得られた結果と同等です。この結果は、商用目的で LIDAR センサーをアップグレードする必要がある場合、私たちの方法によりデータ収集のコストが大幅に削減され、ドメインの違いによるモデルの再トレーニングと再開発のサイクルがさらに短縮できることを示しています。
ReSimAD データは、ターゲット ドメインのコールド スタート データとして使用され、ターゲット ドメインで達成できる効果
##検証のために、ReSimAD が 3D 事前トレーニングに役立つより多くの点群データを生成できるかどうか、次の実験を設計しました: AD-PT (自動運転シナリオでバックボーン ネットワークを事前トレーニングするために最近提案された方法) を使用して事前トレーニングします。シミュレートされた点群 3D バックボーンをトレーニングし、ダウンストリームの実際のシーン データを使用して完全なパラメーターを微調整します。
ReSimAD を活用して、点群がより広範囲に分布するデータを生成します。 AD-PT での事前トレーニング結果と公平に比較するために、ReSimAD によって生成されるシミュレートされた点群データの目標量は約
- です。上の表では、ベースライン検出器は、AD-PT メソッドを使用して実際の事前トレーニング データ (ONCE データセット) とシミュレートされた事前トレーニング データ (ReSimAD によって提供)、および KITTI および Waymo データセットで 3D 事前トレーニングされています。下流側の微調整。上の表の結果は、さまざまなサイズのシミュレーション事前トレーニング データを使用すると、ダウンストリームでのモデルのパフォーマンスを継続的に向上できることを示しています。さらに、ReSimAD によって得られる事前トレーニング データのデータ取得コストは、モデルの事前トレーニングに ONCE を使用する場合と比較して非常に低く、ReSimAD によって得られる事前トレーニングのパフォーマンスは事前トレーニングと同等であることがわかります。 ONCE データセットのパフォーマンスの比較。
- ReSimAD を使用してシミュレーションを再構築する場合と、CARLA のデフォルト シミュレーションを使用する場合の視覚的な比較
以下に基づいています。 Waymo データセット 再構築されたメッシュと VDBFusion を使用した再構築の視覚的な比較
概要
この作業では、は、ゼロサンプルのターゲット ドメイン モデル転送タスクを実験する方法を検討することにコミットしています。このタスクでは、モデルがソース ドメインの事前トレーニング済みモデルを、ソース ドメインのサンプル データ情報にさらされることなくターゲット ドメイン シーンに正常に移行する必要があります。ターゲットドメイン。これまでの研究とは異なり、ソースドメインの暗黙的再構成とターゲットドメインの多様性シミュレーションに基づく3Dデータ生成技術を初めて検討し、この技術がデータ分布にさらされることなくより良いモデルを達成できることを検証しました。移行パフォーマンスは、一部の教師なしドメイン適応 (UDA) 方法よりもさらに優れています。
元のリンク: https://mp.weixin.qq.com/s/pmHFDvS7nXy-6AQBhvVzSw
以上がReSimAD: 仮想データを通じて知覚モデルの汎化パフォーマンスを向上させる方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









昨日の面接で、ロングテール関連の質問をしたかと聞かれたので、簡単にまとめてみようと思いました。自動運転のロングテール問題とは、自動運転車におけるエッジケース、つまり発生確率が低い考えられるシナリオを指します。認識されているロングテール問題は、現在、単一車両のインテリジェント自動運転車の運用設計領域を制限している主な理由の 1 つです。自動運転の基礎となるアーキテクチャとほとんどの技術的問題は解決されており、残りの 5% のロングテール問題が徐々に自動運転の開発を制限する鍵となってきています。これらの問題には、さまざまな断片的なシナリオ、極端な状況、予測不可能な人間の行動が含まれます。自動運転におけるエッジ シナリオの「ロング テール」とは、自動運転車 (AV) におけるエッジ ケースを指します。エッジ ケースは、発生確率が低い可能性のあるシナリオです。これらの珍しい出来事

従来のコンピューティングを超える能力を備えているだけでなく、より低コストでより効率的なパフォーマンスを実現する人工知能モデルを想像してみてください。これは SF ではありません。世界で最も強力なオープンソース MoE モデルである DeepSeek-V2[1] が登場しました。 DeepSeek-V2 は、経済的なトレーニングと効率的な推論の特徴を備えた強力な専門家混合 (MoE) 言語モデルです。これは 236B のパラメータで構成されており、そのうち 21B は各マーカーをアクティブにするために使用されます。 DeepSeek67B と比較して、DeepSeek-V2 はパフォーマンスが優れていると同時に、トレーニング コストを 42.5% 節約し、KV キャッシュを 93.3% 削減し、最大生成スループットを 5.76 倍に高めます。 DeepSeek は一般的な人工知能を研究する会社です

AI は確かに数学を変えつつあります。最近、この問題に細心の注意を払っている陶哲軒氏が『米国数学協会会報』(米国数学協会会報)の最新号を送ってくれた。 「機械は数学を変えるのか?」というテーマを中心に、多くの数学者が意見を述べ、そのプロセス全体は火花に満ち、ハードコアで刺激的でした。著者には、フィールズ賞受賞者のアクシャイ・ベンカテシュ氏、中国の数学者鄭楽軍氏、ニューヨーク大学のコンピューター科学者アーネスト・デイビス氏、その他業界で著名な学者を含む強力な顔ぶれが揃っている。 AI の世界は劇的に変化しています。これらの記事の多くは 1 年前に投稿されたものです。

Google が推進する JAX のパフォーマンスは、最近のベンチマーク テストで Pytorch や TensorFlow のパフォーマンスを上回り、7 つの指標で 1 位にランクされました。また、テストは最高の JAX パフォーマンスを備えた TPU では行われませんでした。ただし、開発者の間では、依然として Tensorflow よりも Pytorch の方が人気があります。しかし、将来的には、おそらくより大規模なモデルが JAX プラットフォームに基づいてトレーニングされ、実行されるようになるでしょう。モデル 最近、Keras チームは、ネイティブ PyTorch 実装を使用して 3 つのバックエンド (TensorFlow、JAX、PyTorch) をベンチマークし、TensorFlow を使用して Keras2 をベンチマークしました。まず、主流のセットを選択します

Boston Dynamics Atlas は正式に電動ロボットの時代に突入します!昨日、油圧式アトラスが歴史の舞台から「涙ながらに」撤退したばかりですが、今日、ボストン・ダイナミクスは電動式アトラスが稼働することを発表しました。ボストン・ダイナミクス社は商用人型ロボットの分野でテスラ社と競争する決意を持っているようだ。新しいビデオが公開されてから、わずか 10 時間ですでに 100 万人以上が視聴しました。古い人が去り、新しい役割が現れるのは歴史的な必然です。今年が人型ロボットの爆発的な年であることは間違いありません。ネットユーザーは「ロボットの進歩により、今年の開会式は人間のように見え、人間よりもはるかに自由度が高い。しかし、これは本当にホラー映画ではないのか?」とコメントした。ビデオの冒頭では、アトラスは仰向けに見えるように地面に静かに横たわっています。次に続くのは驚くべきことです

今月初め、MIT やその他の機関の研究者らは、MLP に代わる非常に有望な代替案である KAN を提案しました。 KAN は、精度と解釈可能性の点で MLP よりも優れています。また、非常に少数のパラメーターを使用して、多数のパラメーターを使用して実行する MLP よりも優れたパフォーマンスを発揮できます。たとえば、著者らは、KAN を使用して、より小規模なネットワークと高度な自動化で DeepMind の結果を再現したと述べています。具体的には、DeepMind の MLP には約 300,000 個のパラメーターがありますが、KAN には約 200 個のパラメーターしかありません。 KAN は、MLP が普遍近似定理に基づいているのに対し、KAN はコルモゴロフ-アーノルド表現定理に基づいているのと同様に、強力な数学的基礎を持っています。以下の図に示すように、KAN は

テスラのロボット「オプティマス」の最新映像が公開され、すでに工場内で稼働可能となっている。通常の速度では、バッテリー(テスラの4680バッテリー)を次のように分類します:公式は、20倍の速度でどのように見えるかも公開しました - 小さな「ワークステーション」上で、ピッキング、ピッキング、ピッキング:今回は、それがリリースされたハイライトの1つビデオの内容は、オプティマスが工場内でこの作業を完全に自律的に行い、プロセス全体を通じて人間の介入なしに完了するというものです。そして、オプティマスの観点から見ると、自動エラー修正に重点を置いて、曲がったバッテリーを拾い上げたり配置したりすることもできます。オプティマスのハンドについては、NVIDIA の科学者ジム ファン氏が高く評価しました。オプティマスのハンドは、世界の 5 本指ロボットの 1 つです。最も器用。その手は触覚だけではありません

目標検出は自動運転システムにおいて比較的成熟した問題であり、その中でも歩行者検出は最も初期に導入されたアルゴリズムの 1 つです。ほとんどの論文では非常に包括的な研究が行われています。ただし、サラウンドビューに魚眼カメラを使用した距離認識については、あまり研究されていません。放射状の歪みが大きいため、標準のバウンディング ボックス表現を魚眼カメラに実装するのは困難です。上記の説明を軽減するために、拡張バウンディング ボックス、楕円、および一般的な多角形の設計を極/角度表現に探索し、これらの表現を分析するためのインスタンス セグメンテーション mIOU メトリックを定義します。提案された多角形モデルの FisheyeDetNet は、他のモデルよりも優れたパフォーマンスを示し、同時に自動運転用の Valeo 魚眼カメラ データセットで 49.5% の mAP を達成しました。
