効率16倍アップ! VRSO: 純粋に視覚的な静的オブジェクトの 3D アノテーションにより、データの閉ループが開かれます。
アノテーションの悲しみ
信号機、誘導標識、トラフィック コーンなどの静的物体検出 (SOD) のほとんどのアルゴリズムはデータ駆動型のディープ ニューラル ネットワークであり、大量のトレーニングデータ。現在の実践では、ロングテールのケースを修正するために、LiDAR でスキャンした点群データ上の多数のトレーニング サンプルに手動でアノテーションを付けることが一般的に行われています。
手動のアノテーションでは、実際のシーンの変動性と複雑性を捉えるのが難しく、オクルージョン、さまざまな照明条件、さまざまな視野角を考慮できないことがよくあります (図 1 の黄色の矢印)。 。 プロセス全体には長いリンクがあり、非常に時間がかかり、エラーが発生しやすく、コストがかかります (図 2)。 したがって、現在企業は、特に純粋なビジョンに基づいた自動ラベル付けソリューションを探しています。結局のところ、すべての車に LiDAR が搭載されているわけではありません。
VRSO は、静的オブジェクト アノテーション用のビジョンベースのアノテーション システムです。主に SFM、2D オブジェクト検出、インスタンス セグメンテーションの結果からの情報を使用します。全体的な効果:
- アノテーションの平均投影誤差はわずか 2.6 ピクセルで、Waymo アノテーション (10.6 ピクセル) の約 4 分の 1 です。
- 手動アノテーションと比較して、速度は約 16 倍向上します
静的オブジェクトの場合、VRSO は、インスタンスのセグメンテーションとキーポイントの輪郭抽出を通じて、さまざまな視野角からの静的オブジェクトの統合と重複除去という課題、およびオクルージョンの問題による不十分な観察の困難を解決します。により、ラベルの精度が向上します。 図 1 より、Waymo Open データセットの手動アノテーション結果と比較して、VRSO はより高い堅牢性と幾何学的精度を示しています。
(皆さんもこれを見たことがあるでしょう。親指を上にスライドさせて一番上のカードをクリックして私をフォローしてみてはいかがでしょうか。 操作全体にかかる時間は 1.328 秒だけです。将来役立つ情報をすべてお届けします。うまくいったらどうなるか~)
状況を打破する方法
VRSO システムは主に 2 つの部分に分かれています。 シーン再構成 および 静的オブジェクトには のマークが付けられます。
#再構築部分は焦点ではなく、SFM アルゴリズムに基づいて画像の姿勢とまばらな 3D キー ポイントを復元します。
静的オブジェクト アノテーション アルゴリズムと疑似コードの組み合わせの一般的なプロセスは次のとおりです (以下で段階的に詳しく説明します):
- 既製の 2D オブジェクト検出およびセグメンテーション アルゴリズムを使用する候補を生成します
- SFM モデルの 3D-2D キーポイント対応を使用して、フレーム全体の 2D インスタンスを追跡します
- 再投影の一貫性を導入して、静的オブジェクトの 3D 注釈パラメータを最適化します
1. 関連付けの追跡
- #ステップ 1: 3D 境界ボックス内のキー ポイントに基づいて 3D ポイントを抽出します。 SFMモデル。
- ステップ 2: 2D-3D マッチング関係に基づいて、2D マップ上の各 3D 点の座標を計算します。
- ステップ 3: 2D マップ座標とインスタンス セグメンテーション コーナー ポイントに基づいて、現在の 2D マップ上の 3D ポイントの対応するインスタンスを決定します。
- ステップ 4: 各 2D 画像の 2D 観察と 3D 境界ボックスの間の対応を決定します。
2.プロポーザルの生成
ビデオ クリップ全体の静的オブジェクトの 3D フレーム パラメーター (位置、方向、サイズ) を初期化します。 SFM の各キー ポイントには、正確な 3D 位置と対応する 2D 画像があります。 2D インスタンスごとに、2D インスタンス マスク内の特徴点が抽出されます。次に、対応する 3D キーポイントのセットを 3D 境界ボックスの候補として考慮できます。
道路標識は空間内の方向をもつ長方形として表され、移動 (,,)、方向 (θ)、サイズ (幅と高さ) を含む 6 つの自由度があります。その奥行きを考慮すると、信号機には 7 つの自由度があります。トラフィック コーンは信号機と同様に表されます。
3.提案の洗練
- ステップ 1: 2D インスタンスのセグメンテーションから各静的オブジェクトの輪郭を抽出します。
- ステップ 2: 輪郭の輪郭に最小指向性バウンディング ボックス (OBB) を適合させます。
- ステップ 3: 最小境界ボックスの頂点を抽出します。
- ステップ 4: 頂点と中心点に基づいて方向を計算し、頂点の順序を決定します。
- ステップ 5: 2D 検出とインスタンスのセグメンテーションの結果に基づいて、セグメンテーションとマージのプロセスが実行されます。
- ステップ 6: オクルージョンを含む観察を検出して拒否します。 2D インスタンス セグメンテーション マスクから頂点を抽出するには、各標識の 4 つの角がすべて表示されている必要があります。オクルージョンがある場合、軸に合わせたバウンディング ボックス (AABB) がインスタンス セグメンテーションから抽出され、AABB と 2D 検出ボックスの面積比が計算されます。オクルージョンがない場合、これら 2 つの面積計算方法は近いはずです。
4. 三角形分割
三角形分割を通じて 3D 条件下で静的オブジェクトの初期頂点値を取得します。
シーン再構築中に SFM とインスタンス セグメンテーションによって取得された 3D バウンディング ボックス内のキーポイントの数をチェックすることにより、キーポイントの数がしきい値を超えるインスタンスのみが、安定した有効な観測であると見なされます。これらのインスタンスでは、対応する 2D 境界ボックスが有効な観測値とみなされます。複数の画像の 2D 観察を通じて、2D バウンディング ボックスの頂点が三角形分割され、バウンディング ボックスの座標が取得されます。
マスク上の「左下、左上、右上、右上、および右下」の頂点を区別しない円形標識の場合、これらの円形標識を識別する必要があります。 2D 検出結果は円形オブジェクトの観察として使用され、2D インスタンス セグメンテーション マスクは輪郭抽出に使用されます。中心点と半径は、最小二乗フィッティング アルゴリズムを通じて計算されます。円形標識のパラメータには、中心点 (,,)、方向 (θ)、半径 () が含まれます。
5.tracking洗練
SFMに基づいて特徴点マッチングを追跡します。 3D バウンディング ボックスの頂点と 2D バウンディング ボックスの投影 IoU のユークリッド距離に基づいて、これらの分離されたインスタンスをマージするかどうかを決定します。マージが完了すると、インスタンス内の 3D 特徴点をクラスタリングして、より多くの 2D 特徴点を関連付けることができます。 2D 特徴点を追加できなくなるまで、反復的な 2D-3D 関連付けが実行されます。
6. 最終的なパラメータの最適化
長方形の記号を例に挙げると、最適化できるパラメータには位置 (,,) と方向 (θ) が含まれます。 ) とサイズ (,)、合計 6 つの自由度。主な手順は次のとおりです。
- 6 つの自由度を 4 つの 3D 点に変換し、回転行列を計算します。
- 変換された 4 つの 3D 点を 2D 画像に投影します。
- 投影結果とインスタンス セグメンテーションによって得られたコーナー ポイント結果との間の残差を計算します。
- Huber を使用して境界ボックス パラメーターを最適化および更新する
ラベリング効果
要約すると、
VRSO フレームワークは、静的オブジェクトの高精度で一貫した 3D アノテーションを実現し、検出、セグメンテーション、およびSFM アルゴリズムは、インテリジェント運転アノテーションにおける手動介入を排除し、LiDAR ベースの手動アノテーションと同等の結果を提供します。定性的および定量的評価は、広く認知されている Waymo Open Dataset を使用して実施されました。手動によるアノテーションと比較して、最高の一貫性と精度を維持しながら、速度は約 16 倍向上しました。以上が効率16倍アップ! VRSO: 純粋に視覚的な静的オブジェクトの 3D アノテーションにより、データの閉ループが開かれます。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









今朝の4月22日のニュースによると、デンザの新型フラッグシップモデルZ9GTがデビューしたとのことなので、実機の写真をいくつか紹介したいと思います。公式紹介によると、新型車はスマート高級フラッグシップセダンとして位置付けられており、全長はDクラス高級セダンのレベルに達しており、外観作成の取り組みはBYDのグローバルデザインディレクター、ヴォルフガング・エッガー氏が主導したという。 「e3」ブラックテクノロジー、複数のライダーなどの構成が装備されており、ほぼ1000馬力を発揮します。デザインの面では、デンザ Z9GT は東洋と西洋の美学を完璧に融合しており、目を引くフロントフェイスを備えています。車体側面は、Z字型の装飾ラインが絶妙で滑らかで、車体重心が比較的後方にあり、後傾姿勢を生み出し、非常にスポーティです。車体後部は丸みを帯びたフルフォルムで、テールライトは中央から両側に伸び、電動尾翼と共鳴し、車両全体の高い認知度をもたらしています。価値

4 月 23 日のニュースによると、最近、待望の長城戦車 300Hi4-T がついに正式に市場に登場しました。このモデルは、そのユニークな構成と希少性により広く注目を集めています。今回発売されるのは Tank 300Hi4-T の 1 構成のみで、希望小売価格は 269,800 元、販売台数は 3,000 台のみであると報告されています。タンク 300Hi4-T は、外観デザイン的にもオフロードの雰囲気が強く出ています。非耐荷重ボディを備えたプロ仕様のオフロードシャーシを採用しており、車両の安定性とオフロード能力が向上していることがわかります。車のフロント部分では、象徴的な丸いライトセットが3フレームの水平グリルを引き立て、シルバーのクロームメッキのフロントグリルが車の外観をよりタフで力強いものにしています。ボディと同色のホイールアーチやドアミラーが高級感を高めています。

4月23日のニュース: 最新の報道によると、待望のピュアエレクトリックセダンEnjoy S9が、来たる北京モーターショーで初めて一般公開されるとのこと。この車は、BAIC Blue ValleyとHuaweiが業界大手2社のために共同開発した傑作であり、中大型セダン市場に位置し、50万元以上で販売されると予想されている。 S9 は最近、工業情報化省への関連申請プロセスを完了し、正式な発売が近づいていることを示しています。公開された情報から判断すると、新型車は印象的な外観デザインを持ち、最新の貫通型LEDライト群を採用し、ヘッドライト群内に3組の光源が繊細に配置されている。クローズドフロントグリルと目を引くフロントサラウンド放熱ベントデザインが相まって、安定感がありながらもファッショナブルな雰囲気を作り出しています。データ編集者は、S9 ボディのエレガントなサイド ラインを理解し、楽しんでいます。

2024年4月25日、長城ハバルは新世代ハバルH6、新世代ハバルH9、2024年ハバルラプターなどのスターモデルとともに第18回北京国際自動車展示会に堂々と登場した。中国Havalは世界的に信頼されており、Havalブランドは世界市場への追求を加速しています 今回の自動車ショーで、長城Havalは「中国Haval、世界の信頼」をテーマとし、ユーザーに対するHavalブランドの確固たるコミットメントを完全に解釈しました。 「グローバルSUVエキスパート」。 Great Wall Haval は、技術革新によって 13 年間にわたり SUV 分野に深く関与し、ハードコアな製品機能と信頼できるサービスを利用して消費者に高品質の SUV 製品を提供してきました。中国をリードする企業から世界に進出する企業まで、長城哈爾は引き続き優れたSUV製品エクスペリエンスを創造し、より多くのユーザーの期待と信頼に応え、中国ブランドのグローバル化を牽引していきます。

前に書かれたプロジェクトのリンク: https://nianticlabs.github.io/mickey/ 2 枚の写真が与えられた場合、それらの写真間の対応関係を確立することで、それらの間のカメラのポーズを推定できます。通常、これらの対応は 2D 対 2D であり、推定されたポーズはスケール不定です。いつでもどこでもインスタント拡張現実などの一部のアプリケーションでは、スケール メトリクスの姿勢推定が必要なため、スケールを回復するために外部深度推定器に依存します。この論文では、3D カメラ空間でのメトリックの対応を予測できるキーポイント マッチング プロセスである MicKey を提案します。画像全体の 3D 座標マッチングを学習することで、相対的なメトリックを推測できるようになります。

2024年5月9日の報道によると、今年の北京国際自動車ショーで、長城汽車の子会社である魏ブランドが新モデル「ブルーマウンテン・スマート・ドライビング・エディション」を発表し、多くの来場者の注目を集めた。 「自動車を知る皇帝のビジョン」によると、この待望の新車は今年6月に正式に市場に投入される予定だという。ブルー マウンテン スマート ドライビング エディションのデザインは、発売中のブルー マウンテン DHT-PHEV のクラシックな外観を踏襲していますが、インテリジェントな運転認識の点で大幅にアップグレードされています。最も目を引くのは、屋根上に望楼型のライダーが設置されていることである。同時に、車両にはミリ波レーダー3台と超音波レーダー12台、高精細視覚認識カメラ11台も搭載されている。合計 27 個の運転支援センサーにより、車両の環境認識能力が大幅に向上します。によると

4 月 25 日、第 18 回北京国際自動車展示会 2024 が正式に開幕し、デンザ モーターズは史上最も強力なスマート 高級製品マトリックスを展示してホール W4 に見事に登場しました。ブースは多くの人々で混雑し、最も人気のあるチェックインとなりました。今回の北京モーターショーをぜひご注目ください!その中で、デンザ Z9GT は、世界をリードする破壊的テクノロジー プラットフォームを初めて使用した、インテリジェント高級フラッグシップ セダンとして位置付けられています。高級車の電動化の新たなトレンドをリードするイー・サンファン。アイガー氏が主導し、破壊的なテクノロジーを活用したデンザ Z9GT は、今年のオートショーの焦点です。 デンザの新しいデザインコンセプト「エレガンス・イン・モーション」の最初のモデルとして、デンザ Z9GT の外観は、エガー氏が主導し、完璧にデザインされました。 。

上記と著者の個人的な理解: この論文は、自動運転アプリケーションにおける現在のマルチモーダル大規模言語モデル (MLLM) の主要な課題、つまり MLLM を 2D 理解から 3D 空間に拡張する問題の解決に特化しています。自動運転車 (AV) は 3D 環境について正確な決定を下す必要があるため、この拡張は特に重要です。 3D 空間の理解は、情報に基づいて意思決定を行い、将来の状態を予測し、環境と安全に対話する車両の能力に直接影響を与えるため、AV にとって重要です。現在のマルチモーダル大規模言語モデル (LLaVA-1.5 など) は、ビジュアル エンコーダーの解像度制限や LLM シーケンス長の制限により、低解像度の画像入力しか処理できないことがよくあります。ただし、自動運転アプリケーションには次の要件が必要です。
