LIDAR 点群の自己教師あり事前トレーニング SOTA に使用されます!
論文のアイデア:
マスクされた自動エンコーディングは、テキスト、画像、そして最近では点群の Transformer モデルの事前トレーニング パラダイムとして成功しました。未加工の自動車データセットは、一般に 3D オブジェクト検出 (OD) などのタスクのアノテーションよりも収集コストが低いため、自己教師ありの事前トレーニングに適しています。ただし、点群用のマスクされたオートエンコーダーの開発は、合成データと屋内データのみに焦点を当ててきました。したがって、既存の方法では、その表現とモデルを、均一な点密度を備えた小さくて密な点群に調整しています。この研究では、自動車環境における点群のマスクされた自動エンコーディングを調査します。点群はまばらであり、その密度は同じシーン内の異なるオブジェクト間で大きく異なる可能性があります。この目的を達成するために、この論文では、ボクセル表現用に設計された単純なマスクされた自動エンコーディング事前トレーニング スキームである Voxel-MAE を提案します。この論文では、マスクされたボクセルを再構築し、空のボクセルと空でないボクセルを区別するために、Transformer ベースの 3D オブジェクト検出器バックボーンを事前にトレーニングします。私たちの方法では、困難な nuScenes データセット上で 3D OD パフォーマンスが 1.75 mAP および 1.05 NDS に向上しました。さらに、事前トレーニングに Voxel-MAE を使用することにより、ランダムな初期化を使用した同等のデータよりも優れたパフォーマンスを得るには、注釈付きデータが 40% のみ必要であることを示します。
主な貢献:
この論文は、Voxel-MAE (ボクセル化された点群上に MAE スタイルの自己教師あり事前トレーニングを展開する方法) を提案し、評価しました。大規模な自動車点群データセット nuScenes 上で。この記事の方法は、自動車用点群 Transformer バックボーンを使用した初の自己監視型事前トレーニング スキームです。
私たちはボクセル表現に合わせて手法を調整し、独自の再構成タスクのセットを使用してボクセル化された点群の特徴を捉えます。
この記事では、私たちの方法がデータ効率が高く、注釈付きデータの必要性が減少することを証明します。事前トレーニングを使用すると、この論文は、注釈付きデータの 40% のみを使用した場合、完全に教師ありのデータよりも優れたパフォーマンスを示しました。
さらに、この論文では、Voxel-MAE は、既存の自己教師あり手法と比較して、Transformer ベースの検出器のパフォーマンスが mAP で 1.75 パーセント ポイント、NDS で 1.05 パーセント ポイント向上することを発見しました。 2回。
ネットワーク設計:
この作業の目的は、MAE スタイルの事前トレーニングをボクセル化された点群に拡張することです。図 2 に示すように、中心的なアイデアは依然として、エンコーダーを使用して入力の部分的な観測から豊富な潜在表現を作成し、その後デコーダーを使用して元の入力を再構築することです。事前トレーニング後、エンコーダーは 3D オブジェクト検出器のバックボーンとして使用されます。ただし、画像と点群の間には基本的な違いがあるため、Voxel-MAE の効率的なトレーニングにはいくつかの修正が必要です。
図 2: この記事の Voxel-MAE 法。まず、点群が固定のボクセル サイズでボクセル化されます。図内のボクセル サイズは、視覚化の目的で誇張されています。トレーニング前に、空ではないボクセルの大部分 (70%) がランダムにマスクされます。次に、エンコーダは可視ボクセルにのみ適用され、動的ボクセル特徴埋め込みを使用してこれらのボクセルを埋め込みます [46]。マスクされた空でないボクセルとランダムに選択された空のボクセルは、同じ学習可能なマスク トークンを使用して埋め込まれます。次に、デコーダはマスク トークンのシーケンスと可視ボクセルのエンコードされたシーケンスを処理して、マスクされた点群を再構築し、空のボクセルを空でないボクセルから区別します。事前トレーニング後、デコーダーは破棄され、エンコーダーがマスクされていない点群に適用されます。
図 1: MAE (左) は、画像を固定サイズの重複しないパッチに分割します。既存のマスクされた点モデリング手法 (中央) は、最遠点サンプリングと k 最近傍点を使用して、固定数の点群パッチを作成します。私たちの方法 (右) では、重複しないボクセルと動的ポイント数を使用します。 #########実験結果: ##################################### #
引用:
Hess G、Jaxing J、Svensson E、他。 LIDAR 点群での自己教師あり事前トレーニング用のマスクされたオートエンコーダ[C]//コンピューター ビジョンのアプリケーションに関する IEEE/CVF 冬季会議の議事録。 2023: 350-359.
以上がLIDAR 点群の自己教師あり事前トレーニング SOTA に使用されます!の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











StableDiffusion3 の論文がついに登場しました!このモデルは2週間前にリリースされ、Soraと同じDiT(DiffusionTransformer)アーキテクチャを採用しており、リリースされると大きな話題を呼びました。前バージョンと比較して、StableDiffusion3で生成される画像の品質が大幅に向上し、マルチテーマプロンプトに対応したほか、テキスト書き込み効果も向上し、文字化けが発生しなくなりました。 StabilityAI は、StableDiffusion3 はパラメータ サイズが 800M から 8B までの一連のモデルであると指摘しました。このパラメーター範囲は、モデルを多くのポータブル デバイス上で直接実行できることを意味し、AI の使用を大幅に削減します。

最初のパイロットおよび重要な記事では、主に自動運転技術で一般的に使用されるいくつかの座標系と、それらの間の相関と変換を完了し、最終的に統合環境モデルを構築する方法を紹介します。ここでの焦点は、車両からカメラの剛体への変換 (外部パラメータ)、カメラから画像への変換 (内部パラメータ)、および画像からピクセル単位への変換を理解することです。 3D から 2D への変換には、対応する歪み、変換などが発生します。要点:車両座標系とカメラ本体座標系を平面座標系とピクセル座標系に書き換える必要がある 難易度:画像の歪みを考慮する必要がある 歪み補正と歪み付加の両方を画面上で補正する2. はじめに ビジョンシステムには、ピクセル平面座標系 (u, v)、画像座標系 (x, y)、カメラ座標系 ()、世界座標系 () の合計 4 つの座標系があります。それぞれの座標系には関係性があり、

自動運転では軌道予測が重要な役割を果たしており、自動運転軌道予測とは、車両の走行過程におけるさまざまなデータを分析し、将来の車両の走行軌跡を予測することを指します。自動運転のコアモジュールとして、軌道予測の品質は下流の計画制御にとって非常に重要です。軌道予測タスクには豊富な技術スタックがあり、自動運転の動的/静的知覚、高精度地図、車線境界線、ニューラル ネットワーク アーキテクチャ (CNN&GNN&Transformer) スキルなどに精通している必要があります。始めるのは非常に困難です。多くのファンは、できるだけ早く軌道予測を始めて、落とし穴を避けたいと考えています。今日は、軌道予測に関するよくある問題と入門的な学習方法を取り上げます。関連知識の紹介 1. プレビュー用紙は整っていますか? A: まずアンケートを見てください。

この論文では、自動運転においてさまざまな視野角 (遠近法や鳥瞰図など) から物体を正確に検出するという問題、特に、特徴を遠近法 (PV) 空間から鳥瞰図 (BEV) 空間に効果的に変換する方法について検討します。 Visual Transformation (VT) モジュールを介して実装されます。既存の手法は、2D から 3D への変換と 3D から 2D への変換という 2 つの戦略に大別されます。 2D から 3D への手法は、深さの確率を予測することで高密度の 2D フィーチャを改善しますが、特に遠方の領域では、深さ予測に固有の不確実性により不正確さが生じる可能性があります。 3D から 2D への方法では通常、3D クエリを使用して 2D フィーチャをサンプリングし、Transformer を通じて 3D と 2D フィーチャ間の対応のアテンション ウェイトを学習します。これにより、計算時間と展開時間が増加します。

著者の個人的な考えの一部 自動運転の分野では、BEV ベースのサブタスク/エンドツーエンド ソリューションの開発に伴い、高品質のマルチビュー トレーニング データとそれに対応するシミュレーション シーンの構築がますます重要になってきています。現在のタスクの問題点に対応して、「高品質」は 3 つの側面に分離できます。 さまざまな次元のロングテール シナリオ: 障害物データ内の近距離車両、車両切断中の正確な進行角、車線などラインデータ 曲率の異なるカーブやランプ・合流・合流などの撮影が難しいシーン。これらは多くの場合、大量のデータ収集と複雑なデータ マイニング戦略に依存しており、コストがかかります。 3D 真の値 - 一貫性の高い画像: 現在の BEV データ取得は、センサーの設置/校正、高精度マップ、再構成アルゴリズム自体のエラーの影響を受けることがよくあります。これが私を導いた

19 年前の論文を突然発見 GSLAM: A General SLAM Framework and Benchmark オープンソース コード: https://github.com/zdzhaoyong/GSLAM 全文に直接アクセスして、この作品の品質を感じてください ~ 1 抽象的な SLAM テクノロジー近年多くの成功を収め、多くのハイテク企業の注目を集めています。ただし、既存または新たなアルゴリズムへのインターフェイスを使用して、速度、堅牢性、移植性に関するベンチマークを効果的に実行する方法は依然として問題です。この論文では、GSLAM と呼ばれる新しい SLAM プラットフォームを提案します。これは、評価機能を提供するだけでなく、研究者が独自の SLAM システムを迅速に開発するための有用な方法を提供します。

PDF、Web ページ、ポスター、Excel グラフの内容を自動的に分析できる大型モデルは、アルバイトにとってはあまり便利ではありません。上海 AILab、香港中文大学、その他の研究機関が提案した InternLM-XComposer2-4KHD (略称 IXC2-4KHD) モデルは、これを実現します。解像度制限が 1500x1500 以下である他のマルチモーダル大型モデルと比較して、この作業ではマルチモーダル大型モデルの最大入力画像が 4K (3840x1600) 解像度を超え、任意のアスペクト比と 336 ピクセルをサポートし、 4K 動的解像度の変更。発売から3日後、このモデルはHuggingFaceのビジュアル質疑応答モデルの人気ランキングで1位となった。扱いやすい

この四角い男性は、目の前にいる「招かれざる客」の正体について考えながら眉をひそめていることに注意してください。彼女が危険な状況にあることが判明し、これに気づくと、彼女は問題を解決するための戦略を見つけるためにすぐに頭の中で探索を始めました。最終的に、彼女は現場から逃走し、できるだけ早く助けを求め、直ちに行動を起こすことにしました。同時に、反対側の人も彼女と同じことを考えていた……『マインクラフト』では、登場人物全員が人工知能によって制御されている、そんなシーンがありました。それぞれに個性的な設定があり、例えば先ほどの女の子は17歳ながら賢くて勇敢な配達員です。彼らは記憶力と思考力を持ち、Minecraft の舞台となるこの小さな町で人間と同じように暮らしています。彼らを動かすのはまったく新しいものであり、
