新タイトル:リアルタイムレンダリングが進化!光線に基づく革新的な 3D 再構成手法
写真
論文リンク:https://arxiv.org/pdf/2310.19629
コードリンク:https://github.com/vLAR-group/RayDF
ホームページ: 書き換える必要があるコンテンツは次のとおりです: https://vlar-group.github.io/RayDF .html
書き換えられた内容: 実装方法:
RayDF の全体的なプロセスとコンポーネントは次のとおりです (図 1 を参照)
1. はじめに
機械学習による正確かつ効率的な 3D 形状表現は、視覚やロボット工学の分野における多くの最先端のアプリケーションにおいて非常に重要です。ただし、3D 座標に基づく既存の暗黙的な式では、3D 形状を表現したり 2D 画像をレンダリングしたりするときに高価な計算コストが必要になりますが、これとは対照的に、レイベースの方法は 3D 形状を効率的に推論できます。ただし、既存の光線ベースの手法では、複数の視野角での幾何学的一貫性が考慮されていないため、未知の視野角で正確な幾何学的形状を復元することが困難です。 RayDF、マルチビューの幾何学的一貫性のためのレイベースの暗黙的な表現方法。この方法は、新しい二重光線可視性分類器とマルチビュー一貫性最適化モジュール (最適化モジュール)
を導入することにより、単純な光線表面距離フィールドに基づいており、幾何学的条件を満たす光線表面距離を取得する方法を学習します。複数の視野角の一貫性。実験結果は、修正された方法が 3 つのデータセットで優れた 3D 表面再構成パフォーマンスを達成し、座標ベースの方法よりも 1000 倍速いレンダリング速度を達成することを示しています (表 1 を参照)。
主な貢献は次のとおりです:
光線表面距離フィールドを使用して 3 次元形状を表現し、この式は、既存の座標ベースの表現よりも効率的です。
- 新しい二重光線可視性分類器を設計しました。光線のペアの空間関係を学習することにより、学習された光線表面距離フィールドは、複数の視野角の下で幾何学的一貫性を維持できます。
- 3 次元形状再構成におけるこの方法の精度と効率は、複数のデータセットで証明されています。
-
2. 方法
図 2 光線パラメータ化と光線表面距離フィールドのネットワーク構造
デュアルレイ可視性分類器のフレームワーク構造を図 3 に示します。
(1) まず、補助ネットワーク デュアルレイ可視性分類器のトレーニング用のレイ ペアを構築します。画像内の光線 (画像内のピクセルに対応) の場合、対応する空間表面点はその光線表面距離によってわかります。それをトレーニング セット内の残りの視野角に投影して別の光線を取得し、この光線を取得します。対応する光線と表面の距離があり、この記事では 2 つの光線が互いに見えるかどうかを判断するためのしきい値を 10 mm に設定しています。
(2) 第 2 段階は、メイン ネットワークの光線表面距離ネットワークをトレーニングして、その予測距離フィールドがマルチビューの一貫性を満たすようにすることです。図 4 に示すように、主光線とその表面点の場合、表面点は球の中心で均一にサンプリングされ、いくつかのマルチビュー光線が得られます。メイン レイとこれらのマルチビュー レイを 1 つずつペアにすると、トレーニングされたデュアルレイ可視性分類器を通じて相互の可視性を取得できます。次に、光線-表面距離ネットワークを通じてこれらの光線の光線-表面距離を予測します。主光線と特定のサンプリング光線が相互に見える場合、2 つの光線の光線-表面距離によって計算された表面点は同じになるはずです。ポイント; によると、対応する損失関数が設計され、メイン ネットワークがトレーニングされ、最終的に光線表面距離フィールドがマルチビューの一貫性を満たすことが可能になります。
2.4 表面法線導出と外れ値点の除去
シーン表面の端の深度値には突然変異 (不連続性) があることが多く、神経的なネットワークは連続関数であるため、前述の光線表面距離フィールドでは、表面のエッジでの不正確な距離値が容易に予測され、その結果、エッジの幾何学的表面にノイズが発生します。幸いなことに、図 5 に示すように、設計された光線表面距離フィールドには優れた特徴があります。推定された各 3 次元表面点の法線ベクトルは、ネットワークの自動微分を通じて閉じた形式で簡単に見つけることができます。したがって、ネットワークの推論段階で表面点の法線ベクトルユークリッド距離を計算することができ、その距離値が閾値よりも大きい場合、表面点を外れ値とみなし除去することで、きれいな三次元再構成表面を得ることができます。 。
3.2 DM-SR での評価データセット
表 3 からわかるように、RayDF は最も重要な ADE 指標のすべてのベースラインを上回っています。同時に、グループ 2 の実験では、RayDF は正確な表面形状を確実に復元しながら、高品質の新しいビュー合成を取得することができました (図 7 を参照)。
図 7 DM-SR データ セットの視覚的比較
3.3 ScanNet データセットの評価
表 4 は、困難な現実世界のシナリオにおける RayDF とベースラインのパフォーマンスを比較しています。最初と 2 番目のグループでは、RayDF はほぼすべての評価指標でベースラインを大幅に上回り、複雑な現実世界の 3D シーンの回復において明らかな利点を示しています
##以下は、図 8 ScanNet データセットの視覚的な比較を書き直したものです。 図 8 に、ScanNet データセットの視覚的な比較結果を示します
3.4 アブレーション研究
Blender データセットでアブレーション実験を実施しました論文の表 5 は、重要なアブレーション実験を示しています二重光線可視性分類器の結果を表 5 (1) に示します。二重光線可視性分類器の助けがなければ、光線表面距離フィールドは、新しい画角: 光線は適切な距離値を予測します (図 9 を参照)。
- 分類器の入力では、表 5 (2) および (3) に示すように、表面点の距離値が補助として選択されている場合、または入力表面点の座標が補助として選択されます。補助情報を提供しないと、分類器が取得する精度と F1 スコアが低くなり、その結果、光線表面距離ネットワークに提供される可視情報が不十分となり、不正確な距離値が予測されます。
- 表 5 (4) に示すように、一対の光線を非対称に入力することにより、トレーニングされた分類器の精度は高くなりますが、F1 スコアは低くなります。これは、この分類器が対称入力レイでトレーニングされた分類器よりも堅牢性が大幅に低いことを示しています。
-
他の切除手術については、論文および論文の付録でご覧いただけます
必要図 9 は、分類器を使用した場合と使用しない場合の視覚的な比較を示しています
#書き換える必要がある内容は次のとおりです: 元のリンク: https://mp.weixin.qq.com/s/dsrSHKT4NfgdDPYcKOhcOA
以上が新タイトル:リアルタイムレンダリングが進化!光線に基づく革新的な 3D 再構成手法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











StableDiffusion3 の論文がついに登場しました!このモデルは2週間前にリリースされ、Soraと同じDiT(DiffusionTransformer)アーキテクチャを採用しており、リリースされると大きな話題を呼びました。前バージョンと比較して、StableDiffusion3で生成される画像の品質が大幅に向上し、マルチテーマプロンプトに対応したほか、テキスト書き込み効果も向上し、文字化けが発生しなくなりました。 StabilityAI は、StableDiffusion3 はパラメータ サイズが 800M から 8B までの一連のモデルであると指摘しました。このパラメーター範囲は、モデルを多くのポータブル デバイス上で直接実行できることを意味し、AI の使用を大幅に削減します。

最初のパイロットおよび重要な記事では、主に自動運転技術で一般的に使用されるいくつかの座標系と、それらの間の相関と変換を完了し、最終的に統合環境モデルを構築する方法を紹介します。ここでの焦点は、車両からカメラの剛体への変換 (外部パラメータ)、カメラから画像への変換 (内部パラメータ)、および画像からピクセル単位への変換を理解することです。 3D から 2D への変換には、対応する歪み、変換などが発生します。要点:車両座標系とカメラ本体座標系を平面座標系とピクセル座標系に書き換える必要がある 難易度:画像の歪みを考慮する必要がある 歪み補正と歪み付加の両方を画面上で補正する2. はじめに ビジョンシステムには、ピクセル平面座標系 (u, v)、画像座標系 (x, y)、カメラ座標系 ()、世界座標系 () の合計 4 つの座標系があります。それぞれの座標系には関係性があり、

この論文では、自動運転においてさまざまな視野角 (遠近法や鳥瞰図など) から物体を正確に検出するという問題、特に、特徴を遠近法 (PV) 空間から鳥瞰図 (BEV) 空間に効果的に変換する方法について検討します。 Visual Transformation (VT) モジュールを介して実装されます。既存の手法は、2D から 3D への変換と 3D から 2D への変換という 2 つの戦略に大別されます。 2D から 3D への手法は、深さの確率を予測することで高密度の 2D フィーチャを改善しますが、特に遠方の領域では、深さ予測に固有の不確実性により不正確さが生じる可能性があります。 3D から 2D への方法では通常、3D クエリを使用して 2D フィーチャをサンプリングし、Transformer を通じて 3D と 2D フィーチャ間の対応のアテンション ウェイトを学習します。これにより、計算時間と展開時間が増加します。

自動運転では軌道予測が重要な役割を果たしており、自動運転軌道予測とは、車両の走行過程におけるさまざまなデータを分析し、将来の車両の走行軌跡を予測することを指します。自動運転のコアモジュールとして、軌道予測の品質は下流の計画制御にとって非常に重要です。軌道予測タスクには豊富な技術スタックがあり、自動運転の動的/静的知覚、高精度地図、車線境界線、ニューラル ネットワーク アーキテクチャ (CNN&GNN&Transformer) スキルなどに精通している必要があります。始めるのは非常に困難です。多くのファンは、できるだけ早く軌道予測を始めて、落とし穴を避けたいと考えています。今日は、軌道予測に関するよくある問題と入門的な学習方法を取り上げます。関連知識の紹介 1. プレビュー用紙は整っていますか? A: まずアンケートを見てください。

19 年前の論文を突然発見 GSLAM: A General SLAM Framework and Benchmark オープンソース コード: https://github.com/zdzhaoyong/GSLAM 全文に直接アクセスして、この作品の品質を感じてください ~ 1 抽象的な SLAM テクノロジー近年多くの成功を収め、多くのハイテク企業の注目を集めています。ただし、既存または新たなアルゴリズムへのインターフェイスを使用して、速度、堅牢性、移植性に関するベンチマークを効果的に実行する方法は依然として問題です。この論文では、GSLAM と呼ばれる新しい SLAM プラットフォームを提案します。これは、評価機能を提供するだけでなく、研究者が独自の SLAM システムを迅速に開発するための有用な方法を提供します。

著者の個人的な考えの一部 自動運転の分野では、BEV ベースのサブタスク/エンドツーエンド ソリューションの開発に伴い、高品質のマルチビュー トレーニング データとそれに対応するシミュレーション シーンの構築がますます重要になってきています。現在のタスクの問題点に対応して、「高品質」は 3 つの側面に分離できます。 さまざまな次元のロングテール シナリオ: 障害物データ内の近距離車両、車両切断中の正確な進行角、車線などラインデータ 曲率の異なるカーブやランプ・合流・合流などの撮影が難しいシーン。これらは多くの場合、大量のデータ収集と複雑なデータ マイニング戦略に依存しており、コストがかかります。 3D 真の値 - 一貫性の高い画像: 現在の BEV データ取得は、センサーの設置/校正、高精度マップ、再構成アルゴリズム自体のエラーの影響を受けることがよくあります。これが私を導いた

9 月 23 日、論文「DeepModelFusion:ASurvey」が国立国防技術大学、JD.com、北京理工大学によって発表されました。ディープ モデルの融合/マージは、複数のディープ ラーニング モデルのパラメーターまたは予測を 1 つのモデルに結合する新しいテクノロジーです。さまざまなモデルの機能を組み合わせて、個々のモデルのバイアスとエラーを補償し、パフォーマンスを向上させます。大規模な深層学習モデル (LLM や基本モデルなど) での深層モデルの融合は、高い計算コスト、高次元のパラメーター空間、異なる異種モデル間の干渉など、いくつかの課題に直面しています。この記事では、既存のディープ モデル フュージョン手法を 4 つのカテゴリに分類します。 (1) 「パターン接続」。損失低減パスを介して重み空間内の解を接続し、より適切な初期モデル フュージョンを取得します。

この四角い男性は、目の前にいる「招かれざる客」の正体について考えながら眉をひそめていることに注意してください。彼女が危険な状況にあることが判明し、これに気づくと、彼女は問題を解決するための戦略を見つけるためにすぐに頭の中で探索を始めました。最終的に、彼女は現場から逃走し、できるだけ早く助けを求め、直ちに行動を起こすことにしました。同時に、反対側の人も彼女と同じことを考えていた……『マインクラフト』では、登場人物全員が人工知能によって制御されている、そんなシーンがありました。それぞれに個性的な設定があり、例えば先ほどの女の子は17歳ながら賢くて勇敢な配達員です。彼らは記憶力と思考力を持ち、Minecraft の舞台となるこの小さな町で人間と同じように暮らしています。彼らを動かすのはまったく新しいものであり、
