ホームページ > テクノロジー周辺機器 > AI > OmniDrive: 大規模モデルを 3D 運転タスクと連携させるためのフレームワーク

OmniDrive: 大規模モデルを 3D 運転タスクと連携させるためのフレームワーク

PHPz
リリース: 2024-05-06 15:16:35
転載
1062 人が閲覧しました

まず、スパース クエリを使用して視覚表現を 3D にリフトおよび圧縮し、LLM に入力する新しい 3D MLLM アーキテクチャから始めます。

タイトル: OmniDrive: 3D 認識推論と計画による自動運転のための総合的な LLM エージェント フレームワーク

著者の所属: 北京工業大学、NVIDIA、華中科技大学

オープンソースのアドレス: GitHub - NVlabs/OmniDrive

マルチモーダル大規模言語モデル (MLLM) の開発により、その強力な推論機能を活用した LLM ベースの自動運転への関心が高まっています。 MLLM の強力な推論機能を活用して計画行動を改善することは、2D 推論を超えた完全な 3D 状況認識を必要とするため、困難です。この課題に対処するために、この研究では、エージェント モデルと 3D 運転タスクの間の堅牢な調整のための包括的なフレームワークである OmniDrive を提案しています。このフレームワークは、スパース クエリを使用して観測表現を 3D にリフトおよび圧縮し、LLM に入力する新しい 3D MLLM アーキテクチャから始まります。このクエリベースの表現により、動的オブジェクトと静的な地図要素 (交通道路など) を共同でエンコードできるようになり、3D での知覚と行動の整合のための簡潔な世界モデルが提供されます。さらに、シーンの説明、交通ルール、3D グラウンディング、反事実推論、意思決定、計画などの包括的な視覚的質問応答 (VQA) タスクを含む新しいベンチマークを提案します。広範な調査により、複雑な 3D シーンにおける OmniDrive の優れた推論および計画機能が実証されています。

##ネットワーク構造

OmniDrive: 一个关于大模型与3D驾驶任务对齐的框架

OmniDrive: 一个关于大模型与3D驾驶任务对齐的框架

実験結果

OmniDrive: 一个关于大模型与3D驾驶任务对齐的框架

OmniDrive: 一个关于大模型与3D驾驶任务对齐的框架

OmniDrive: 一个关于大模型与3D驾驶任务对齐的框架

OmniDrive: 一个关于大模型与3D驾驶任务对齐的框架

以上がOmniDrive: 大規模モデルを 3D 運転タスクと連携させるためのフレームワークの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:51cto.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート