DriveLM は、データ セットとモデルを含む言語ベースのドライバー プロジェクトです。 DriveLM では、自動運転 (AD) に大規模な言語モデルの推論機能を導入して、意思決定を行い、説明可能な計画を確保します。
DriveLM のデータセットでは、人間が作成した推論ロジックを接続として使用して、認識、予測、計画を促進します (P3)。私たちのモデルでは、より良い計画結果を生み出すためのマインド マッピング機能を備えた AD ビジュアル言語モデルを提案します。現在、データセットのデモ バージョンをリリースしています。完全なデータセットとモデルは将来リリースされる予定です。
プロジェクト リンク: https://github.com/OpenDriveLab/DriveLM 書き換える必要がある内容は次のとおりです。 プロジェクトリンク: https://github.com/OpenDriveLab/DriveLM
データセットの最も興味深い点は、P3 の質問応答 (QA) がグラフ形式の構造で接続されており、各ノードとして QA ペアとその関係が示されていることです。オブジェクトをエッジとして扱います。
純粋な言語の思考ツリーや思考マップと比較して、私たちはマルチモダリティを好みます。 AD ドメインでは、生のセンサー入力から最終的な制御アクションまで、各段階で AD タスクが定義されるため、これを行います
主流の nuScenes データセットに基づいてデータセットを構築します。 DriveLM の中核要素は、フレームベースの P3 QA です。知覚の問題では、モデルがシーン内のオブジェクトを認識する必要があります。予測問題では、モデルがシーン内の重要なオブジェクトの将来の状態を予測する必要があります。計画の問題により、モデルは合理的な計画アクションを実行し、危険なアクションを回避するように促されます。
以上が大型モデルの「車に乗る」ための重要なステップ: 世界初の言語 + 自動運転オープンソース データセットが登場の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。