清華大学とアイデアルは、自動運転機能を向上させるための視覚的な大規模言語モデルである DriveVLM を提案しました。
自動運転の分野では、研究者たちは GPT/Sora などの大型モデルの方向性も模索しています。
自動運転は、生成型 AI と比較して、最近の AI において最も活発な研究開発分野の 1 つでもあります。完全自動運転システムを構築する際の大きな課題は、悪天候、複雑な道路レイアウト、予測不可能な人間の行動など、複雑で予測不可能なシナリオを伴う AI のシーン理解です。
現在の自動運転システムは、通常、3D 認識、動作予測、計画の 3 つの部分で構成されます。具体的には、3D 認識は主に身近な物体の検出と追跡に使用されますが、珍しい物体とその属性を識別する能力には限界があります。一方、動作予測と計画は主に物体の軌道動作に焦点を当てますが、通常、物体と車両の関係は無視されます。 .間の意思決定レベルの相互作用これらの制限は、複雑な交通シナリオを処理する際の自動運転システムの精度と安全性に影響を与える可能性があります。したがって、将来の自動運転技術は、さまざまな種類の物体をより適切に識別して予測し、車両の走行経路をより効果的に計画してシステムのインテリジェンスと信頼性を向上させるためにさらに改良する必要があります。
実装 自動運転の鍵推進とは、データ駆動型のアプローチを知識駆動型のアプローチに変換することであり、これには論理的推論機能を備えた大規模なモデルのトレーニングが必要です。この方法でのみ、自動運転システムがロングテール問題を真に解決し、L4 機能に移行することができます。現在、GPT4 や Sora のような大型モデルの登場が続く中、スケール効果により強力な少数ショット/ゼロショット能力も発揮され、新たな開発の方向性を検討するようになりました。
最新の研究論文は清華大学クロスインフォメーション研究所とリーオート社から提供されており、その中でDriveVLMと呼ばれる新しいモデルが紹介されています。このモデルは、生成人工知能の分野で登場したビジュアル言語モデル (VLM) からインスピレーションを得ています。 DriveVLM は、視覚的な理解と推論において優れた能力を実証しました。
本研究は、業界で初めて自動運転速度制御システムを提案したものであり、その手法は主流の自動運転プロセスと論理的思考能力を備えた大規模モデルプロセスを完全に組み合わせたものであり、 (Orin プラットフォームに基づく) テストのために大規模なモデルをターミナルに正常にデプロイします。
DriveVLM は、シナリオ記述、シナリオ分析、階層計画という 3 つの主要モジュールを含む、Chain-of-Though (CoT) プロセスをカバーします。シーン記述モジュールでは、言語を使用して運転環境を説明し、シーン内の主要オブジェクトを特定します。シーン分析モジュールは、これらの主要オブジェクトの特性と自動運転車への影響を深く研究します。一方、階層計画モジュールは、段階的に計画を策定します。要素 アクションと決定はウェイポイントに記述されます。
これらのモジュールは、従来の自動運転システムの認識、予測、計画のステップに対応しますが、異なる点は、非常に困難であった物体の認識、意図レベルの予測、およびタスクレベルの計画を処理することです。過去に。
VLM は視覚的な理解においては優れた性能を発揮しますが、空間基盤と推論には限界があり、そのコンピューティング能力要件により、エンドサイドの推論の速度に課題が生じます。したがって、著者らはさらに、DriveVLM と従来のシステムの利点を組み合わせたハイブリッド システムである DriveVLMDual を提案します。 DriveVLM-Dual は、オプションで DriveVLM を、3D オブジェクト検出器、占有ネットワーク、モーション プランナーなどの従来の 3D 認識および計画モジュールと統合し、システムが 3D 接地および高周波計画機能を実現できるようにします。このデュアルシステム設計は、人間の脳の遅い思考プロセスと速い思考プロセスに似ており、運転シナリオのさまざまな複雑さに効果的に適応できます。
新しい研究では、シーン理解と計画 (SUP) タスクの定義もさらに明確になり、シーン分析とメタアクション計画における DriveVLM と DriveVLM-Dual の機能を評価するためのいくつかの新しい評価指標が提案されています。さらに、著者らは大規模なデータ マイニングとアノテーション作業を実行して、SUP タスク用の社内 SUP-AD データセットを構築しました。
nuScenes データセットと独自のデータセットで広範な実験を行った結果、特に少数のショットで DriveVLM の優位性が実証されました。さらに、DriveVLM-Dual は、最先端のエンドツーエンドの動作計画手法を超えています。
論文「DriveVLM: 自動運転と大規模ビジョン言語モデルの融合」

#論文リンク: https://arxiv.org/abs/ 2402.12289
プロジェクト接続: https://tsinghua-mars-lab.github.io/DriveVLM/
DriveVLM の全体的なプロセスを図 1 に示します:
連続フレームのビジュアル イメージをエンコードし、機能調整モジュールを通じて LMM と対話します。
VLM モデルの考え方をガイドするためにシーンの説明から開始し、最初に時間をガイドします。シーン、車線環境などの静的シーンは、運転の決定に影響を与える主要な障害物をガイドするために使用されます。
主要な障害物を分析し、従来の 3D 検出と VLM で理解された障害物を介してそれらを照合し、確認をさらに改善します。障害物の有効性と錯覚の除去、このシナリオにおける主要な障害物の特徴とそれらが運転に及ぼす影響について説明します。
減速、駐車、左折、右折などの重要な「メタ決定」を与え、次にそのメタ決定に基づいた運転戦略の説明を与え、最後にホスト車両の将来の走行軌跡。

#図 1. DriveVLM および DriveVLM-Dual モデルのパイプライン。一連の画像は大規模視覚言語モデル (VLM) によって処理され、特別な思考連鎖 (CoT) 推論を実行して、運転計画の結果が導き出されます。大規模な VLM には、ビジュアル トランスフォーマー エンコーダーと大規模言語モデル (LLM) が含まれます。ビジュアル エンコーダーはイメージ タグを生成し、次にアテンション ベースのエクストラクターがこれらのタグを LLM と位置合わせし、最後に LLM が CoT 推論を実行します。 CoT プロセスは、シナリオ記述、シナリオ分析、階層計画の 3 つのモジュールに分割できます。
DriveVLM-Dual は、DriveVLM の環境に関する包括的な理解と意思決定軌道の推奨事項を活用することで、従来の自動運転パイプラインの意思決定と計画能力を向上させるハイブリッド システムです。 3D 認識の結果を言葉による合図に組み込んで 3D シーンの理解を強化し、リアルタイムのモーション プランナーで軌道のウェイポイントをさらに洗練します。 VLM はロングテール オブジェクトの識別や複雑なシーンの理解には優れていますが、オブジェクトの空間的位置や詳細な動作ステータスを正確に理解するのに苦労することが多く、この欠点が大きな課題となります。さらに悪いことに、VLM のモデル サイズが巨大であるため、待ち時間が長くなり、自動運転のリアルタイム応答能力が妨げられます。これらの課題に対処するために、著者は、DriveVLM と従来の自動運転システムの連携を可能にする DriveVLM-Dual を提案します。この新しいアプローチには、2 つの重要な戦略が含まれています。1 つは 3D 認識と組み合わせた主要オブジェクト分析で、高次元の運転意思決定情報を提供し、もう 1 つは高周波軌道の改良です。 さらに、複雑でロングテールの運転シナリオを処理する際の DriveVLM と DriveVLMDual の可能性を最大限に引き出すために、研究者らは、一連の評価指標だけでなく、シーン理解プランニングと呼ばれるタスクを正式に定義しました。さらに、著者らは、シーンの理解とデータセットの計画を管理するためのデータマイニングとアノテーションのプロトコルを提案しています。 モデルを完全にトレーニングするために、著者は、自動マイニング、知覚アルゴリズムのプレブラッシング、GPT-4 などの複数の方法と組み合わせた、一連の Drive LLM アノテーション ツールとアノテーション ソリューションを新たに開発しました。大規模なモデルの概要と手動の注釈。効率的な注釈ソリューションの現在のセットを形成します。各クリップ データには数十の注釈コンテンツが含まれています。
図 2 2. SUP-AD データセットのアノテーション サンプル。
著者らは、図 3 に示すように、SUP-AD での計画のためのシーン理解 (自動運転における計画のためのシーン理解) データセットを構築するための包括的なデータ マイニングと注釈パイプラインも提案しています。 、100k の画像と 1000k の画像とテキストのペアが含まれています。具体的には、まず大規模なデータベースからロングテール オブジェクト マイニングと挑戦的なシーン マイニングを実行してサンプルを収集し、次に各サンプルからキーフレームを選択し、さらにシーン アノテーションを実行します。
図 3. シナリオの理解とデータセットの計画を構築するためのデータ マイニングとアノテーション パイプライン (上)。データセットからランダムにサンプリングされたシナリオの例 (以下) は、データセットの多様性と複雑さを示しています。
SUP-AD は、7.5:1:1.5 の比率でトレーニング、検証、テストの部分に分かれています。著者らは、トレーニング分割でモデルをトレーニングし、新しく提案されたシーン記述とメタアクション メトリクスを使用して、検証/テスト分割でモデルのパフォーマンスを評価します。 nuScenes データセットは、それぞれ約 20 秒続く 1,000 のシーンを含む大規模な都市シーンの運転データセットです。キーフレームには、データセット全体にわたって 2Hz で均一に注釈が付けられます。ここで著者らは、検証セグメンテーションにおけるモデルのパフォーマンスを評価する指標として変位誤差 (DE) と衝突率 (CR) を採用します。 著者らは、表 1 に示すように、いくつかの大規模なビジュアル言語モデルを使用して DriveVLM のパフォーマンスを実証し、GPT-4V と比較しています。 DriveVLM はバックボーンとして Qwen-VL を利用しており、他のオープンソース VLM と比較して最高のパフォーマンスを実現し、応答性と柔軟なインタラクションが特徴です。最初の 2 つの大規模なモデルはオープンソース化されており、トレーニングの微調整に同じデータが使用されています。GPT-4V は、迅速なエンジニアリングのために複雑なプロンプトを使用します。 ###
表 1. SUP-AD データ セットのテスト セットの結果。ここでは GPT-4V の公式 API が使用され、Lynx と CogVLM の場合はトレーニング分割が微調整に使用されます。
表 2 に示すように、DriveVLM-Dual は、VAD と組み合わせると、nuScenes 計画タスクで最先端のパフォーマンスを実現します。これは、新しい方法が複雑なシーンを理解するために調整されているにもかかわらず、通常のシーンでも良好に機能することを示しています。 DriveVLM-Dual は UniAD よりも大幅に改善されていることに注意してください。平均計画変位誤差は 0.64 メートル減少し、衝突率は 51% 減少します。

#表 2. nuScenes 検証データセットの計画結果。 DriveVLM-Dual は最適なパフォーマンスを実現します。 †Uni-ADを使用した知覚および占有予測結果を表します。 ‡ すべてのモデルが自我状態を入力として受け取る VAD を使用することを示します。図 4. DriveVLM の定性的結果。オレンジ色の曲線は、今後 3 秒間のモデルの計画された将来の軌道を表します。 DriveVLM の定性的結果を図 4 に示します。図 4a では、DriveVLM は、近づいてくるサイクリストに関する思慮深い計画決定と組み合わせて、現在のシーンの状況を正確に予測します。また、DriveVLM は、前方の交通警察の手信号を効果的に理解し、自車に進行を指示します。また、右側の三輪車に乗っている人も考慮して、正しい運転判断を下します。これらの定性的な結果は、複雑なシナリオを理解し、適切な運転計画を作成する DriveVLM モデルの優れた能力を示しています。
図 7: SUP-AD データ集中におけるさまざまな運転シナリオ。

# 図 9. Sup-AD データの集中牛クラスターと牛群。牛の群れが車の前をゆっくりと移動しているため、政策は車がゆっくりと移動していることを推論し、牛から安全な距離を保つ必要があります。図 16. DriveVLM 出力の視覚化。 DriveVLM は倒木とその位置を正確に検出し、適切な迂回路を計画します。

以上が清華大学とアイデアルは、自動運転機能を向上させるための視覚的な大規模言語モデルである DriveVLM を提案しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











でももしかしたら公園の老人には勝てないかもしれない?パリオリンピックの真っ最中で、卓球が注目を集めています。同時に、ロボットは卓球のプレーにも新たな進歩をもたらしました。先ほど、DeepMind は、卓球競技において人間のアマチュア選手のレベルに到達できる初の学習ロボット エージェントを提案しました。論文のアドレス: https://arxiv.org/pdf/2408.03906 DeepMind ロボットは卓球でどれくらい優れていますか?おそらく人間のアマチュアプレーヤーと同等です: フォアハンドとバックハンドの両方: 相手はさまざまなプレースタイルを使用しますが、ロボットもそれに耐えることができます: さまざまなスピンでサーブを受ける: ただし、ゲームの激しさはそれほど激しくないようです公園の老人。ロボット、卓球用

もうすぐ学校が始まり、新学期を迎える生徒だけでなく、大型AIモデルも気を付けなければなりません。少し前、レディットはクロードが怠け者になったと不満を漏らすネチズンでいっぱいだった。 「レベルが大幅に低下し、頻繁に停止し、出力も非常に短くなりました。リリースの最初の週は、4 ページの文書全体を一度に翻訳できましたが、今では 0.5 ページの出力さえできません」 !」 https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/ というタイトルの投稿で、「クロードには完全に失望しました」という内容でいっぱいだった。

8月21日、2024年世界ロボット会議が北京で盛大に開催された。 SenseTimeのホームロボットブランド「Yuanluobot SenseRobot」は、全製品ファミリーを発表し、最近、世界初の家庭用チェスロボットとなるYuanluobot AIチェスプレイロボット - Chess Professional Edition(以下、「Yuanluobot SenseRobot」という)をリリースした。家。 Yuanluobo の 3 番目のチェス対局ロボット製品である新しい Guxiang ロボットは、AI およびエンジニアリング機械において多くの特別な技術アップグレードと革新を経て、初めて 3 次元のチェスの駒を拾う機能を実現しました。家庭用ロボットの機械的な爪を通して、チェスの対局、全員でのチェスの対局、記譜のレビューなどの人間と機械の機能を実行します。

北京で開催中の世界ロボット会議では、人型ロボットの展示が絶対的な注目となっているスターダストインテリジェントのブースでは、AIロボットアシスタントS1がダルシマー、武道、書道の3大パフォーマンスを披露した。文武両道を備えた 1 つの展示エリアには、多くの専門的な聴衆とメディアが集まりました。弾性ストリングのエレガントな演奏により、S1 は、スピード、強さ、正確さを備えた繊細な操作と絶対的なコントロールを発揮します。 CCTVニュースは、「書道」の背後にある模倣学習とインテリジェント制御に関する特別レポートを実施し、同社の創設者ライ・ジエ氏は、滑らかな動きの背後にあるハードウェア側が最高の力制御と最も人間らしい身体指標(速度、負荷)を追求していると説明した。など)、AI側では人の実際の動きのデータが収集され、強い状況に遭遇したときにロボットがより強くなり、急速に進化することを学習することができます。そしてアジャイル

ビジョンとロボット学習の緊密な統合。最近話題の1X人型ロボットNEOと合わせて、2つのロボットハンドがスムーズに連携して服をたたむ、お茶を入れる、靴を詰めるといった動作をしていると、いよいよロボットの時代が到来するのではないかと感じられるかもしれません。実際、これらの滑らかな動きは、高度なロボット技術 + 精緻なフレーム設計 + マルチモーダル大型モデルの成果です。有用なロボットは多くの場合、環境との複雑かつ絶妙な相互作用を必要とし、環境は空間領域および時間領域の制約として表現できることがわかっています。たとえば、ロボットにお茶を注いでもらいたい場合、ロボットはまずティーポットのハンドルを掴んで、お茶をこぼさないように垂直に保ち、次にポットの口がカップの口と揃うまでスムーズに動かす必要があります。 、そしてティーポットを一定の角度に傾けます。これ

貢献者はこの ACL カンファレンスから多くのことを学びました。 6日間のACL2024がタイのバンコクで開催されています。 ACL は、計算言語学と自然言語処理の分野におけるトップの国際会議で、国際計算言語学協会が主催し、毎年開催されます。 ACL は NLP 分野における学術的影響力において常に第一位にランクされており、CCF-A 推奨会議でもあります。今年の ACL カンファレンスは 62 回目であり、NLP 分野における 400 以上の最先端の作品が寄せられました。昨日の午後、カンファレンスは最優秀論文およびその他の賞を発表しました。今回の優秀論文賞は7件(未発表2件)、最優秀テーマ論文賞1件、優秀論文賞35件です。このカンファレンスでは、3 つの Resource Paper Award (ResourceAward) と Social Impact Award (

今日の午後、Hongmeng Zhixingは新しいブランドと新車を正式に歓迎しました。 8月6日、ファーウェイはHongmeng Smart Xingxing S9およびファーウェイのフルシナリオ新製品発表カンファレンスを開催し、パノラマスマートフラッグシップセダンXiangjie S9、新しいM7ProおよびHuawei novaFlip、MatePad Pro 12.2インチ、新しいMatePad Air、Huawei Bisheng Withを発表しました。レーザー プリンタ X1 シリーズ、FreeBuds6i、WATCHFIT3、スマート スクリーン S5Pro など、スマート トラベル、スマート オフィスからスマート ウェアに至るまで、多くの新しいオールシナリオ スマート製品を開発し、ファーウェイは消費者にスマートな体験を提供するフル シナリオのスマート エコシステムを構築し続けています。すべてのインターネット。宏孟志興氏:スマートカー業界のアップグレードを促進するための徹底的な権限付与 ファーウェイは中国の自動車業界パートナーと提携して、

人工知能は想像を超えるスピードで発展しています。 GPT-4 がマルチモーダル技術を一般に公開して以来、マルチモーダル大型モデルは急速な開発段階に入り、純粋なモデルの研究開発から垂直分野での探査と応用へと徐々に移行し、あらゆる分野に深く統合されています。インターフェイス インタラクションの分野では、Google や Apple などの国際的なテクノロジー大手が、携帯電話 AI 革命を前進させる唯一の方法とみなされている大規模なマルチモーダル UI モデルの研究開発に投資してきました。このような状況の中で、中国初の大規模UIモデルが誕生しました。 8月17日、国際エクスペリエンスデザインカンファレンス「IXDC2024」において、AI時代のデザインツールであるMotiffは、独自開発したUIマルチモーダルモデル「Motiff Model」を発表した。世界初のUIデザインツールです
