目次
例 1: 道路上に未知の障害物が出現した場合
標識を自動的に認識するためのプロンプトはありません。これは基本的なものです。続けてみましょう。いくつかのヒント。
例5 有名なシーンに来てください。 。 。配送トラックが誤って新しく建設された道路に進入した
ホームページ テクノロジー周辺機器 AI GPT-4Vの5回連続自動運転テストにCTO「大変ショック」

GPT-4Vの5回連続自動運転テストにCTO「大変ショック」

Oct 16, 2023 am 11:29 AM
テクノロジー オートパイロット

この記事はAI New Media Qubit(公開アカウントID:QbitAI)の許可を得て転載していますので、転載については出典元にご連絡ください。

多くの注目を集めながら、GPT4 が本日ついにビジョン関連機能を開始しました。

今日の午後、友人たちと GPT の画像認識機能を早速テストしてみましたが、期待はしていましたが、それでも大きなショックを受けました。

中心的な視点:

自動運転におけるセマンティクスに関連する問題は、大型モデルによってうまく解決されるべきだったと思いますが、大型モデルの信頼性と空間認識は依然として不十分です。

効率に関連するいくつかのいわゆるコーナーケースを解決するには十分すぎるはずですが、完全に大型モデルに依存して独立運転を完了し、安全性を確保するにはまだ遠いです。 。

例 1: 道路上に未知の障害物が出現した場合

GPT-4Vの5回連続自動運転テストにCTO「大変ショック」

GPT-4Vの5回連続自動運転テストにCTO「大変ショック」

△GPT4 の説明

正確な部分: 3 台のトラックが検出され、前の車両のナンバー プレート番号は基本的に正しく (漢字は無視してください)、天候と環境も正しく、 プロンプトなしで前方の未知の障害物を正確に識別しました

不正確な部分: 3 台目のトラックの位置は左右で区別できず、2 台目のトラックの先頭にあるテキストはランダムな推測です (解像度が不十分なため?)。

これでは十分ではありません。このオブジェクトが何であるか、そしてそれを押すことができるかどうかを尋ねる小さなヒントを与え続けましょう。 ###############印象的な!私たちは複数の同様のシナリオをテストしましたが、未知の障害物でのパフォーマンスは非常に驚くべきものであると言えます。

例 2: 道路上の水の蓄積を理解するGPT-4Vの5回連続自動運転テストにCTO「大変ショック」

標識を自動的に認識するためのプロンプトはありません。これは基本的なものです。続けてみましょう。いくつかのヒント。

GPT-4Vの5回連続自動運転テストにCTO「大変ショック」

#またまた衝撃を受けました。 。 。彼はトラックの後ろの霧を自動的に認識でき、水たまりについても言及しましたが、再び方向は左であると言いました。 。 。 GPT が位置と方向をより適切に出力できるようにするには、ここで何らかの迅速なエンジニアリングが必要になる可能性があると感じています。

例 3: 車両が方向転換してガードレールに直接衝突した場合

GPT-4Vの5回連続自動運転テストにCTO「大変ショック」

最初のフレームが入力されます。これは、タイミング情報がなく、トラックが走行しているだけであるためです。右はドッキングしたものとみなされます。別のフレームは次のとおりです:

GPT-4Vの5回連続自動運転テストにCTO「大変ショック」

自動的にわかります。この車はガードレールを突き破り、道路の端でホバリングしました。素晴らしいですね。 。 。しかし、代わりに、簡単そうに見えた道路標識は間違っていました。 。 。ただ一つ言えるのは、これは巨大な模型であり、常に衝撃を与え、いつ泣かされるか分からないということです。 。 。別のフレーム:

GPT-4Vの5回連続自動運転テストにCTO「大変ショック」

#今回は、道路上の瓦礫について直接話していて、改めて感心しました。 。 。しかし、一度道路上の矢印の名前を間違えました。 。 。一般的に、このシーンで特に注意が必要な情報はカバーされていますが、道路標識などの問題については、欠陥は隠蔽されません。

例 4: 面白い話をしましょう

GPT-4Vの5回連続自動運転テストにCTO「大変ショック」

これは非常に正確としか言いようがありません。それに比べて、これまで非常に難しそうに思えた「誰かがあなたに手を振った」というケースは小児科のようなもので、意味論的なコーナーケースは解決できます。

例5 有名なシーンに来てください。 。 。配送トラックが誤って新しく建設された道路に進入した

GPT-4Vの5回連続自動運転テストにCTO「大変ショック」

GPT-4Vの5回連続自動運転テストにCTO「大変ショック」

GPT-4Vの5回連続自動運転テストにCTO「大変ショック」

GPT-4Vの5回連続自動運転テストにCTO「大変ショック」

#開始 比較的保守的で、原因を直接推測するのではなく、さまざまな推測を与えますが、これは調整の目的に沿っています。

CoT を使用した後、車が自動運転車であると理解されていないことが問題であることが判明したため、この情報をプロンプトで提供することで、より正確な情報を提供できます。

最後に、一連のプロンプトを通じて、新しく敷設されたアスファルトは走行には適さないという結論を出力できます。最終結果はまだ問題ありませんが、プロセスはより複雑で、より迅速なエンジニアリングと慎重な設計が必要です。

この理由は、この絵が第一の視点からのものではなく、第三の視点​​からしか推測できないことも考えられます。したがって、この例はあまり正確ではありません。

概要

いくつかの簡単な試みにより、GPT4V の能力と汎化パフォーマンスが完全に証明されました。適切なプロンプトは GPT4V の強みを最大限に活用できるはずです。

セマンティックのコーナーケースを解決することは非常に有望なはずですが、セキュリティ関連のシナリオでは、錯覚の問題が依然として一部のアプリケーションを悩ませます。

非常にエキサイティングです。個人的には、このような大型モデルを合理的に使用することで、L4、さらには L5 の自動運転の開発を大幅に加速できると考えています。しかし、LLM は直接運転する必要があるのでしょうか?特にエンドツーエンドの運転は依然として議論の余地のある問題です。

以上がGPT-4Vの5回連続自動運転テストにCTO「大変ショック」の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

なぜ自動運転ではガウス スプラッティングが非常に人気があるのに、NeRF は放棄され始めているのでしょうか? なぜ自動運転ではガウス スプラッティングが非常に人気があるのに、NeRF は放棄され始めているのでしょうか? Jan 17, 2024 pm 02:57 PM

上記と著者の個人的な理解 3 次元ガウシアンプラッティング (3DGS) は、近年、明示的な放射線フィールドとコンピューター グラフィックスの分野で出現した革新的なテクノロジーです。この革新的な方法は、数百万の 3D ガウスを使用することを特徴とし、主に暗黙的な座標ベースのモデルを使用して空間座標をピクセル値にマッピングする神経放射線場 (NeRF) 方法とは大きく異なります。明示的なシーン表現と微分可能なレンダリング アルゴリズムにより、3DGS はリアルタイム レンダリング機能を保証するだけでなく、前例のないレベルの制御とシーン編集も導入します。これにより、3DGS は、次世代の 3D 再構築と表現にとって大きな変革をもたらす可能性のあるものとして位置付けられます。この目的を達成するために、私たちは 3DGS 分野における最新の開発と懸念について初めて体系的な概要を提供します。

自動運転シナリオにおけるロングテール問題を解決するにはどうすればよいでしょうか? 自動運転シナリオにおけるロングテール問題を解決するにはどうすればよいでしょうか? Jun 02, 2024 pm 02:44 PM

昨日の面接で、ロングテール関連の質問をしたかと聞かれたので、簡単にまとめてみようと思いました。自動運転のロングテール問題とは、自動運転車におけるエッジケース、つまり発生確率が低い考えられるシナリオを指します。認識されているロングテール問題は、現在、単一車両のインテリジェント自動運転車の運用設計領域を制限している主な理由の 1 つです。自動運転の基礎となるアーキテクチャとほとんどの技術的問題は解決されており、残りの 5% のロングテール問題が徐々に自動運転の開発を制限する鍵となってきています。これらの問題には、さまざまな断片的なシナリオ、極端な状況、予測不可能な人間の行動が含まれます。自動運転におけるエッジ シナリオの「ロング テール」とは、自動運転車 (AV) におけるエッジ ケースを指します。エッジ ケースは、発生確率が低い可能性のあるシナリオです。これらの珍しい出来事

カメラかライダーを選択しますか?堅牢な 3D オブジェクト検出の実現に関する最近のレビュー カメラかライダーを選択しますか?堅牢な 3D オブジェクト検出の実現に関する最近のレビュー Jan 26, 2024 am 11:18 AM

0.前面に書かれています&& 自動運転システムは、さまざまなセンサー (カメラ、ライダー、レーダーなど) を使用して周囲の環境を認識し、アルゴリズムとモデルを使用することにより、高度な知覚、意思決定、および制御テクノロジーに依存しているという個人的な理解リアルタイムの分析と意思決定に。これにより、車両は道路標識の認識、他の車両の検出と追跡、歩行者の行動の予測などを行うことで、安全な運行と複雑な交通環境への適応が可能となり、現在広く注目を集めており、将来の交通分野における重要な開発分野と考えられています。 。 1つ。しかし、自動運転を難しくしているのは、周囲で何が起こっているかを車に理解させる方法を見つけることです。これには、自動運転システムの 3 次元物体検出アルゴリズムが、周囲環境にある物体 (位置を含む) を正確に認識し、記述することができる必要があります。

Stable Diffusion 3 の論文がついに公開され、アーキテクチャの詳細が明らかになりましたが、Sora の再現に役立つでしょうか? Stable Diffusion 3 の論文がついに公開され、アーキテクチャの詳細が明らかになりましたが、Sora の再現に役立つでしょうか? Mar 06, 2024 pm 05:34 PM

StableDiffusion3 の論文がついに登場しました!このモデルは2週間前にリリースされ、Soraと同じDiT(DiffusionTransformer)アーキテクチャを採用しており、リリースされると大きな話題を呼びました。前バージョンと比較して、StableDiffusion3で生成される画像の品質が大幅に向上し、マルチテーマプロンプトに対応したほか、テキスト書き込み効果も向上し、文字化けが発生しなくなりました。 StabilityAI は、StableDiffusion3 はパラメータ サイズが 800M から 8B までの一連のモデルであると指摘しました。このパラメーター範囲は、モデルを多くのポータブル デバイス上で直接実行できることを意味し、AI の使用を大幅に削減します。

自動運転と軌道予測についてはこの記事を読めば十分です! 自動運転と軌道予測についてはこの記事を読めば十分です! Feb 28, 2024 pm 07:20 PM

自動運転では軌道予測が重要な役割を果たしており、自動運転軌道予測とは、車両の走行過程におけるさまざまなデータを分析し、将来の車両の走行軌跡を予測することを指します。自動運転のコアモジュールとして、軌道予測の品質は下流の計画制御にとって非常に重要です。軌道予測タスクには豊富な技術スタックがあり、自動運転の動的/静的知覚、高精度地図、車線境界線、ニューラル ネットワーク アーキテクチャ (CNN&GNN&Transformer) スキルなどに精通している必要があります。始めるのは非常に困難です。多くのファンは、できるだけ早く軌道予測を始めて、落とし穴を避けたいと考えています。今日は、軌道予測に関するよくある問題と入門的な学習方法を取り上げます。関連知識の紹介 1. プレビュー用紙は整っていますか? A: まずアンケートを見てください。

SIMPL: 自動運転向けのシンプルで効率的なマルチエージェント動作予測ベンチマーク SIMPL: 自動運転向けのシンプルで効率的なマルチエージェント動作予測ベンチマーク Feb 20, 2024 am 11:48 AM

原題: SIMPL: ASimpleandEfficientMulti-agentMotionPredictionBaselineforAutonomousDriving 論文リンク: https://arxiv.org/pdf/2402.02519.pdf コードリンク: https://github.com/HKUST-Aerial-Robotics/SIMPL 著者単位: 香港科学大学DJI 論文のアイデア: この論文は、自動運転車向けのシンプルで効率的な動作予測ベースライン (SIMPL) を提案しています。従来のエージェントセントとの比較

エンドツーエンドおよび次世代の自動運転システムと、エンドツーエンドの自動運転に関する誤解について話しましょう。 エンドツーエンドおよび次世代の自動運転システムと、エンドツーエンドの自動運転に関する誤解について話しましょう。 Apr 15, 2024 pm 04:13 PM

この 1 か月間、いくつかのよく知られた理由により、私は業界のさまざまな教師やクラスメートと非常に集中的な交流をしてきました。この交換で避けられない話題は当然、エンドツーエンドと人気の Tesla FSDV12 です。この機会に、現時点での私の考えや意見を整理し、皆様のご参考とご議論に役立てたいと思います。エンドツーエンドの自動運転システムをどのように定義するか、またエンドツーエンドで解決することが期待される問題は何でしょうか?最も伝統的な定義によれば、エンドツーエンド システムとは、センサーから生の情報を入力し、関心のある変数をタスクに直接出力するシステムを指します。たとえば、画像認識では、従来の特徴抽出 + 分類子方式と比較して、CNN はエンドツーエンドと言えます。自動運転タスクでは、各種センサー(カメラ/LiDAR)からのデータを入力

nuScenes の最新 SOTA | SparseAD: スパース クエリは効率的なエンドツーエンドの自動運転に役立ちます。 nuScenes の最新 SOTA | SparseAD: スパース クエリは効率的なエンドツーエンドの自動運転に役立ちます。 Apr 17, 2024 pm 06:22 PM

先頭と開始点に書かれている エンドツーエンドのパラダイムでは、統一されたフレームワークを使用して自動運転システムのマルチタスクを実現します。このパラダイムの単純さと明確さにも関わらず、サブタスクにおけるエンドツーエンドの自動運転手法のパフォーマンスは、依然としてシングルタスク手法に比べてはるかに遅れています。同時に、以前のエンドツーエンド手法で広く使用されていた高密度鳥瞰図 (BEV) 機能により、より多くのモダリティやタスクに拡張することが困難になります。ここでは、スパース検索中心のエンドツーエンド自動運転パラダイム (SparseAD) が提案されています。このパラダイムでは、スパース検索は、高密度の BEV 表現を使用せずに、空間、時間、タスクを含む運転シナリオ全体を完全に表します。具体的には、統合されたスパース アーキテクチャが、検出、追跡、オンライン マッピングなどのタスク認識のために設計されています。さらに、重い

See all articles