エキサイティング!自動運転におけるGPT-4Vの予備研究

王林
リリース: 2023-10-19 11:21:14
転載
685 人が閲覧しました

更新: 新しい例を追加しました。自動運転配送車両が新埔セメントフロアに進入しました。

注目を浴びる中、GPT4 は本日、ついにビジョン関連機能を開始しました。今日の午後、友達と一緒に GPT の画像認識機能を早速テストしましたが、期待はしていましたが、それでも大きなショックを受けました。 TL;DR は 自動運転における意味関連の問題は大型モデルによって非常によく解決されるはずだと思いますが、大型モデルの信頼性と空間認識能力はまだ満足のいくものではありません。いわゆる効率関連のコーナーケースを解決するには十分すぎるはずですが、大型モデルに完全に依存して独立して運転を完了し、安全性を確保するにはまだ遠いです。

1 例 1: 道路上にいくつかの未知の障害物が出現しました

エキサイティング!自動運転におけるGPT-4Vの予備研究

エキサイティング!自動運転におけるGPT-4Vの予備研究

GPT4 の説明

#正確な部分: 3 台のトラックが検出され、前のトラックのナンバー プレート番号は基本的に正しい (漢字がある場合は無視)、天候と環境は正しい、 なしで正確プロンプト前方の未知の障害物が特定されました

不正確な部分: 3 台目のトラックの位置は左から右まで区別できず、2 台目のトラックの上部にあるテキストはランダムな推測です (解像度が不十分なため) ?)

これでは十分ではありません。このオブジェクトが何であるか、そしてそれを押すことができるかどうかを尋ねる小さなヒントを与え続けましょう。 ###############印象的な!私たちは複数の同様のシナリオをテストしましたが、未知の障害物でのパフォーマンスは非常に驚くべきものであると言えます。

エキサイティング!自動運転におけるGPT-4Vの予備研究2

例 2: 道路の水の蓄積を理解する

標識を自動的に認識するためのプロンプトはありません。これは同性愛者であり、私たちはいくつかのヒントを与え続けました

エキサイティング!自動運転におけるGPT-4Vの予備研究

#私たちは再びショックを受けました。 。 。彼はトラックの後ろの霧を自動的に認識でき、水たまりについても言及しましたが、再び方向は左であると言いました。 。 。 GPT が位置と方向をより適切に出力できるようにするには、ここで何らかの迅速なエンジニアリングが必要になる可能性があると感じています。

3 エキサイティング!自動運転におけるGPT-4Vの予備研究

例 3: 車両が方向転換してガードレールに直接衝突しました

最初のフレームに入り、タイミング情報がないため、右側のトラックが駐車されていると見なされます。別のフレームは次のとおりです:

エキサイティング!自動運転におけるGPT-4Vの予備研究

は自動的に言えます。これら 2 人はガードレールを突き破り、高速道路の端でホバリングしました。素晴らしいですね。 。 。しかし、代わりに、簡単そうに見えた道路標識は間違っていました。 。 。ただ一つ言えるのは、これは巨大な模型であり、常に衝撃を与え、いつ泣かされるか分からないということです。 。 。別のフレーム:

エキサイティング!自動運転におけるGPT-4Vの予備研究

#今回は、道路上の瓦礫について直接話していて、改めて感心しました。 。 。しかし、一度道路上の矢印の名前を間違えました。 。 。一般的に、このシーンで特別な注意が必要な情報はカバーされています。道路標識などの問題については、欠陥は隠されていません。

4 エキサイティング!自動運転におけるGPT-4Vの予備研究

例 4: 面白い話をしましょう

これまでの「誰かがあなたに手を振った」などの非常に難しそうなケースと比べると、非常に正確としか言いようがありません。セマンティクス 上記の特殊なケースは解決できます。

5 エキサイティング!自動運転におけるGPT-4Vの予備研究

例5 有名なシーンを見てみましょう。 。 。配送トラックが誤って新しく建設された道路に進入した

エキサイティング!自動運転におけるGPT-4Vの予備研究

エキサイティング!自動運転におけるGPT-4Vの予備研究##

私は最初は比較的保守的で、直接理由を推測せず、さまざまな推測をしましたが、これは調整の目的と一致しています。 CoTを利用した結果、その車が自動運転車であると理解されていないことが問題であることが判明したため、この情報をプロンプトで提供することで、より正確な情報を提供できるようになりました。最後に、一連のプロンプトを通じて、新しく敷設されたアスファルトは走行には適さないという結論を出力できます。最終結果はまだ問題ありませんが、プロセスはより複雑で、より迅速なエンジニアリングと慎重な設計が必要です。一人称視点の絵ではなく、三人称視点でしか推測できないこともその理由かもしれない。したがって、この例はあまり正確ではありません。

6 概要

いくつかの簡単な試みにより、GPT4V の能力と汎化パフォーマンスが完全に証明されました。適切なプロンプトによって、その強みを十分に実証できるはずです。 GPT4Vの。セマンティックのコーナーケースを解決することは非常に有望なはずですが、セキュリティ関連のシナリオでは、錯覚の問題が依然として一部のアプリケーションを悩ませることになります。非常にエキサイティングです。個人的には、このような大型モデルを合理的に使用することで、L4、さらには L5 の自動運転の開発を大幅に加速できると考えています。しかし、LLM は直接運転する必要があるのでしょうか?特にエンドツーエンドの運転は依然として議論の余地のある問題です。最近いろいろ考えているので、時間を見つけて記事を書いて皆さんとお話しします~

エキサイティング!自動運転におけるGPT-4Vの予備研究

元のリンク: https://mp.weixin.qq .com/s/RtEek6HadErxXLSdtsMWHQ

以上がエキサイティング!自動運転におけるGPT-4Vの予備研究の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ソース:51cto.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート