更新: 新しい例を追加しました。自動運転配送車両が新埔セメントフロアに進入しました。
注目を浴びる中、GPT4 は本日、ついにビジョン関連機能を開始しました。今日の午後、友達と一緒に GPT の画像認識機能を早速テストしましたが、期待はしていましたが、それでも大きなショックを受けました。 TL;DR は 自動運転における意味関連の問題は大型モデルによって非常によく解決されるはずだと思いますが、大型モデルの信頼性と空間認識能力はまだ満足のいくものではありません。いわゆる効率関連のコーナーケースを解決するには十分すぎるはずですが、大型モデルに完全に依存して独立して運転を完了し、安全性を確保するにはまだ遠いです。
GPT4 の説明
#正確な部分: 3 台のトラックが検出され、前のトラックのナンバー プレート番号は基本的に正しい (漢字がある場合は無視)、天候と環境は正しい、 なしで正確プロンプト前方の未知の障害物が特定されました
不正確な部分: 3 台目のトラックの位置は左から右まで区別できず、2 台目のトラックの上部にあるテキストはランダムな推測です (解像度が不十分なため) ?)
これでは十分ではありません。このオブジェクトが何であるか、そしてそれを押すことができるかどうかを尋ねる小さなヒントを与え続けましょう。 ###############印象的な!私たちは複数の同様のシナリオをテストしましたが、未知の障害物でのパフォーマンスは非常に驚くべきものであると言えます。
2
例 2: 道路の水の蓄積を理解する
3
例 3: 車両が方向転換してガードレールに直接衝突しました4
例 4: 面白い話をしましょう5
例5 有名なシーンを見てみましょう。 。 。配送トラックが誤って新しく建設された道路に進入した##
私は最初は比較的保守的で、直接理由を推測せず、さまざまな推測をしましたが、これは調整の目的と一致しています。 CoTを利用した結果、その車が自動運転車であると理解されていないことが問題であることが判明したため、この情報をプロンプトで提供することで、より正確な情報を提供できるようになりました。最後に、一連のプロンプトを通じて、新しく敷設されたアスファルトは走行には適さないという結論を出力できます。最終結果はまだ問題ありませんが、プロセスはより複雑で、より迅速なエンジニアリングと慎重な設計が必要です。一人称視点の絵ではなく、三人称視点でしか推測できないこともその理由かもしれない。したがって、この例はあまり正確ではありません。
いくつかの簡単な試みにより、GPT4V の能力と汎化パフォーマンスが完全に証明されました。適切なプロンプトによって、その強みを十分に実証できるはずです。 GPT4Vの。セマンティックのコーナーケースを解決することは非常に有望なはずですが、セキュリティ関連のシナリオでは、錯覚の問題が依然として一部のアプリケーションを悩ませることになります。非常にエキサイティングです。個人的には、このような大型モデルを合理的に使用することで、L4、さらには L5 の自動運転の開発を大幅に加速できると考えています。しかし、LLM は直接運転する必要があるのでしょうか?特にエンドツーエンドの運転は依然として議論の余地のある問題です。最近いろいろ考えているので、時間を見つけて記事を書いて皆さんとお話しします~
元のリンク: https://mp.weixin.qq .com/s/RtEek6HadErxXLSdtsMWHQ
以上がエキサイティング!自動運転におけるGPT-4Vの予備研究の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。