Kemas kini: Menambah contoh baharu, kenderaan penghantaran pandu sendiri memandu ke lantai simen Xinpu
Di bawah perhatian ramai, hari ini GPT4 akhirnya melancarkan fungsi berkaitan penglihatan. Petang ini saya cepat menguji keupayaan persepsi imej GPT dengan rakan-rakan saya Walaupun kami mempunyai jangkaan, kami masih sangat terkejut. TL;DR ialah Saya rasa isu berkaitan semantik dalam pemanduan autonomi sepatutnya diselesaikan dengan baik oleh model besar, tetapi kredibiliti dan keupayaan persepsi ruang bagi model besar masih tidak memuaskan. Ia sepatutnya lebih daripada mencukupi untuk menyelesaikan beberapa kes sudut berkaitan kecekapan yang dipanggil, tetapi masih jauh untuk bergantung sepenuhnya pada model besar untuk melengkapkan pemanduan secara bebas dan memastikan keselamatan. . jika terdapat aksara Cina) ), cuaca dan persekitaran adalah betul,
mengenal pasti dengan tepat halangan yang tidak diketahui di hadapan tanpa menggesaMengagumkan! Kami telah menguji beberapa senario yang serupa, dan prestasi pada halangan yang tidak diketahui boleh dikatakan sangat menakjubkan. . . . . Dia secara automatik boleh memberitahu kabus di belakang trak dan juga menyebut lopak, tetapi sekali lagi berkata arahnya adalah ke kiri. . . Saya merasakan bahawa beberapa kejuruteraan segera mungkin diperlukan di sini untuk membolehkan GPT mengeluarkan kedudukan dan arah dengan lebih baik. . Jadi, inilah satu lagi bingkai:
boleh dikatakan secara automatik kedua-duanya melanggar pagar dan berlegar di tepi jalan. . . Tetapi sebaliknya papan tanda jalan yang kelihatan lebih mudah adalah salah. . . Apa yang boleh saya katakan ialah ini adalah model yang besar Ia akan sentiasa mengejutkan anda dan anda tidak tahu bila ia akan membuat anda menangis. . . Bingkai lain:
Kali ini, ia bercakap secara langsung tentang serpihan di jalan raya, dan saya mengaguminya lagi. . . Tetapi sekali saya menamakan anak panah di jalan raya. . . Secara umumnya, maklumat yang memerlukan perhatian khusus dalam adegan ini dilindungi Untuk isu-isu seperti tanda jalan, kelemahan tidak disembunyikan4
Contoh4: Ini adalah lucuContoh5 Mari kita lihat adegan yang terkenal. . . Lori penghantar tersilap masuk ke jalan yang baru dibina
Saya pada mulanya agak konservatif dan tidak langsung meneka sebab saya memberi pelbagai tekaan Ini adalah selaras dengan matlamat penjajaran. Selepas menggunakan CoT, didapati masalahnya ialah kereta itu tidak difahamkan sebagai kenderaan pandu sendiri, jadi dengan memberikan maklumat ini melalui segera boleh memberikan maklumat yang lebih tepat. Akhirnya, melalui sekumpulan gesaan, kesimpulan boleh menjadi output bahawa asfalt yang baru dipasang tidak sesuai untuk memandu. Keputusan akhir masih OK, tetapi prosesnya lebih berliku-liku dan memerlukan kejuruteraan yang lebih cepat dan reka bentuk yang teliti. Sebab ini juga mungkin kerana ia bukan gambaran perspektif orang pertama dan hanya boleh dibuat spekulasi dari perspektif orang ketiga. Jadi contoh ini tidak begitu tepat.
Sesetengah percubaan pantas telah membuktikan sepenuhnya kuasa dan prestasi generalisasi GPT4V gesaan yang sesuai seharusnya dapat menggunakan sepenuhnya kekuatan GPT4V. Menyelesaikan kes sudut semantik sepatutnya sangat menjanjikan, tetapi masalah ilusi masih akan melanda beberapa aplikasi dalam senario berkaitan keselamatan. Sangat mengujakan. Saya secara peribadi berpendapat bahawa penggunaan rasional model besar sebegini boleh mempercepatkan pembangunan pemanduan autonomi L4 dan juga L5 Namun, adakah LLM perlu memandu secara langsung? Pemanduan hujung ke hujung, khususnya, masih menjadi isu yang boleh dipertikaikan. Saya telah banyak berfikir baru-baru ini, jadi saya akan mencari masa untuk menulis artikel untuk berbual dengan anda semua~
Pautan asal: https://mp.weixin.qq.com/s/RtEek6HadErxXLSdtsMWHQ
Atas ialah kandungan terperinci mengujakan! Kajian awal GPT-4V dalam pemanduan autonomi. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!