Baru-baru ini, dengan peningkatan teknologi AI generatif, banyak kuasa pembuatan kereta baharu sedang meneroka kaedah baharu model bahasa visual dan model dunia pemacu pintar hujung-ke-hujung nampaknya telah menjadi hala tuju penyelidikan biasa. Bulan lalu, Li Auto mengeluarkan seni bina teknologi pemanduan autonomi generasi ketiga bagi model bahasa visual + VLM hujung ke hujung + model dunia. Seni bina ini telah ditolak kepada beribu-ribu orang untuk ujian dalaman. Ia menggambarkan tingkah laku pemanduan pintar, meningkatkan kecekapan pemprosesan maklumat AI, dan meningkatkan keupayaan untuk memahami dan bertindak balas terhadap keadaan jalan yang kompleks. Li Xiang pernah berkata dalam perkongsian awam bahawa dalam menghadapi persekitaran pemanduan yang jarang berlaku yang sukar untuk kebanyakan algoritma untuk mengenal pasti dan memproses, VLM (Model Bahasa Visual) secara sistematik boleh meningkatkan keupayaan pemanduan autonomi Kaedah ini boleh dicapai secara teori .
Generasi baharu sistem pemanduan autonomi telah meningkatkan had atas keupayaan dengan banyak - membolehkan AI menangani banyak situasi yang sukar diselesaikan pada masa lalu, dan juga menurunkan ambang - mengurangkan keperluan untuk saiz R&D teknologi pasukan, dan dijangka membolehkan lebih ramai orang memandu dalam masa terdekat Dapatkan pengalaman yang jauh lebih baik pada masa hadapan.
Set seni bina teknologi pemanduan autonomi ini diilhamkan oleh teori sistem pantas dan perlahan pemenang Hadiah Nobel Daniel Kahneman Mensimulasikan pemikiran manusia dan proses membuat keputusan dalam bidang pemanduan autonomi juga memerlukan "sistem pantas" dan "sistem perlahan" Bekerjasama. . Antaranya:
・ Sistem pantas (Sistem 1) pandai mengendalikan tugas mudah dan intuisi manusia dibentuk berdasarkan pengalaman dan tabiat dalam pemanduan autonomi, ia terdiri daripada model besar hujung ke hujung, termasuk persepsi dan perancangan , yang cukup untuk menangani 95% masalah semasa memandu kenderaan senario rutin.
・ Sistem perlahan (Sistem 2) ialah penaakulan logik, analisis kompleks dan keupayaan pengkomputeran yang dibentuk oleh manusia melalui pemahaman dan pembelajaran yang lebih mendalam dalam sistem pemanduan autonomi, ia terutamanya model VLM, yang digunakan untuk menyelesaikan kompleks atau tidak diketahui masalah semasa memandu kenderaan Adegan trafik menyumbang kira-kira 5% daripada adegan pemanduan harian.
Minggu lepas, pada acara yang diadakan di ibu pejabat R&D Li Auto di Beijing, Naib Presiden Pemanduan Pintar Li Auto Lang Xianpeng menekankan bahawa pemanduan pintar Li Auto kini telah disepadukan sepenuhnya ke dalam penyelesaian model hujung ke hujung + besar, yang membolehkan kenderaan untuk memahami keadaan jalan raya yang kompleks dan peraturan lalu lintas.
"Kedua-dua model membuat keputusan persepsi hujung-ke-hujung dan tradisional memerlukan sejumlah besar data untuk latihan. Satu masalah yang berpotensi ialah sistem tidak akan berfungsi dengan baik jika ia menghadapi adegan yang tidak kelihatan," kata Lang Xianpeng. "Kami sedang meneroka keupayaan kenderaan untuk berfikir dan membuat keputusan seperti orang ramai."
Sejak separuh kedua tahun lalu, Ideal mula menyesuaikan strateginya dan mengubah trajektorinya. Pada Februari tahun ini, dalam kertas DriveVLM yang dikemukakan oleh Institut Penyelidikan Silang Maklumat Universiti Tsinghua dan Li Auto, penyelidik menggunakan model bahasa visual (VLM) yang baru-baru ini muncul dalam bidang AI generatif dan menunjukkan keupayaan luar biasa dalam pemahaman dan penaakulan visual. .
Dalam industri, ini adalah kerja pertama untuk mencadangkan sistem kelajuan pemanduan autonomi, kaedahnya menggabungkan sepenuhnya saluran paip pemanduan autonomi arus perdana dan saluran paip model besar dengan pemikiran logik, dan merupakan yang pertama menyelesaikan kerja model besar ujian akhir. penempatan (Berdasarkan platform NVIDIA Orin).
Sistem DriveVLM
DriveVLM terdiri daripada proses Chain-of-Though (CoT) dengan tiga modul utama:
Penerangan Senario: Gunakan bahasa untuk menerangkan persekitaran pemanduan dan mengenal pasti objek utama.
Analisis Senario: Selami ciri-ciri objek utama dan kesannya terhadap kenderaan ego.
- Perancangan hierarki: Pembangunan pelan langkah demi langkah daripada meta-tindakan dan penerangan keputusan kepada titik laluan.
- Modul ini sepadan dengan persepsi, ramalan dan komponen perancangan dalam proses sistem pemanduan autonomi tradisional Perbezaannya terletak pada keupayaan mereka untuk mengendalikan persepsi objek, ramalan tahap niat dan perancangan peringkat tugas, yang telah menjadi sangat mencabar dalam masa. lalu.
-
Pengesahan teknikal
Teknologi pengesahan yang ideal berkesan dalam senario long-tail:
Nyahhimpun data persekitaran sebenar
Gunakan model generatif untuk menambah perspektif baharu
mengubah keadaan lalu lintas- yang lain
-
- Aplikasi praktikal
Model hujung ke hujung Li Auto dan model VLM dijalankan dalam masa nyata:
Model hujung ke hujung: kadar bingkai yang lebih tinggi
Model VLM: bilangan parameter yang lebih besar, kadar bingkai yang lebih rendah
- Di bandar yang kompleks Dalam senario, VLM memainkan peranan dalam situasi yang membuat keputusan adalah mustahil dan menyampaikan keputusan dan trajektori kepada model hujung ke hujung.
-
Pendekatan hujung ke hujung
Pendekatan hujung ke hujung telah menjadi aliran teknologi, menandakan permulaan penggunaan sebenar AI.
Model AI generasi baharu
Model AI generasi baharu boleh berfungsi sebagai pembuat soalan:
Pilih data pengguna yang memenuhi standard pemandu kereta persendirian sebagai "soalan sebenar"
Digabungkan dengan dunia model untuk menjana "soalan simulasi"
-
- Cabaran kuasa pengkomputeran
Le déploiement de modèles tels que VLM côté véhicule est confronté à des défis de puissance de calcul :
- Maintenir le nombre optimal de paramètres
- Optimiser l'ingénierie pour améliorer la latence de prise de décision
Perspectives de concurrence
Tesla FSD est sur le point de entrez dans le domaine de la conduite intelligente nationale Entrez dans une nouvelle étape de compétition :
- Objectif de la voiture idéale : de bout en bout + livraison en série de conduite autonome VLM
Atas ialah kandungan terperinci L3 akan dilancarkan selewat-lewatnya pada separuh pertama tahun depan: pemanduan autonomi hujung-ke-hujung yang ideal dan prestasi yang sangat dipertingkatkan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!