Jadual Kandungan
Model besar (bahasa)
Model Besar (Visual)
Pemandu autonomi visual tulen
Pemandu autonomi hujung ke hujung
Feed-Forward pemanduan autonomi hujung ke hujung
Rumah Peranti teknologi AI Mari bercakap tentang beberapa model besar dan konsep pemanduan autonomi yang telah menjadi popular baru-baru ini.

Mari bercakap tentang beberapa model besar dan konsep pemanduan autonomi yang telah menjadi popular baru-baru ini.

Nov 09, 2023 am 11:13 AM
Model Pemanduan autonomi

Pelbagai aplikasi model besar masih popular baru-baru ini Satu siri artikel gimik muncul sekitar awal Oktober, cuba menggunakan model besar untuk pemanduan autonomi. Saya telah bercakap tentang banyak topik berkaitan dengan ramai rakan baru-baru ini Apabila menulis artikel ini, di satu pihak, saya mendapati bahawa termasuk diri saya sendiri, pada masa lalu, kami sebenarnya telah mengelirukan beberapa konsep yang sangat berkaitan tetapi sebenarnya berbeza tangan, ia adalah lanjutan daripada konsep-konsep ini Terdapat beberapa pemikiran menarik yang patut dikongsi dan dibincangkan dengan semua orang.

Model besar (bahasa)

Ini sudah pasti hala tuju paling popular pada masa ini, dan ia juga menjadi tumpuan kertas kerja yang paling tertumpu. Bagaimanakah model bahasa besar boleh membantu pemanduan autonomi? Di satu pihak, seperti GPT-4V, ia menyediakan keupayaan pemahaman semantik yang sangat berkuasa melalui penjajaran dengan imej, yang tidak akan disebut di sini buat masa ini, sebaliknya, ia menggunakan LLM sebagai ejen untuk melaksanakan tingkah laku pemanduan secara langsung. Yang terakhir ini sebenarnya merupakan hala tuju penyelidikan yang paling seksi pada masa ini, dan berkait rapat dengan siri kerja pada AI terbenam.

Kebanyakan jenis kerja terakhir yang dilihat setakat ini menggunakan LLM: 1) digunakan secara langsung 2) diperhalusi melalui pembelajaran terselia 3) diperhalusi melalui pembelajaran pengukuhan untuk tugas memandu. Pada dasarnya, tidak lari daripada kerangka paradigma pemanduan sebelum ini berdasarkan kaedah pembelajaran. Sebenarnya, soalan yang sangat langsung ialah, mengapa mungkin lebih baik menggunakan LLM untuk melakukan ini? Secara intuitif, menggunakan kata-kata untuk memandu adalah perkara yang tidak cekap dan bertele-tele. Kemudian suatu hari saya tiba-tiba memikirkannyaLLM sebenarnya melaksanakan pralatihan untuk ejen melalui bahasa! Salah satu sebab penting mengapa RL sukar untuk digeneralisasikan sebelum ini ialah sukar untuk menyatukan pelbagai tugas dan menggunakan pelbagai data biasa untuk melatih setiap tugasan hanya boleh dilatih dari awal, tetapi LLM menyelesaikannya dengan baik soalan. Tetapi sebenarnya, terdapat beberapa masalah yang tidak dapat diselesaikan dengan baik: 1) Selepas melengkapkan pralatihan, mestikah bahasa itu dikekalkan sebagai antara muka keluaran? Ini sebenarnya membawa banyak kesulitan kepada banyak tugas, dan juga menyebabkan pengiraan berlebihan pada tahap tertentu. 2) Pendekatan LLM sebagai ejen masih tidak mengatasi masalah asas kaedah bebas model RL sedia ada, dan semua masalah kaedah bebas model masih wujud. Baru-baru ini, kami juga telah melihat beberapa percubaan berasaskan model + LLM sebagai ejen, yang mungkin merupakan hala tuju yang menarik.

Perkara terakhir yang ingin saya adukan dalam setiap kertas kerja ialah: Ia bukan sekadar menyambung kepada LLM dan membiarkan LLM mengeluarkan alasan untuk menjadikan model anda boleh ditafsirkan. Alasan ini mungkin masih karut. . . Perkara yang tidak dijamin sebelum ini tidak akan menjadi terjamin hanya kerana ayat adalah output.

Model Besar (Visual)

Model visual yang besar sebenarnya masih belum melihat detik "kemunculan" ajaib itu. Apabila bercakap tentang model visual yang besar, secara amnya terdapat dua rujukan yang mungkin: satu ialah pengekstrak ciri maklumat visual yang sangat berkuasa berdasarkan pra-latihan data web besar-besaran seperti CLIP atau DINO atau SAM, yang meningkatkan keupayaan pemahaman semantik model. ; Yang lain merujuk kepada model pasangan bersama (imej, tindakan, dll...) yang dilaksanakan oleh model dunia yang diwakili oleh GAIA.

Malah, saya rasa yang pertama hanyalah hasil daripada skala linear yang berterusan di sepanjang garis tradisional Pada masa ini, sukar untuk melihat kemungkinan perubahan kuantitatif dalam pemanduan autonomi. Malah, yang kedua telah terus memasuki bidang wawasan penyelidik kerana publisiti berterusan Wayve dan Tesla tahun ini. Apabila orang bercakap tentang model dunia, mereka sering memasukkan fakta bahawa model itu hujung ke hujung (secara langsung mengeluarkan tindakan) dan berkaitan dengan LLM. Malah, andaian ini adalah berat sebelah. Pemahaman saya tentang model dunia juga sangat terhad. Saya ingin mengesyorkan temu bual Lecun dan tinjauan RL berasaskan model @Yu Yang, yang tidak akan saya bahas lebih lanjut:

Yu Yang: Belajar tentang model persekitaran (model dunia)
https://www.php.cn/link/a2cdd86a458242d42a17c2bf4feff069

Pemandu autonomi visual tulen

Ini sebenarnya mudah difahami dan merujuk kepada sistem pemanduan autonomous sahaja. Ini sebenarnya keinginan terbaik dan muktamad untuk pemanduan autonomi: untuk memandu dengan sepasang mata seperti manusia. Konsep sedemikian biasanya dikaitkan dengan dua model besar di atas, kerana semantik imej yang kompleks memerlukan keupayaan abstraksi yang kuat untuk mengekstrak maklumat yang berguna. Di bawah serangan publisiti berterusan Tesla baru-baru ini, konsep ini juga bertindih dengan hujung ke hujung yang dinyatakan di bawah. Tetapi sebenarnya, terdapat banyak cara untuk mencapai pemanduan visual tulen, dan hujung-ke-hujung secara semulajadi adalah salah satu daripadanya, tetapi ia bukan satu-satunya. Masalah yang paling sukar dalam merealisasikan pemanduan autonomi visual semata-mata ialah penglihatan sememangnya tidak sensitif terhadap maklumat 3D, dan model besar tidak mengubahnya pada dasarnya. Dicerminkan secara khusus dalam: 1) Cara menerima gelombang elektromagnet secara pasif menjadikan penglihatan tidak seperti penderia lain yang boleh mengukur maklumat geometri dalam ruang 3D) Perspektif menjadikan objek jauh sangat sensitif terhadap ralat. Ini sangat tidak mesra untuk perancangan dan kawalan hiliran, yang dilaksanakan dalam ruang 3D ralat yang sama secara lalai. Namun, adakah pemanduan dengan penglihatan sama seperti dapat menganggar jarak dan kelajuan 3D dengan tepat? Saya fikir ini adalah isu perwakilan yang layak untuk dikaji secara mendalam dalam pemanduan autonomi visual tulen selain pemahaman semantik.

Pemandu autonomi hujung ke hujung

Konsep ini merujuk kepada isyarat kawalan daripada sensor ke output akhir (malah, saya fikir ia juga boleh memasukkan maklumat titik laluan kepada perancangan lapisan yang lebih huluan) menggunakan pengoptimuman bersama model. Ini sama ada kaedah hujung-ke-hujung terus yang memasukkan data sensor seperti ALVINN seawal tahun 1980-an dan mengeluarkan isyarat kawalan secara terus melalui rangkaian saraf, atau ia boleh menjadi kaedah hujung-ke-hujung berperingkat seperti CVPR terbaik tahun ini kertas UniAD. Walau bagaimanapun, perkara biasa kaedah ini ialah isyarat penyeliaan hiliran boleh dihantar terus ke huluan, dan bukannya setiap modul mempunyai matlamat pengoptimuman yang ditentukan sendiri. Secara keseluruhan, ini adalah idea yang betul Lagipun, pembelajaran mendalam bergantung pada pengoptimuman bersama tersebut untuk menjana kekayaannya. Walau bagaimanapun, bagi sistem seperti pemanduan autonomi atau robot tujuan umum, yang selalunya sangat kompleks dan berurusan dengan dunia fizikal, terdapat banyak masalah yang perlu diatasi dari segi pelaksanaan kejuruteraan dan organisasi data dan kecekapan penggunaan.

Feed-Forward pemanduan autonomi hujung ke hujung

Konsep ini nampaknya jarang disebut, tetapi sebenarnya saya mendapati bahawa kewujudan hujung ke hujung itu sendiri adalah berharga, tetapi masalahnya terletak pada pemerhatian penggunaan Cara Suapan Ke Hadapan ini. Termasuk saya, sebenarnya, saya selalu ingkar bahawa pemanduan hujung ke hujung mestilah dalam bentuk Feed-Forward, kerana 99% kaedah berasaskan pembelajaran mendalam semasa menganggap struktur sedemikian, yang bermaksud bahawa output akhir yang menjadi kebimbangan (seperti isyarat kawalan )u = f(x), x ialah pelbagai cerapan penderia. Di sini f boleh menjadi fungsi yang sangat kompleks. Tetapi sebenarnya, dalam beberapa masalah, kami berharap untuk membuat output akhir memuaskan atau hampir dengan hartanah tertentu, jadi sukar untuk borang Feed-Forward untuk memberikan jaminan sedemikian. Jadi terdapat satu lagi cara kita boleh menulis u* = argmin g(u, x) s.t h(u, x)

Dengan pembangunan model besar, penyelesaian pemanduan autonomi hujung-ke-hujung Feed-Forward terus ini telah membawa kebangkitan. Sudah tentu, model besar sangat berkuasa, tetapi saya menimbulkan satu soalan dan berharap semua orang akan memikirkannya: Jika model besar adalah maha kuasa dari hujung ke hujung, adakah itu bermakna model besar itu sepatutnya boleh memainkan hujung Go/Gobang -ke-akhir? Paradigma seperti AlphaGo sepatutnya tidak bermakna? Saya percaya semua orang tahu bahawa jawapannya adalah tidak. Sudah tentu, kaedah Feed-Forward ini boleh digunakan sebagai penyelesai anggaran yang pantas dan mencapai keputusan yang baik dalam kebanyakan senario.

Berdasarkan pelbagai penyelesaian yang telah mendedahkan penggunaan Perancang Neural mereka, bahagian saraf hanya menyediakan beberapa cadangan permulaan untuk penyelesaian pengoptimuman seterusnya untuk mengurangkan masalah pengoptimuman sangat tidak cembung dalam pengoptimuman berikutnya. Ini pada asasnya adalah perkara yang sama seperti pelancaran pantas dalam AlphaGo. Tetapi AlphaGo tidak akan memanggil carian MCTS berikutnya sebagai penyelesaian "menutup". . .

Akhir sekali, saya berharap ini dapat membantu semua orang menjelaskan perbezaan dan kaitan antara konsep ini, dan semua orang dapat memahami dengan jelas perkara yang mereka bincangkan semasa membincangkan isu. . .

Mari bercakap tentang beberapa model besar dan konsep pemanduan autonomi yang telah menjadi popular baru-baru ini.

Pautan asal: https://mp.weixin.qq.com/s/_OjgT1ebIJXM8_vlLm0v_A

Atas ialah kandungan terperinci Mari bercakap tentang beberapa model besar dan konsep pemanduan autonomi yang telah menjadi popular baru-baru ini.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Akan R.E.P.O. Ada Crossplay?
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Bagaimana untuk menyelesaikan masalah ekor panjang dalam senario pemanduan autonomi? Bagaimana untuk menyelesaikan masalah ekor panjang dalam senario pemanduan autonomi? Jun 02, 2024 pm 02:44 PM

Semalam semasa temu bual, saya telah ditanya sama ada saya telah membuat sebarang soalan berkaitan ekor panjang, jadi saya fikir saya akan memberikan ringkasan ringkas. Masalah ekor panjang pemanduan autonomi merujuk kepada kes tepi dalam kenderaan autonomi, iaitu, kemungkinan senario dengan kebarangkalian yang rendah untuk berlaku. Masalah ekor panjang yang dirasakan adalah salah satu sebab utama yang kini mengehadkan domain reka bentuk pengendalian kenderaan autonomi pintar satu kenderaan. Seni bina asas dan kebanyakan isu teknikal pemanduan autonomi telah diselesaikan, dan baki 5% masalah ekor panjang secara beransur-ansur menjadi kunci untuk menyekat pembangunan pemanduan autonomi. Masalah ini termasuk pelbagai senario yang berpecah-belah, situasi yang melampau dan tingkah laku manusia yang tidak dapat diramalkan. "Ekor panjang" senario tepi dalam pemanduan autonomi merujuk kepada kes tepi dalam kenderaan autonomi (AVs) kes Edge adalah senario yang mungkin dengan kebarangkalian yang rendah untuk berlaku. kejadian yang jarang berlaku ini

Model MoE sumber terbuka paling berkuasa di dunia ada di sini, dengan keupayaan bahasa Cina setanding dengan GPT-4, dan harganya hanya hampir satu peratus daripada GPT-4-Turbo Model MoE sumber terbuka paling berkuasa di dunia ada di sini, dengan keupayaan bahasa Cina setanding dengan GPT-4, dan harganya hanya hampir satu peratus daripada GPT-4-Turbo May 07, 2024 pm 04:13 PM

Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

Apr 09, 2024 am 11:52 AM

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

Google gembira: prestasi JAX mengatasi Pytorch dan TensorFlow! Ia mungkin menjadi pilihan terpantas untuk latihan inferens GPU Google gembira: prestasi JAX mengatasi Pytorch dan TensorFlow! Ia mungkin menjadi pilihan terpantas untuk latihan inferens GPU Apr 01, 2024 pm 07:46 PM

Prestasi JAX, yang dipromosikan oleh Google, telah mengatasi Pytorch dan TensorFlow dalam ujian penanda aras baru-baru ini, menduduki tempat pertama dalam 7 penunjuk. Dan ujian tidak dilakukan pada TPU dengan prestasi JAX terbaik. Walaupun dalam kalangan pembangun, Pytorch masih lebih popular daripada Tensorflow. Tetapi pada masa hadapan, mungkin lebih banyak model besar akan dilatih dan dijalankan berdasarkan platform JAX. Model Baru-baru ini, pasukan Keras menanda aras tiga hujung belakang (TensorFlow, JAX, PyTorch) dengan pelaksanaan PyTorch asli dan Keras2 dengan TensorFlow. Pertama, mereka memilih satu set arus perdana

Hello, Atlas elektrik! Robot Boston Dynamics hidup semula, gerakan pelik 180 darjah menakutkan Musk Hello, Atlas elektrik! Robot Boston Dynamics hidup semula, gerakan pelik 180 darjah menakutkan Musk Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

KAN, yang menggantikan MLP, telah diperluaskan kepada konvolusi oleh projek sumber terbuka KAN, yang menggantikan MLP, telah diperluaskan kepada konvolusi oleh projek sumber terbuka Jun 01, 2024 pm 10:03 PM

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

Mari kita bincangkan tentang sistem pemanduan autonomi hujung ke hujung dan generasi seterusnya, serta beberapa salah faham tentang pemanduan autonomi hujung ke hujung? Mari kita bincangkan tentang sistem pemanduan autonomi hujung ke hujung dan generasi seterusnya, serta beberapa salah faham tentang pemanduan autonomi hujung ke hujung? Apr 15, 2024 pm 04:13 PM

Pada bulan lalu, atas sebab-sebab yang diketahui umum, saya telah mengadakan pertukaran yang sangat intensif dengan pelbagai guru dan rakan sekelas dalam industri. Topik yang tidak dapat dielakkan dalam pertukaran secara semula jadi adalah hujung ke hujung dan Tesla FSDV12 yang popular. Saya ingin mengambil kesempatan ini untuk menyelesaikan beberapa buah fikiran dan pendapat saya pada masa ini untuk rujukan dan perbincangan anda. Bagaimana untuk mentakrifkan sistem pemanduan autonomi hujung ke hujung, dan apakah masalah yang sepatutnya dijangka diselesaikan hujung ke hujung? Menurut definisi yang paling tradisional, sistem hujung ke hujung merujuk kepada sistem yang memasukkan maklumat mentah daripada penderia dan secara langsung mengeluarkan pembolehubah yang membimbangkan tugas. Sebagai contoh, dalam pengecaman imej, CNN boleh dipanggil hujung-ke-hujung berbanding kaedah pengekstrak ciri + pengelas tradisional. Dalam tugas pemanduan autonomi, masukkan data daripada pelbagai penderia (kamera/LiDAR

SOTA terbaharu nuScenes |. SparseAD: Pertanyaan jarang membantu pemanduan autonomi hujung ke hujung yang cekap! SOTA terbaharu nuScenes |. SparseAD: Pertanyaan jarang membantu pemanduan autonomi hujung ke hujung yang cekap! Apr 17, 2024 pm 06:22 PM

Ditulis di hadapan & titik permulaan Paradigma hujung ke hujung menggunakan rangka kerja bersatu untuk mencapai pelbagai tugas dalam sistem pemanduan autonomi. Walaupun kesederhanaan dan kejelasan paradigma ini, prestasi kaedah pemanduan autonomi hujung ke hujung pada subtugas masih jauh ketinggalan berbanding kaedah tugasan tunggal. Pada masa yang sama, ciri pandangan mata burung (BEV) padat yang digunakan secara meluas dalam kaedah hujung ke hujung sebelum ini menyukarkan untuk membuat skala kepada lebih banyak modaliti atau tugasan. Paradigma pemanduan autonomi hujung ke hujung (SparseAD) tertumpu carian jarang dicadangkan di sini, di mana carian jarang mewakili sepenuhnya keseluruhan senario pemanduan, termasuk ruang, masa dan tugas, tanpa sebarang perwakilan BEV yang padat. Khususnya, seni bina jarang bersatu direka bentuk untuk kesedaran tugas termasuk pengesanan, penjejakan dan pemetaan dalam talian. Di samping itu, berat

See all articles