Rumah Peranti teknologi AI Kertas Cemerlang ICRA 2022: Menukar imej 2D pemanduan autonomi kepada pandangan mata, ketepatan pengecaman model meningkat sebanyak 15%

Kertas Cemerlang ICRA 2022: Menukar imej 2D pemanduan autonomi kepada pandangan mata, ketepatan pengecaman model meningkat sebanyak 15%

Apr 09, 2023 pm 07:51 PM
Model Pemanduan autonomi

Banyak tugas dalam pemanduan autonomi lebih mudah dilakukan dari perspektif atas ke bawah, peta atau pandangan mata burung (BEV). Memandangkan banyak topik pemanduan autonomi dihadkan kepada satah darat, paparan atas ialah perwakilan dimensi rendah yang lebih praktikal dan sesuai untuk navigasi, menangkap halangan dan bahaya yang berkaitan. Untuk senario seperti pemanduan autonomi, peta BEV yang dibahagikan secara semantik mesti dijana sebagai anggaran serta-merta untuk mengendalikan objek bergerak bebas dan pemandangan yang dilawati sekali sahaja.

Untuk membuat kesimpulan peta BEV daripada imej, seseorang perlu menentukan kesesuaian antara elemen imej dan kedudukannya dalam persekitaran. Sesetengah penyelidikan terdahulu menggunakan peta kedalaman padat dan peta pembahagian imej untuk membimbing proses penukaran ini, dan penyelidikan lain melanjutkan kaedah menghurai kedalaman dan semantik secara tersirat. Sesetengah kajian mengeksploitasi prior geometri kamera tetapi tidak mempelajari secara eksplisit interaksi antara elemen imej dan satah BEV.

Dalam kertas kerja baru-baru ini, penyelidik dari Universiti Surrey memperkenalkan mekanisme perhatian untuk menukar imej 2D pemanduan autonomi kepada pandangan mata burung, meningkatkan ketepatan pengecaman model 15%. Penyelidikan ini memenangi Anugerah Kertas Cemerlang pada persidangan ICRA 2022 yang berakhir tidak lama dahulu.

Kertas Cemerlang ICRA 2022: Menukar imej 2D pemanduan autonomi kepada pandangan mata, ketepatan pengecaman model meningkat sebanyak 15%

Pautan kertas: https://arxiv.org/pdf/2110.00966.pdf

Kertas Cemerlang ICRA 2022: Menukar imej 2D pemanduan autonomi kepada pandangan mata, ketepatan pengecaman model meningkat sebanyak 15%

Berbeza daripada kaedah sebelumnya, kajian ini menganggap penukaran BEV sebagai masalah penukaran "Imej-ke-Dunia" , yang matlamatnya adalah untuk mempelajari penjajaran antara garis imbasan menegak dalam imej dan sinar kutub dalam BEV. Oleh itu, geometri unjuran ini tersirat kepada rangkaian.

Dalam model penjajaran, penyelidik menggunakan Transformer, struktur ramalan jujukan berasaskan perhatian . Dengan memanfaatkan mekanisme perhatian mereka, kami secara eksplisit memodelkan interaksi berpasangan antara garis imbasan menegak dalam imej dan unjuran BEV polar mereka. Transformer sangat sesuai untuk masalah terjemahan imej-ke-BEV kerana mereka boleh membuat alasan tentang saling bergantung antara objek, kedalaman dan pencahayaan pemandangan untuk mencapai perwakilan yang konsisten secara global.

Para penyelidik membenamkan model penjajaran berasaskan Transformer ke dalam formula pembelajaran hujung ke hujung yang mengambil imej monokular dan matriks intrinsiknya sebagai input, dan kemudian Ramalkan pemetaan BEV semantik bagi kelas statik dan dinamik.

Kertas kerja ini membina seni bina yang membantu meramalkan peta BEV semantik daripada imej monokular di sekeliling model penjajaran. Seperti yang ditunjukkan dalam Rajah 1 di bawah, ia mengandungi tiga komponen utama: tulang belakang CNN standard untuk mengekstrak ciri spatial pada satah imej sebuah Transformer pengekod-penyahkod untuk menukar ciri pada satah imej kepada BEV dan akhirnya rangkaian segmentasi Decode ciri BEV; ke dalam peta semantik.

Kertas Cemerlang ICRA 2022: Menukar imej 2D pemanduan autonomi kepada pandangan mata, ketepatan pengecaman model meningkat sebanyak 15%Kertas Cemerlang ICRA 2022: Menukar imej 2D pemanduan autonomi kepada pandangan mata, ketepatan pengecaman model meningkat sebanyak 15%

Secara khusus, sumbangan utama kajian ini ialah:

  • (1) Hasilkan imej BEV daripada imej menggunakan set penukaran jujukan jujukan 1D
  • (2) Bina subjek Data terhad yang cekap; Rangkaian pengubah dengan kesedaran spatial;
  • Gabungan (3) formula dan perhatian monoton dalam bidang bahasa menunjukkan bahawa untuk pemetaan yang tepat, mengetahui apa yang berada di bawah titik adalah lebih penting daripada mengetahui apa yang ada di atasnya, walaupun menggunakan kedua-duanya akan menghasilkan prestasi yang terbaik; -hasil seni pada tiga set data berskala besar.
  • Hasil eksperimen
Dalam eksperimen, penyelidik membuat beberapa penilaian: Penukaran imej kepada BEV dinilai sebagai masalah penukaran pada dataset nuScenes Its utility; mengecilkan arah undur dalam perhatian monoton, menilai kegunaan konteks mendatar jujukan panjang dan kesan maklumat kedudukan kutub. Akhir sekali, kaedah ini dibandingkan dengan kaedah SOTA pada set data nuScenes, Argoverse, dan Lyft.

Eksperimen Ablasi

Seperti yang ditunjukkan dalam bahagian pertama Jadual 2 di bawah, penyelidik membandingkan perhatian lembut (melihat kedua-dua arah), perhatian monotonik melihat ke belakang di bahagian bawah imej (memandang ke bawah), perhatian monotonik melihat kembali ke bahagian atas imej (menoleh ke atas).

Ternyata melihat ke bawah dari satu titik dalam imej adalah lebih baik daripada melihat ke atas.

Sepanjang isyarat tekstur tempatan - ini konsisten dengan cara manusia cuba menentukan jarak objek dalam persekitaran bandar, menggunakan jarak objek dari persimpangan satah tanah lokasi. Keputusan juga menunjukkan bahawa pemerhatian dalam kedua-dua arah meningkatkan lagi ketepatan, menjadikan inferens dalam lebih diskriminatif.

Kertas Cemerlang ICRA 2022: Menukar imej 2D pemanduan autonomi kepada pandangan mata, ketepatan pengecaman model meningkat sebanyak 15%

Utiliti konteks mendatar jujukan panjang.

Penukaran imej-ke-BEV di sini dilakukan sebagai satu set penukaran jujukan-ke-jujukan 1D, jadi satu persoalan ialah apa yang berlaku apabila keseluruhan imej ditukar kepada BEV. Pendekatan ini sangat mahal memandangkan masa pengiraan sekunder dan memori yang diperlukan untuk menjana peta perhatian. Walau bagaimanapun, faedah kontekstual menggunakan keseluruhan imej boleh dianggarkan dengan menggunakan perhatian paksi mendatar pada ciri satah imej. Dengan perhatian paksi melalui garis imej, piksel dalam garis imbasan menegak kini mempunyai konteks mendatar jarak jauh, dan kemudian konteks menegak jarak jauh disediakan dengan beralih antara jujukan 1D seperti sebelumnya. Seperti yang ditunjukkan di bahagian tengah Jadual 2,

penggabungan konteks tahap jujukan panjang tidak memberi manfaat kepada model

malah mempunyai sedikit kesan buruk kesan. Ini menggambarkan dua perkara: pertama, setiap sinar yang diubah tidak memerlukan maklumat tentang lebar keseluruhan imej input, atau sebaliknya, konteks jujukan panjang tidak memberikan sebarang maklumat tambahan berbanding dengan konteks yang telah diagregatkan oleh belitan bahagian hadapan . Ini menunjukkan bahawa menggunakan keseluruhan imej untuk melakukan transformasi tidak akan meningkatkan ketepatan model melebihi formula kekangan garis dasar di samping itu, kemerosotan prestasi yang disebabkan oleh pengenalan perhatian paksi mendatar bermakna kesukaran menggunakan perhatian untuk melatih jujukan lebar imej; seperti yang dapat dilihat, Ia akan menjadi lebih sukar untuk melatih menggunakan keseluruhan imej sebagai urutan input.

Polar-agnostik vs polar-adaptive Transformers

: Jadual 2 Bahagian terakhir membandingkan Po-Ag lwn. Po -Variasi Iklan. Model Po-Ag tidak mempunyai maklumat kedudukan polarisasi, Po-Ad bagi satah imej termasuk pengekodan kutub yang ditambahkan pada pengekod Transformer, dan untuk satah BEV, maklumat ini ditambahkan pada penyahkod. Menambah pengekodan kutub pada mana-mana satah adalah lebih berfaedah daripada menambahkannya pada model agnostik, dengan kelas dinamik menambah paling banyak. Menambahnya pada kedua-dua pesawat akan menguatkuasakan lagi perkara ini, tetapi mempunyai kesan yang paling besar pada kelas statik. Perbandingan dengan kaedah SOTA

Para penyelidik membandingkan kaedah ini dengan beberapa kaedah SOTA.

Seperti yang ditunjukkan dalam Jadual 1 di bawah, prestasi model spatial adalah lebih baik daripada kaedah SOTA termampat semasa STA-S, dengan purata peningkatan relatif sebanyak 15%

. Pada kelas dinamik yang lebih kecil, peningkatan adalah lebih ketara, dengan ketepatan pengesanan bas, trak, treler dan halangan semuanya meningkat secara relatif 35-45%.

Kertas Cemerlang ICRA 2022: Menukar imej 2D pemanduan autonomi kepada pandangan mata, ketepatan pengecaman model meningkat sebanyak 15%

Keputusan kualitatif yang diperolehi dalam Rajah 2 di bawah juga menyokong kesimpulan ini Model dalam kertas kerja ini menunjukkan persamaan struktur yang lebih besar dan deria bentuk yang lebih baik. Perbezaan ini boleh dikaitkan sebahagiannya kepada lapisan bersambung sepenuhnya (FCL) yang digunakan untuk pemampatan: apabila mengesan objek kecil dan jauh, kebanyakan imej adalah konteks berlebihan.

Kertas Cemerlang ICRA 2022: Menukar imej 2D pemanduan autonomi kepada pandangan mata, ketepatan pengecaman model meningkat sebanyak 15%

Selain itu, pejalan kaki dan objek lain sering sebahagiannya dihalang oleh kenderaan. Dalam kes ini, lapisan yang bersambung sepenuhnya akan cenderung untuk mengabaikan pejalan kaki dan sebaliknya mengekalkan semantik kenderaan. Di sini, kaedah perhatian menunjukkan kelebihannya kerana setiap kedalaman jejari boleh diperhatikan secara bebas daripada imej - supaya kedalaman yang lebih dalam dapat menjadikan badan pejalan kaki kelihatan, manakala kedalaman sebelumnya hanya dapat melihat kenderaan.

Keputusan pada dataset Argoverse dalam Jadual 3 di bawah menunjukkan corak yang sama, di mana kaedah kami bertambah baik sebanyak 30% berbanding PON [8].

Kertas Cemerlang ICRA 2022: Menukar imej 2D pemanduan autonomi kepada pandangan mata, ketepatan pengecaman model meningkat sebanyak 15%

Seperti yang ditunjukkan dalam Jadual 4 di bawah, kaedah kami berprestasi lebih baik daripada LSS [9] dan FIERY [20] pada nuScenes dan Lyft. Perbandingan sebenar adalah mustahil di Lyft kerana ia tidak mempunyai pemisahan kereta api/val berkanun, dan tiada cara untuk mendapatkan pemisahan digunakan oleh LSS.

Kertas Cemerlang ICRA 2022: Menukar imej 2D pemanduan autonomi kepada pandangan mata, ketepatan pengecaman model meningkat sebanyak 15%

Untuk butiran penyelidikan lanjut, sila rujuk kertas asal.

Atas ialah kandungan terperinci Kertas Cemerlang ICRA 2022: Menukar imej 2D pemanduan autonomi kepada pandangan mata, ketepatan pengecaman model meningkat sebanyak 15%. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Akan R.E.P.O. Ada Crossplay?
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Bagaimana untuk menyelesaikan masalah ekor panjang dalam senario pemanduan autonomi? Bagaimana untuk menyelesaikan masalah ekor panjang dalam senario pemanduan autonomi? Jun 02, 2024 pm 02:44 PM

Semalam semasa temu bual, saya telah ditanya sama ada saya telah membuat sebarang soalan berkaitan ekor panjang, jadi saya fikir saya akan memberikan ringkasan ringkas. Masalah ekor panjang pemanduan autonomi merujuk kepada kes tepi dalam kenderaan autonomi, iaitu, kemungkinan senario dengan kebarangkalian yang rendah untuk berlaku. Masalah ekor panjang yang dirasakan adalah salah satu sebab utama yang kini mengehadkan domain reka bentuk pengendalian kenderaan autonomi pintar satu kenderaan. Seni bina asas dan kebanyakan isu teknikal pemanduan autonomi telah diselesaikan, dan baki 5% masalah ekor panjang secara beransur-ansur menjadi kunci untuk menyekat pembangunan pemanduan autonomi. Masalah ini termasuk pelbagai senario yang berpecah-belah, situasi yang melampau dan tingkah laku manusia yang tidak dapat diramalkan. "Ekor panjang" senario tepi dalam pemanduan autonomi merujuk kepada kes tepi dalam kenderaan autonomi (AVs) kes Edge adalah senario yang mungkin dengan kebarangkalian yang rendah untuk berlaku. kejadian yang jarang berlaku ini

Model MoE sumber terbuka paling berkuasa di dunia ada di sini, dengan keupayaan bahasa Cina setanding dengan GPT-4, dan harganya hanya hampir satu peratus daripada GPT-4-Turbo Model MoE sumber terbuka paling berkuasa di dunia ada di sini, dengan keupayaan bahasa Cina setanding dengan GPT-4, dan harganya hanya hampir satu peratus daripada GPT-4-Turbo May 07, 2024 pm 04:13 PM

Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

Apr 09, 2024 am 11:52 AM

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

Google gembira: prestasi JAX mengatasi Pytorch dan TensorFlow! Ia mungkin menjadi pilihan terpantas untuk latihan inferens GPU Google gembira: prestasi JAX mengatasi Pytorch dan TensorFlow! Ia mungkin menjadi pilihan terpantas untuk latihan inferens GPU Apr 01, 2024 pm 07:46 PM

Prestasi JAX, yang dipromosikan oleh Google, telah mengatasi Pytorch dan TensorFlow dalam ujian penanda aras baru-baru ini, menduduki tempat pertama dalam 7 penunjuk. Dan ujian tidak dilakukan pada TPU dengan prestasi JAX terbaik. Walaupun dalam kalangan pembangun, Pytorch masih lebih popular daripada Tensorflow. Tetapi pada masa hadapan, mungkin lebih banyak model besar akan dilatih dan dijalankan berdasarkan platform JAX. Model Baru-baru ini, pasukan Keras menanda aras tiga hujung belakang (TensorFlow, JAX, PyTorch) dengan pelaksanaan PyTorch asli dan Keras2 dengan TensorFlow. Pertama, mereka memilih satu set arus perdana

Hello, Atlas elektrik! Robot Boston Dynamics hidup semula, gerakan pelik 180 darjah menakutkan Musk Hello, Atlas elektrik! Robot Boston Dynamics hidup semula, gerakan pelik 180 darjah menakutkan Musk Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

KAN, yang menggantikan MLP, telah diperluaskan kepada konvolusi oleh projek sumber terbuka KAN, yang menggantikan MLP, telah diperluaskan kepada konvolusi oleh projek sumber terbuka Jun 01, 2024 pm 10:03 PM

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

Mari kita bincangkan tentang sistem pemanduan autonomi hujung ke hujung dan generasi seterusnya, serta beberapa salah faham tentang pemanduan autonomi hujung ke hujung? Mari kita bincangkan tentang sistem pemanduan autonomi hujung ke hujung dan generasi seterusnya, serta beberapa salah faham tentang pemanduan autonomi hujung ke hujung? Apr 15, 2024 pm 04:13 PM

Pada bulan lalu, atas sebab-sebab yang diketahui umum, saya telah mengadakan pertukaran yang sangat intensif dengan pelbagai guru dan rakan sekelas dalam industri. Topik yang tidak dapat dielakkan dalam pertukaran secara semula jadi adalah hujung ke hujung dan Tesla FSDV12 yang popular. Saya ingin mengambil kesempatan ini untuk menyelesaikan beberapa buah fikiran dan pendapat saya pada masa ini untuk rujukan dan perbincangan anda. Bagaimana untuk mentakrifkan sistem pemanduan autonomi hujung ke hujung, dan apakah masalah yang sepatutnya dijangka diselesaikan hujung ke hujung? Menurut definisi yang paling tradisional, sistem hujung ke hujung merujuk kepada sistem yang memasukkan maklumat mentah daripada penderia dan secara langsung mengeluarkan pembolehubah yang membimbangkan tugas. Sebagai contoh, dalam pengecaman imej, CNN boleh dipanggil hujung-ke-hujung berbanding kaedah pengekstrak ciri + pengelas tradisional. Dalam tugas pemanduan autonomi, masukkan data daripada pelbagai penderia (kamera/LiDAR

SOTA terbaharu nuScenes |. SparseAD: Pertanyaan jarang membantu pemanduan autonomi hujung ke hujung yang cekap! SOTA terbaharu nuScenes |. SparseAD: Pertanyaan jarang membantu pemanduan autonomi hujung ke hujung yang cekap! Apr 17, 2024 pm 06:22 PM

Ditulis di hadapan & titik permulaan Paradigma hujung ke hujung menggunakan rangka kerja bersatu untuk mencapai pelbagai tugas dalam sistem pemanduan autonomi. Walaupun kesederhanaan dan kejelasan paradigma ini, prestasi kaedah pemanduan autonomi hujung ke hujung pada subtugas masih jauh ketinggalan berbanding kaedah tugasan tunggal. Pada masa yang sama, ciri pandangan mata burung (BEV) padat yang digunakan secara meluas dalam kaedah hujung ke hujung sebelum ini menyukarkan untuk membuat skala kepada lebih banyak modaliti atau tugasan. Paradigma pemanduan autonomi hujung ke hujung (SparseAD) tertumpu carian jarang dicadangkan di sini, di mana carian jarang mewakili sepenuhnya keseluruhan senario pemanduan, termasuk ruang, masa dan tugas, tanpa sebarang perwakilan BEV yang padat. Khususnya, seni bina jarang bersatu direka bentuk untuk kesedaran tugas termasuk pengesanan, penjejakan dan pemetaan dalam talian. Di samping itu, berat

See all articles