


ADMap: Idea baharu untuk peta ketepatan tinggi dalam talian anti-gangguan
Ditulis di hadapan & pemahaman peribadi pengarang
Saya sangat gembira dijemput untuk menyertai acara Heart of Autonomous Driving Kami akan berkongsi kaedah anti-gangguan ADMap untuk pembinaan semula peta berketepatan tinggi bervektor. Anda boleh mendapatkan kod kami di https://github.com/hht1996ok/ADMap. Terima kasih semua atas perhatian dan sokongan anda.
Dalam bidang pemanduan autonomi, pembinaan semula peta definisi tinggi dalam talian sangat penting untuk tugasan perancangan dan ramalan Kerja baru-baru ini telah membina banyak model pembinaan semula peta definisi tinggi berprestasi tinggi untuk memenuhi keperluan ini. Walau bagaimanapun, susunan mata dalam contoh yang divektorkan mungkin terketar-ketar atau bergerigi kerana bias ramalan, yang akan menjejaskan tugasan seterusnya. Oleh itu, kami mencadangkan rangka kerja pembinaan semula Peta Anti-Gangguan (ADMap). Artikel ini berharap dapat mengambil kira kelajuan model dan ketepatan keseluruhan, dan tidak mengganggu jurutera semasa menggunakan. Oleh itu, tiga modul yang cekap dan berkesan dicadangkan: Multi-Scale Perception Neck (MPN), Instance Interactive Attention (IIA), dan Vector Direction Difference Loss (VDDL). Dengan melonjakkan untuk meneroka perhubungan susunan titik antara dan dalam keadaan, model kami menyelia proses ramalan pesanan titik dengan lebih baik.
Kami mengesahkan keberkesanan ADMap dalam set data nuScenes dan Argoverse2. Keputusan eksperimen menunjukkan bahawa ADMap mempamerkan prestasi terbaik dalam pelbagai ujian penanda aras. Dalam penanda aras nuScenes, ADMap menambah baik mAP sebanyak 4.2% dan 5.5% berbanding garis dasar hanya menggunakan data kamera dan data berbilang modal, masing-masing. ADMapv2 bukan sahaja mengurangkan kependaman inferens, tetapi juga meningkatkan prestasi garis dasar dengan ketara, dengan mAP tertinggi mencapai 82.8%. Dalam set data Argoverse, mAP ADMapv2 meningkat kepada 62.9% manakala kadar bingkai kekal pada 14.8FPS.
Ringkasnya, ADMap yang kami cadangkan mempunyai sumbangan utama berikut:
- Mencadangkan ADMap hujung ke hujung dan membina semula peta ketepatan tinggi bervektor yang lebih stabil.
- MPN lebih baik menangkap maklumat berskala tanpa meningkatkan sumber penaakulan IIA melengkapkan interaksi yang berkesan antara kejadian dan dalam keadaan, menjadikan ciri peringkat titik lebih tepat mengekang proses pembinaan semula jujukan titik dengan lebih terperinci .
- ADMap membolehkan pembinaan semula masa nyata peta berketepatan tinggi bervektor dan mencapai ketepatan tertinggi dalam penanda aras nuScenes dan Argoverse2. Kaedah
dicadangkan
Seperti yang ditunjukkan dalam Rajah 1, titik ramalan dalam contoh selalunya tidak dapat dielakkan kegelisahan atau peralihan ini akan menyebabkan vektor contoh yang dibina semula menjadi tidak sekata atau bergerigi secara serius menjejaskan kualiti dan kepraktisan peta berketepatan tinggi dalam talian. Kami percaya sebabnya ialah model sedia ada tidak mempertimbangkan sepenuhnya interaksi antara kejadian dan dalam kejadian Interaksi yang tidak lengkap antara titik contoh dan maklumat topologi peta akan membawa kepada kedudukan ramalan yang tidak tepat. Di samping itu, hanya penyeliaan seperti kehilangan L1 dan kehilangan pembenaman kosinus tidak boleh menggunakan perhubungan geometri dengan berkesan untuk mengekang proses ramalan titik contoh Rangkaian perlu menggunakan segmen garis vektor antara titik untuk menangkap maklumat arah jujukan titik dengan lebih tepat mengekang setiap proses ramalan.
Untuk mengurangkan masalah di atas, kami secara inovatif mencadangkan rangka kerja pembinaan semula Peta Anti-Gangguan (ADMap) untuk mencapai pembinaan semula peta berketepatan tinggi bervektor secara masa nyata dan stabil.
Reka Bentuk Kaedah
Seperti yang ditunjukkan dalam Rajah 2, ADMap menggunakan Multi-Scale Perception Neck (MPN), Instance Interactive Attention (IIA) dan kehilangan Perbezaan Arah Vektor (Vector Direction Difference) Loss, VDDL) untuk meramalkan titik-tertib topologi dengan lebih tepat. MPN, IIA dan VDDL akan diperkenalkan masing-masing di bawah.
Leher Persepsi Pelbagai Skala
Untuk mendapatkan ciri BEV yang lebih terperinci, kami memperkenalkan Leher Persepsi Pelbagai Skala (MPN). MPN menerima ciri BEV bercantum sebagai input. Melalui pensampelan rendah, ciri BEV setiap peringkat disambungkan ke lapisan pensampelan naik untuk memulihkan peta ciri saiz asal. Akhir sekali, peta ciri pada setiap peringkat akan digabungkan menjadi ciri BEV berbilang skala.
Seperti yang ditunjukkan dalam Rajah 2, garis putus-putus mewakili bahawa langkah ini hanya dilaksanakan semasa latihan, dan garis pepejal mewakili bahawa langkah ini dilaksanakan semasa proses latihan dan inferens. Semasa proses latihan, peta ciri BEV berbilang skala dan peta ciri BEV pada setiap peringkat dihantar ke Penyahkod Transformer, yang membolehkan rangkaian meramalkan maklumat kejadian adegan pada skala berbeza untuk menangkap ciri berbilang skala yang lebih halus. Semasa proses inferens, MPN hanya mengekalkan ciri BEV berskala dan tidak mengeluarkan peta ciri pada setiap peringkat Ini memastikan bahawa penggunaan sumber leher semasa inferens kekal tidak berubah.
Penyahkod Transformer
Penyahkod Transformer mentakrifkan satu set pertanyaan peringkat contoh dan satu set pertanyaan peringkat titik kemudiannya dikongsi kepada semua kejadian ini ditakrifkan sebagai:
Penyahkod terdiri daripada beberapa lapisan penyahkodan bertingkat yang mengemas kini pertanyaan hierarki secara berulang. Dalam setiap lapisan penyahkodan, pertanyaan hierarki dimasukkan ke dalam mekanisme perhatian kendiri, yang membolehkan maklumat ditukar antara pertanyaan hierarki Perhatian Boleh Bentuk digunakan untuk berinteraksi dengan pertanyaan hierarki dan ciri BEV berbilang skala.
Instance Interactive Attention
Untuk mendapatkan lebih baik ciri setiap tika dalam peringkat penyahkodan, kami mencadangkan Instance Interactive Attention (IIA), yang terdiri daripada Perhatian kendiri Instans dan Perhatian kendiri Mata. Tidak seperti MapTRv2 yang mengekstrak pembenaman peringkat contoh dan peringkat titik secara selari, IIA mengekstrak pembenaman pertanyaan secara bertingkat. Interaksi ciri antara pembenaman contoh seterusnya membantu rangkaian mempelajari perhubungan antara pembenaman peringkat titik.
Seperti yang ditunjukkan dalam Rajah 3, keluaran benam berhierarki oleh Perhatian silang Boleh Ubah bentuk ialah input kepada perhatian kendiri Instans. Selepas menggabungkan dimensi titik dan dimensi saluran, transformasi dimensi adalah. Selepas itu, pembenaman hierarki disambungkan kepada Lapisan Benam yang terdiri daripada berbilang MLP untuk mendapatkan pertanyaan contoh. Pertanyaan dimasukkan ke dalam perhatian kendiri Berbilang kepala untuk menangkap hubungan topologi antara kejadian dan mendapatkan pembenaman tika. Untuk memasukkan maklumat peringkat contoh ke dalam pembenaman peringkat titik, kami menjumlahkan pembenaman contoh dan pembenaman hierarki. Ciri tambahan dimasukkan ke dalam perhatian kendiri Titik, yang berinteraksi dengan ciri titik dalam setiap kejadian untuk mengaitkan lagi hubungan topologi antara jujukan titik dengan lebih baik.
Kehilangan Perbezaan Arah Vektor
Peta berketepatan tinggi mengandungi elemen peta statik bervektor, termasuk garisan lorong, sekatan jalan dan lintasan. ADMap mencadangkan Kehilangan Perbezaan Arah Vektor untuk bentuk terbuka ini (garisan lorong, tepi jalan) dan bentuk tertutup (pejalan kaki). Kami memodelkan arah vektor jujukan titik di dalam contoh, dan arah titik boleh dipantau dengan lebih terperinci dengan perbezaan antara arah vektor yang diramalkan dan arah vektor sebenar. Di samping itu, titik dengan perbezaan besar dalam arah vektor sebenar dianggap mewakili perubahan drastik dalam topologi beberapa adegan (lebih sukar untuk diramal), dan memerlukan lebih perhatian daripada model. Oleh itu, titik dengan perbezaan arah vektor benar yang lebih besar diberi pemberat yang lebih besar untuk memastikan rangkaian dapat meramalkan titik perubahan drastik ini dengan tepat.
Rajah 4 menunjukkan pemodelan awal garis vektor yang diramalkan { dan garis vektor sebenar { dalam jujukan titik ramalan { dan jujukan titik sebenar { ). Untuk memastikan sudut bertentangan tidak mendapat kerugian yang sama, kami mengira kosinus beza sudut garis vektor θ':
di mana fungsi mengumpul kedudukan koordinat garis vektor, mewakili operasi normalisasi . Kami menggunakan perbezaan sudut vektor setiap titik dalam contoh sebenar untuk menetapkan berat saiz yang berbeza kepada mereka. Berat ditakrifkan seperti berikut:
, yang mewakili bilangan mata dalam contoh, dan fungsi mewakili fungsi eksponen dengan asas e. Oleh kerana perbezaan sudut vektor tidak boleh dikira antara titik pertama dan terakhir, kami menetapkan berat titik pertama dan terakhir kepada 1. Apabila perbezaan sudut vektor dalam kebenaran tanah menjadi lebih besar, kami memberikan titik itu berat yang lebih besar, yang menjadikan rangkaian memberi lebih perhatian kepada perubahan topologi peta dengan ketara. Kehilangan perbezaan sudut setiap titik dalam jujukan titik ditakrifkan sebagai:
Kami menggunakan θ untuk melaraskan selang nilai kerugian kepada [0.0, 2.0]. Dengan menambahkan kosinus bagi perbezaan sudut antara garis vektor bersebelahan pada setiap titik, kehilangan ini secara lebih komprehensif meliputi maklumat topologi geometri setiap titik. Oleh kerana hanya terdapat satu garis vektor bersebelahan antara titik pertama dan terakhir, kerugian pada titik pertama dan terakhir ialah kosinus bagi perbezaan sudut vektor tunggal.
Eksperimen
Untuk penilaian yang adil, kami membahagikan elemen peta kepada tiga jenis: garisan lorong, sempadan jalan dan lintasan. Ketepatan purata (AP) digunakan untuk menilai kualiti pembinaan peta, dan jumlah jarak chamfer antara susunan titik yang diramalkan dan susunan titik sebenar digunakan untuk menentukan sama ada kedua-duanya sepadan. Ambang jarak Chamfer ditetapkan kepada [0.5, 1.0, 1.5], kami mengira AP di bawah ketiga-tiga ambang ini masing-masing dan menggunakan purata sebagai penunjuk akhir.
Percubaan perbandingan
Jadual 1 melaporkan metrik ADMap dan kaedah terkini pada set data nuScenes. Di bawah rangka kerja kamera sahaja, mAP ADMap meningkat sebanyak 5.5% berbanding garis dasar (MapTR) dan ADMapv2 meningkat sebanyak 1.4% berbanding garis dasar (MapTRv2). ADMapv2 mempunyai mAP maksimum 82.8%, mencapai prestasi terbaik antara penanda aras semasa Beberapa butiran akan diumumkan dalam versi arxiv berikutnya. Dari segi kelajuan, ADMap meningkatkan prestasi model dengan ketara berbanding garis dasarnya pada FPS yang lebih rendah sedikit. Perlu dinyatakan bahawa ADMapv2 bukan sahaja meningkatkan prestasi, tetapi juga meningkatkan kelajuan inferens model.
Jadual 2 melaporkan metrik ADMap dan kaedah terkini dalam Argoverse2. Di bawah rangka kerja kamera sahaja, ADMap dan ADMapv2 masing-masing meningkat sebanyak 3.4% dan 1.3% berbanding garis dasar. Di bawah rangka kerja berbilang modal, ADMap dan ADMapv2 mencapai prestasi terbaik, dengan mAP masing-masing 75.2% dan 76.9%. Dari segi kelajuan. ADMapv2 bertambah baik sebanyak 11.4ms berbanding MapTRv2.
Eksperimen Ablasi
Dalam Jadual 3, kami menyediakan eksperimen ablasi untuk setiap modul ADMap pada penanda aras nuScenes.
Jadual 4 menunjukkan kesan memasukkan mekanisme perhatian yang berbeza pada prestasi akhir. DSA bermaksud perhatian kendiri yang dipisahkan, dan IIA bermaksud perhatian interaktif contohnya. Keputusan menunjukkan bahawa IIA meningkatkan mAP sebanyak 1.3% berbanding DSA.
Jadual 5 melaporkan kesan penambahan tulang belakang dan lapisan leher pada mAP selepas menggabungkan ciri. Selepas menambah lapisan tulang belakang dan leher berdasarkan KEDUA, mAP meningkat sebanyak 1.2%. Selepas menambah MPN, mAP model meningkat sebanyak 2.0% tanpa meningkatkan masa inferens.
Jadual 6 melaporkan kesan prestasi penambahan VDDL dalam penanda aras nuScenes. Dapat dilihat bahawa apabila berat ditetapkan kepada 1.0, mAP adalah yang tertinggi, mencapai 53.3%.
Jadual 7 melaporkan kesan bilangan lapisan pensampelan turun MPN pada prestasi akhir dalam penanda aras nuScenes. Lebih banyak lapisan pensampelan turun, lebih perlahan kelajuan inferens model. Oleh itu, untuk mengimbangi kelajuan dan prestasi, kami menetapkan bilangan lapisan pensampelan bawah kepada 2.
Untuk mengesahkan bahawa ADMap berkesan mengurangkan masalah gangguan pesanan titik, kami mencadangkan jarak chamfer purata (ACE). Kami memilih kejadian yang diramalkan yang jumlah jarak chamfernya kurang daripada 1.5 dan mengira jarak chamfer puratanya (ACE). Semakin kecil ACE, semakin tepat ramalan susunan titik contoh. Jadual 8 membuktikan bahawa ADMap berkesan dapat mengurangkan masalah gangguan awan titik.
Hasil visualisasi
Dua gambar berikut menunjukkan hasil visualisasi set data nuScenes dan set data Argoverse2.
Ringkasan
ADMap ialah rangka kerja pembinaan semula peta berketepatan tinggi tervektor yang cekap dan berkesan, yang berkesan mengurangkan kegelisahan atau fenomena bergerigi yang mungkin berlaku dalam susunan titik yang wajar bagi vektor bias Eksperimen yang meluas menunjukkan bahawa kaedah yang dicadangkan kami mencapai prestasi terbaik pada kedua-dua penanda aras nuScenes dan Argoverse2. Kami percaya bahawa ADMap akan membantu memajukan penyelidikan tentang tugas pembinaan semula peta berketepatan tinggi vektor, dengan itu menggalakkan pembangunan pemanduan autonomi dan bidang lain dengan lebih baik.
Atas ialah kandungan terperinci ADMap: Idea baharu untuk peta ketepatan tinggi dalam talian anti-gangguan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

Prestasi JAX, yang dipromosikan oleh Google, telah mengatasi Pytorch dan TensorFlow dalam ujian penanda aras baru-baru ini, menduduki tempat pertama dalam 7 penunjuk. Dan ujian tidak dilakukan pada TPU dengan prestasi JAX terbaik. Walaupun dalam kalangan pembangun, Pytorch masih lebih popular daripada Tensorflow. Tetapi pada masa hadapan, mungkin lebih banyak model besar akan dilatih dan dijalankan berdasarkan platform JAX. Model Baru-baru ini, pasukan Keras menanda aras tiga hujung belakang (TensorFlow, JAX, PyTorch) dengan pelaksanaan PyTorch asli dan Keras2 dengan TensorFlow. Pertama, mereka memilih satu set arus perdana

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

Video terbaru robot Tesla Optimus dikeluarkan, dan ia sudah boleh berfungsi di kilang. Pada kelajuan biasa, ia mengisih bateri (bateri 4680 Tesla) seperti ini: Pegawai itu juga mengeluarkan rupanya pada kelajuan 20x - pada "stesen kerja" kecil, memilih dan memilih dan memilih: Kali ini ia dikeluarkan Salah satu sorotan video itu ialah Optimus menyelesaikan kerja ini di kilang, sepenuhnya secara autonomi, tanpa campur tangan manusia sepanjang proses. Dan dari perspektif Optimus, ia juga boleh mengambil dan meletakkan bateri yang bengkok, memfokuskan pada pembetulan ralat automatik: Berkenaan tangan Optimus, saintis NVIDIA Jim Fan memberikan penilaian yang tinggi: Tangan Optimus adalah robot lima jari di dunia paling cerdik. Tangannya bukan sahaja boleh disentuh

Pengesanan objek ialah masalah yang agak matang dalam sistem pemanduan autonomi, antaranya pengesanan pejalan kaki adalah salah satu algoritma terawal untuk digunakan. Penyelidikan yang sangat komprehensif telah dijalankan dalam kebanyakan kertas kerja. Walau bagaimanapun, persepsi jarak menggunakan kamera fisheye untuk pandangan sekeliling agak kurang dikaji. Disebabkan herotan jejari yang besar, perwakilan kotak sempadan standard sukar dilaksanakan dalam kamera fisheye. Untuk mengurangkan perihalan di atas, kami meneroka kotak sempadan lanjutan, elips dan reka bentuk poligon am ke dalam perwakilan kutub/sudut dan mentakrifkan metrik mIOU pembahagian contoh untuk menganalisis perwakilan ini. Model fisheyeDetNet yang dicadangkan dengan bentuk poligon mengatasi model lain dan pada masa yang sama mencapai 49.5% mAP pada set data kamera fisheye Valeo untuk pemanduan autonomi

Kertas kerja ini meneroka masalah mengesan objek dengan tepat dari sudut pandangan yang berbeza (seperti perspektif dan pandangan mata burung) dalam pemanduan autonomi, terutamanya cara mengubah ciri dari perspektif (PV) kepada ruang pandangan mata burung (BEV) dengan berkesan dilaksanakan melalui modul Transformasi Visual (VT). Kaedah sedia ada secara amnya dibahagikan kepada dua strategi: penukaran 2D kepada 3D dan 3D kepada 2D. Kaedah 2D-ke-3D meningkatkan ciri 2D yang padat dengan meramalkan kebarangkalian kedalaman, tetapi ketidakpastian yang wujud dalam ramalan kedalaman, terutamanya di kawasan yang jauh, mungkin menimbulkan ketidaktepatan. Manakala kaedah 3D ke 2D biasanya menggunakan pertanyaan 3D untuk mencuba ciri 2D dan mempelajari berat perhatian bagi kesesuaian antara ciri 3D dan 2D melalui Transformer, yang meningkatkan masa pengiraan dan penggunaan.
