


Rangkaian persepsi untuk kedalaman, sikap dan anggaran jalan dalam senario pemanduan bersama
Kertas arXiv "JPerceiver: Rangkaian Persepsi Bersama untuk Kedalaman, Pose dan Anggaran Susun Atur dalam Pemandangan Pemanduan", yang dimuat naik pada 22 Julai, melaporkan hasil kerja Profesor Tao Dacheng dari Universiti Sydney, Australia, dan Institut Penyelidikan JD Beijing .
Anggaran kedalaman, visual odometri (VO) dan pandangan mata burung (BEV) anggaran susun atur pemandangan ialah tiga tugas utama untuk memacu persepsi pemandangan, yang merupakan kunci kepada gerakan secara autonomi pemanduan. Asas perancangan dan pelayaran. Walaupun saling melengkapi, mereka biasanya menumpukan pada tugasan yang berasingan dan jarang menangani ketiga-tiganya secara serentak.
Pendekatan mudah ialah melakukannya secara bebas secara berurutan atau selari, tetapi terdapat tiga kelemahan, iaitu 1) kedalaman dan keputusan VO dipengaruhi oleh masalah kekaburan skala yang wujud 2) susun atur BEV biasanya dilakukan menganggarkan jalan dan kenderaan secara bebas sambil mengabaikan perhubungan tindanan-dasar yang jelas 3) Walaupun peta kedalaman adalah petunjuk geometri yang berguna untuk membuat kesimpulan reka letak pemandangan, reka letak BEV sebenarnya diramalkan terus daripada imej pandangan hadapan tanpa menggunakan sebarang maklumat berkaitan kedalaman.
Kertas kerja ini mencadangkan rangka kerja persepsi bersama JPerceiver untuk menyelesaikan masalah ini dan pada masa yang sama menganggarkan kedalaman persepsi skala, reka letak VO dan BEV daripada jujukan video monokular. Gunakan transformasi geometri pandangan silang (CGT) untuk menyebarkan skala mutlak daripada susun atur jalan ke kedalaman dan VO mengikut kehilangan skala yang direka dengan teliti. Pada masa yang sama, modul cross-view and cross-modal transfer (CCT) direka bentuk untuk menggunakan petunjuk kedalaman untuk menaakul tentang susun atur jalan dan kenderaan melalui mekanisme perhatian.
JPerceiver dilatih dalam kaedah pembelajaran berbilang tugas hujung ke hujung, di mana kehilangan skala CGT dan modul CCT menggalakkan pemindahan pengetahuan antara tugas dan memudahkan pembelajaran ciri untuk setiap tugas. Kod dan model boleh dimuat turunhttps://github.com/sunnyHelen/JPerceiver.
Seperti yang ditunjukkan dalam rajah, JPerceiver terdiri daripada tiga rangkaian: kedalaman, sikap dan susun atur jalan, semuanya berdasarkan seni bina pengekod-penyahkod. Rangkaian kedalaman bertujuan untuk meramalkan peta kedalaman Dt bagi bingkai semasa Ia, di mana setiap nilai kedalaman mewakili jarak antara titik 3D dan kamera. Matlamat rangkaian pose adalah untuk meramalkan transformasi pose Tt→t+m antara bingkai semasa It dan bingkai bersebelahan It+m. Matlamat rangkaian susun atur jalan adalah untuk menganggarkan Lt susun atur BEV bagi rangka semasa, iaitu penghunian semantik jalan dan kenderaan dalam pesawat Cartesian pandangan atas. Tiga rangkaian tersebut dioptimumkan bersama semasa latihan.
CCT-CV dan CCT-CM modul cross-view dan modul cross-modal.
Dalam CCT, Ff dan Fd diekstrak oleh pengekod cabang persepsi yang sepadan, manakala Fb diperoleh melalui unjuran pandangan MLP untuk menukar Ff kepada BEV, dan kehilangan kitaran mengekang MLP yang sama untuk menukarnya semula kepada Ff′ .
Dalam CCT-CV, mekanisme perhatian silang digunakan untuk menemui korespondensi geometri antara paparan hadapan dan ciri BEV, dan kemudian membimbing pemurnian maklumat pandangan hadapan dan bersedia untuk inferens BEV. Untuk menggunakan sepenuhnya ciri imej paparan hadapan, Fb dan Ff diunjurkan kepada tampalan: Qbi dan Kbi, sebagai pertanyaan dan kunci masing-masing.
Selain menggunakan ciri pandangan hadapan, CCT-CM juga digunakan untuk mengenakan maklumat geometri 3-D daripada Fd. Memandangkan Fd diekstrak daripada imej paparan hadapan, adalah munasabah untuk menggunakan Ff sebagai jambatan untuk mengurangkan jurang rentas modal dan mempelajari kesesuaian antara Fd dan Fb. Fd memainkan peranan Nilai, dengan itu memperoleh maklumat geometri 3-D yang berharga berkaitan dengan maklumat BEV dan meningkatkan lagi ketepatan anggaran susun atur jalan.
Dalam proses meneroka rangka kerja pembelajaran bersama untuk meramalkan susun atur yang berbeza secara serentak, terdapat perbezaan besar dalam ciri dan pengedaran kategori semantik yang berbeza. Untuk ciri, susun atur jalan dalam senario pemanduan biasanya perlu disambungkan, manakala sasaran kenderaan yang berbeza mesti dibahagikan.
Mengenai pengedaran, lebih banyak adegan jalan lurus diperhatikan daripada adegan berpusing, yang munasabah dalam set data sebenar. Perbezaan dan ketidakseimbangan ini meningkatkan kesukaran pembelajaran susun atur BEV, terutamanya meramalkan kategori yang berbeza secara bersama, kerana kehilangan entropi silang (CE) mudah atau kehilangan L1 gagal dalam kes ini. Beberapa kehilangan segmentasi, termasuk kehilangan CE berasaskan pengedaran, kehilangan IoU berasaskan wilayah dan kehilangan sempadan, digabungkan menjadi kerugian hibrid untuk meramalkan susun atur setiap kategori.
Keputusan percubaan adalah seperti berikut:
Atas ialah kandungan terperinci Rangkaian persepsi untuk kedalaman, sikap dan anggaran jalan dalam senario pemanduan bersama. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Ditulis di atas & pemahaman peribadi pengarang Gaussiansplatting tiga dimensi (3DGS) ialah teknologi transformatif yang telah muncul dalam bidang medan sinaran eksplisit dan grafik komputer dalam beberapa tahun kebelakangan ini. Kaedah inovatif ini dicirikan oleh penggunaan berjuta-juta Gaussians 3D, yang sangat berbeza daripada kaedah medan sinaran saraf (NeRF), yang terutamanya menggunakan model berasaskan koordinat tersirat untuk memetakan koordinat spatial kepada nilai piksel. Dengan perwakilan adegan yang eksplisit dan algoritma pemaparan yang boleh dibezakan, 3DGS bukan sahaja menjamin keupayaan pemaparan masa nyata, tetapi juga memperkenalkan tahap kawalan dan pengeditan adegan yang tidak pernah berlaku sebelum ini. Ini meletakkan 3DGS sebagai penukar permainan yang berpotensi untuk pembinaan semula dan perwakilan 3D generasi akan datang. Untuk tujuan ini, kami menyediakan gambaran keseluruhan sistematik tentang perkembangan dan kebimbangan terkini dalam bidang 3DGS buat kali pertama.

Semalam semasa temu bual, saya telah ditanya sama ada saya telah membuat sebarang soalan berkaitan ekor panjang, jadi saya fikir saya akan memberikan ringkasan ringkas. Masalah ekor panjang pemanduan autonomi merujuk kepada kes tepi dalam kenderaan autonomi, iaitu, kemungkinan senario dengan kebarangkalian yang rendah untuk berlaku. Masalah ekor panjang yang dirasakan adalah salah satu sebab utama yang kini mengehadkan domain reka bentuk pengendalian kenderaan autonomi pintar satu kenderaan. Seni bina asas dan kebanyakan isu teknikal pemanduan autonomi telah diselesaikan, dan baki 5% masalah ekor panjang secara beransur-ansur menjadi kunci untuk menyekat pembangunan pemanduan autonomi. Masalah ini termasuk pelbagai senario yang berpecah-belah, situasi yang melampau dan tingkah laku manusia yang tidak dapat diramalkan. "Ekor panjang" senario tepi dalam pemanduan autonomi merujuk kepada kes tepi dalam kenderaan autonomi (AVs) kes Edge adalah senario yang mungkin dengan kebarangkalian yang rendah untuk berlaku. kejadian yang jarang berlaku ini

0. Ditulis di hadapan&& Pemahaman peribadi bahawa sistem pemanduan autonomi bergantung pada persepsi lanjutan, membuat keputusan dan teknologi kawalan, dengan menggunakan pelbagai penderia (seperti kamera, lidar, radar, dll.) untuk melihat persekitaran sekeliling dan menggunakan algoritma dan model untuk analisis masa nyata dan membuat keputusan. Ini membolehkan kenderaan mengenali papan tanda jalan, mengesan dan menjejaki kenderaan lain, meramalkan tingkah laku pejalan kaki, dsb., dengan itu selamat beroperasi dan menyesuaikan diri dengan persekitaran trafik yang kompleks. Teknologi ini kini menarik perhatian meluas dan dianggap sebagai kawasan pembangunan penting dalam pengangkutan masa depan satu. Tetapi apa yang menyukarkan pemanduan autonomi ialah memikirkan cara membuat kereta itu memahami perkara yang berlaku di sekelilingnya. Ini memerlukan algoritma pengesanan objek tiga dimensi dalam sistem pemanduan autonomi boleh melihat dan menerangkan dengan tepat objek dalam persekitaran sekeliling, termasuk lokasinya,

Artikel perintis dan utama pertama terutamanya memperkenalkan beberapa sistem koordinat yang biasa digunakan dalam teknologi pemanduan autonomi, dan cara melengkapkan korelasi dan penukaran antara mereka, dan akhirnya membina model persekitaran bersatu. Fokus di sini adalah untuk memahami penukaran daripada kenderaan kepada badan tegar kamera (parameter luaran), penukaran kamera kepada imej (parameter dalaman) dan penukaran unit imej kepada piksel. Penukaran daripada 3D kepada 2D akan mempunyai herotan, terjemahan, dsb. Perkara utama: Sistem koordinat kenderaan dan sistem koordinat badan kamera perlu ditulis semula: sistem koordinat satah dan sistem koordinat piksel Kesukaran: herotan imej mesti dipertimbangkan Kedua-dua penyahherotan dan penambahan herotan diberi pampasan pada satah imej. 2. Pengenalan Terdapat empat sistem penglihatan secara keseluruhannya: sistem koordinat satah piksel (u, v), sistem koordinat imej (x, y), sistem koordinat kamera () dan sistem koordinat dunia (). Terdapat hubungan antara setiap sistem koordinat,

Ramalan trajektori memainkan peranan penting dalam pemanduan autonomi Ramalan trajektori pemanduan autonomi merujuk kepada meramalkan trajektori pemanduan masa hadapan kenderaan dengan menganalisis pelbagai data semasa proses pemanduan kenderaan. Sebagai modul teras pemanduan autonomi, kualiti ramalan trajektori adalah penting untuk kawalan perancangan hiliran. Tugas ramalan trajektori mempunyai timbunan teknologi yang kaya dan memerlukan kebiasaan dengan persepsi dinamik/statik pemanduan autonomi, peta ketepatan tinggi, garisan lorong, kemahiran seni bina rangkaian saraf (CNN&GNN&Transformer), dll. Sangat sukar untuk bermula! Ramai peminat berharap untuk memulakan ramalan trajektori secepat mungkin dan mengelakkan perangkap Hari ini saya akan mengambil kira beberapa masalah biasa dan kaedah pembelajaran pengenalan untuk ramalan trajektori! Pengetahuan berkaitan pengenalan 1. Adakah kertas pratonton teratur? A: Tengok survey dulu, hlm

Tajuk asal: SIMPL: ASimpleandEfficientMulti-agentMotionPredictionBaselineforAutonomousDriving Paper pautan: https://arxiv.org/pdf/2402.02519.pdf Pautan kod: https://github.com/HKUST-Aerial-Robotics/SIMPL Unit pengarang: Universiti Sains Hong Kong dan Teknologi Idea Kertas DJI: Kertas kerja ini mencadangkan garis dasar ramalan pergerakan (SIMPL) yang mudah dan cekap untuk kenderaan autonomi. Berbanding dengan agen-sen tradisional

Ditulis di hadapan & titik permulaan Paradigma hujung ke hujung menggunakan rangka kerja bersatu untuk mencapai pelbagai tugas dalam sistem pemanduan autonomi. Walaupun kesederhanaan dan kejelasan paradigma ini, prestasi kaedah pemanduan autonomi hujung ke hujung pada subtugas masih jauh ketinggalan berbanding kaedah tugasan tunggal. Pada masa yang sama, ciri pandangan mata burung (BEV) padat yang digunakan secara meluas dalam kaedah hujung ke hujung sebelum ini menyukarkan untuk membuat skala kepada lebih banyak modaliti atau tugasan. Paradigma pemanduan autonomi hujung ke hujung (SparseAD) tertumpu carian jarang dicadangkan di sini, di mana carian jarang mewakili sepenuhnya keseluruhan senario pemanduan, termasuk ruang, masa dan tugas, tanpa sebarang perwakilan BEV yang padat. Khususnya, seni bina jarang bersatu direka bentuk untuk kesedaran tugas termasuk pengesanan, penjejakan dan pemetaan dalam talian. Di samping itu, berat

Pada bulan lalu, atas sebab-sebab yang diketahui umum, saya telah mengadakan pertukaran yang sangat intensif dengan pelbagai guru dan rakan sekelas dalam industri. Topik yang tidak dapat dielakkan dalam pertukaran secara semula jadi adalah hujung ke hujung dan Tesla FSDV12 yang popular. Saya ingin mengambil kesempatan ini untuk menyelesaikan beberapa buah fikiran dan pendapat saya pada masa ini untuk rujukan dan perbincangan anda. Bagaimana untuk mentakrifkan sistem pemanduan autonomi hujung ke hujung, dan apakah masalah yang sepatutnya dijangka diselesaikan hujung ke hujung? Menurut definisi yang paling tradisional, sistem hujung ke hujung merujuk kepada sistem yang memasukkan maklumat mentah daripada penderia dan secara langsung mengeluarkan pembolehubah yang membimbangkan tugas. Sebagai contoh, dalam pengecaman imej, CNN boleh dipanggil hujung-ke-hujung berbanding kaedah pengekstrak ciri + pengelas tradisional. Dalam tugas pemanduan autonomi, masukkan data daripada pelbagai penderia (kamera/LiDAR
