Teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi menggunakan analisis Wanzi-AI-php.cn

Jadual Kandungan

Algoritma kedudukan global berdasarkan titik ciri" >Algoritma kedudukan global berdasarkan titik ciri

Pengekstrakan titik ciri" >Pengekstrakan titik ciri

Penciptaan pangkalan data dan pertanyaan" >Penciptaan pangkalan data dan pertanyaan

Padanan titik ciri" >Padanan titik ciri

bit Pengiraan Pose" > bit Pengiraan Pose

Rumah

Peranti teknologi

Teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi menggunakan analisis Wanzi

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 11, 2023 pm 08:28 PM

teknologi Pemanduan autonomi

Dalam pemanduan autonomi, persepsi, kedudukan, perancangan dan membuat keputusan serta kawalan adalah empat modul sistem asas. Memandangkan algoritma semasa tidak dapat mencapai kecerdasan mutlak, sejumlah besar pengetahuan terdahulu masih diperlukan untuk meningkatkan prestasi modul dan keteguhan untuk mencapai pemanduan autonomi yang selamat. Antaranya, peta berketepatan tinggi ialah penyepaduan pengetahuan sedia ada tentang jalan raya dan persekitaran sekitar. Kedudukan yang tepat berdasarkan peta adalah asas penting untuk menilai keadaan pemanduan dan memberikan sokongan kuat untuk persepsi dan keputusan perancangan seterusnya.

Sumber data utama yang digunakan untuk penentududukan pada masa ini termasuk GPS, lidar, penglihatan dan radar gelombang milimeter. Untuk penglihatan, walaupun pada masa ini tiada penyelesaian penentududukan yang boleh dipercayai yang diiktiraf dalam industri, penerokaan dalam bidang ini tidak pernah berhenti sebab-sebab utama adalah seperti berikut:

Keselamatan adalah Penunjuk yang paling penting. sistem pemanduan autonomi, jadi pelaksanaan kebanyakan fungsi, adalah gandingan data berbilang sumber dan keputusan algoritma yang berbeza. Tiada penyelesaian penderia yang sempurna Contohnya, GPS RTK, sebagai penyelesaian yang digunakan secara meluas, mudah dipengaruhi oleh keadaan satelit, keadaan cuaca dan keadaan penghantaran pautan data, dan tidak boleh digunakan dalam terowong, dalam bangunan dan kawasan berpenduduk padat dengan bangunan tinggi. . Tambahan pula, walaupun lidar mempunyai kelebihan beban kerja pengiraan yang kecil, memberikan maklumat mendalam, dan tidak terjejas oleh pencahayaan, maklumat itu jarang, kosnya masih sangat mahal, dan ia belum mempunyai keupayaan untuk memasang kuantiti kenderaan yang banyak. Sebagai perbandingan, walaupun maklumat visual yang disediakan oleh kamera dipengaruhi oleh pencahayaan dan cuaca, ia adalah kos rendah dan kaya dengan kandungan Ia merupakan sumber data utama untuk penyelesaian pemanduan berbantu semasa dan juga mempunyai potensi besar dalam penentududukan peta.

Memandangkan idea teras algoritma penentududukan visual arus perdana adalah sama, artikel ini hanya memperkenalkan penentududukan global yang paling biasa digunakan berdasarkan titik ciri dalam amalan dari perspektif siri algoritma penting komponen rangka kerja. Algoritma, iaitu kedudukan dalam sistem koordinat peta. Artikel ini mengetepikan pengoptimuman dan terbitan formula kekangan geometri yang terlibat, bertujuan untuk memberi pelajar pengenalan makro kepada algoritma kedudukan Untuk butiran khusus, sila rujuk literatur dan buku yang berkaitan.

Algoritma kedudukan global berdasarkan titik ciri

Kedudukan global visual merujuk kepada mencari kedudukan kamera dalam sistem koordinat peta berdasarkan imej semasa 6 darjah kebebasan (DoF) pose (Pose), iaitu (x, y, z) koordinat, dan pesongan sudut (yaw, pic, roll) di sekeliling tiga paksi koordinat. Pada masa ini, ia boleh dikelaskan terutamanya kepada kaedah berasaskan struktur 3D, kaedah berasaskan imej 2D, kaedah berasaskan imej urutan, dan kaedah berasaskan pembelajaran mendalam. Antaranya, kaedah berdasarkan pembelajaran mendalam ialah kaedah hujung ke hujung, manakala kaedah bukan hujung ke hujung berbilang peringkat (Multi-peringkat) lain mempunyai proses yang berbeza, tetapi idea algoritma kebanyakannya seperti yang ditunjukkan dalam Rajah 1. Ditunjukkan:

Teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi menggunakan analisis Wanzi

Rajah 1: Berdasarkan imej pertanyaan, kirakan matriks transformasi 2D-3D dan selesaikan pose kamera

Berdasarkan peta yang dibina, padankan subset peta yang paling serupa (imej/titik awan/titik ciri) dalam sejarah dan berdasarkan nilai sebenar pose sejarah yang disediakan oleh subset peta yang dipadankan , Nilai sebenar koordinat titik ciri, kira matriks transformasi antara pasangan titik, dan selesaikan pose kamera semasa.

Jadi, terasnya merangkumi empat aspek: perihalan imej, pertanyaan pemetaan, padanan ciri dan pengiraan pose. Ini hanyalah klasifikasi makro pada peringkat teknikal Rangka kerja algoritma sebenar mungkin tidak semestinya dilaksanakan dalam susunan ini, dan sarjana terutamanya meningkatkan teknologi ini dalam penyelidikan mereka. Secara keseluruhan, perihalan imej berdasarkan titik ciri pada asasnya adalah matang dan kurang pembangunan. Memandangkan pengiraan pose adalah masalah pengoptimuman berdasarkan kekangan geometri, kaedahnya adalah tetap. Sebaliknya, terdapat banyak teknik yang dipertingkatkan dalam memetakan pertanyaan dan padanan ciri. Bergantung pada sumber data, pertanyaan pemetaan dan padanan boleh menjadi 2D-2D, 2D-3D atau 3D-3D. Imej 2D diperolehi oleh kamera, dan awan titik 3D boleh dihasilkan oleh kamera binokular atau kamera RGB-D yang memberikan kedalaman.

Pengekstrakan titik ciri

Imej 2D itu sendiri ialah matriks yang terdiri daripada kecerahan dan warna Ia sangat sensitif kepada sudut pandangan, pencahayaan, perubahan rona, dsb., dan sangat sukar untuk menggunakannya secara langsung. Oleh itu, mata perwakilan biasanya digunakan untuk pengiraan yang berkaitan. Orang ramai berharap titik sedemikian mempunyai kelebihan putaran, terjemahan, skala, invarian pencahayaan, dll. Titik ini dipanggil titik ciri imej, termasuk titik kunci dan deskriptor. Perkara utama menyatakan lokasi titik ciri, manakala deskriptor menerangkan ciri visual titik ciri, kebanyakannya dalam bentuk vektor. Secara umumnya, deskriptor terutamanya mengira perubahan kecerunan skala kelabu/warna di sekitar titik utama dalam corak tertentu. Untuk deskriptor yang teguh, jarak (Jarak) deskriptor bagi titik ciri yang sama hendaklah lebih kecil dalam situasi berbeza bagi imej yang berbeza.

Penerangan secara amnya ialah ciri buatan tangan. Perihalan klasik termasuk HOG (Histogram kecerunan berorientasikan) [1], SIFT (Transformasi ciri invarian skala) [2], SURF (Ciri teguh dipercepatkan) [3], AKAZE (KAZE Dipercepatkan) [4], dsb.

Untuk memenuhi keperluan masa nyata, beberapa deskriptor corak binari dengan kelajuan pengiraan yang lebih pantas telah direka, seperti LBP (Corak binari tempatan) [5], RINGKAS (Teguh binari ciri asas bebas), ORB (Berorientasikan PANTAS dan RINGKAS diputar) [6], BRISK (titik kekunci boleh skala invarian teguh binari) [7], FREAK (Titik kekunci retina pantas) [8], dsb.

Sebelum pembelajaran mendalam menjadi popular, ciri buatan tangan ini telah menerajui keseluruhan industri penglihatan pengiraan Sehingga hari ini, ciri ini masih digunakan secara meluas dalam senario yang tidak mempunyai data berlabel banyak kekangan. Berikut ialah pengenalan ringkas kepada dua deskriptor yang biasa digunakan.

SIFT

Penerangan SIFT boleh dianggap sebagai salah satu teknologi paling berpengaruh dalam dunia CV. Daripada tahap pengesanan titik utama, kaedah Perbezaan Gaussian (DoG) digunakan terutamanya untuk mengesan titik ekstrem pada ruang berbilang skala sebagai titik utama. Babaud et al. [9] membuktikan bahawa pelicinan Gaussian adalah satu-satunya kernel penapis pelicinan ruang berbilang skala yang boleh digunakan, memberikan sokongan teori yang mencukupi untuk kaedah yang berkaitan.

Jadi mengapa kaedah sedemikian boleh mencari titik ciri utama

Oleh kerana kernel Gaussian boleh menskalakan imej kepada skala yang berbeza melalui ruang kabur? dan kawasan licin dengan perubahan kecerunan kecil mempunyai perbezaan nilai yang kecil dalam ruang skala yang berbeza. Sebaliknya, perbezaannya lebih besar dalam bidang seperti tepi, titik, sudut, dan tekstur. Dengan cara ini, dengan membuat perbezaan antara imej skala bersebelahan, titik ekstrem ruang berbilang skala akhirnya boleh dikira. Walau bagaimanapun, butiran imej yang berbeza sememangnya pada skala yang berbeza. Contohnya, dalam potret, wajah mungkin diratakan menjadi satu bahagian selepas sedikit kabur, manakala sudut bingkai mungkin memerlukan pelicinan berskala lebih besar untuk mencerminkan "nilai ekstrem" setempat.

Oleh itu, seperti yang ditunjukkan dalam Rajah 2, imej pertama kali dikumpulkan (Oktaf) menggunakan piramid imej, dan biji Gaussian dengan skala yang berbeza digunakan dalam setiap kumpulan untuk membentuk satu siri lapisan. Kaedah ini lebih baik daripada hanya menggunakan lebih banyak skala kernel Gaussian dan boleh mengesan lebih banyak titik ciri. Perlu diingat bahawa walaupun SIFT menggunakan DoG untuk pengesanan titik utama, kaedah pengesanan lain juga boleh dilaksanakan dan tidak menjejaskan penubuhan deskriptor SIFT.

Teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi menggunakan analisis Wanzi

Rajah 2: Perbezaan kaedah Gaussian

Penerangan ciri SIFT mata sub, boleh difahami sebagai versi statistik mudah HOG. Seperti yang ditunjukkan dalam Rajah 3, dengan titik kekunci yang dikesan sebagai pusat, kawasan sekitar 16 × 16 dipilih, dan kawasan itu disusun semula kepada empat tompok 4 × 4. Untuk setiap blok, histogram 8-bin digunakan untuk mengira kecerunan Arah kecerunan menentukan ke dalam tong mana ia jatuh, dan modul kecerunan menentukan saiz nilai. Untuk memastikan ketekalan skala, saiz kecerunan perlu dinormalkan. Untuk memastikan invarian putaran, arah utama dikira berdasarkan semua kecerunan dalam kawasan 16 × 16, dan semua kecerunan diputar mengikut arah utama. Hasilnya ialah vektor 128 dimensi 4 × 4 × 8.

Teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi menggunakan analisis Wanzi

Rajah 3: DEskriptor SIFT berdasarkan statistik menyekat kecerunan

Penerangan binari

Walaupun selepas SIFT dicadangkan, beberapa algoritma yang dipertingkatkan seperti SURF, AKAZE, dsb. telah dihasilkan, tetapi pada hari ini pada tahun 2019, masih sukar untuk menjamin keperluan masa nyata bagi algoritma dalam beberapa senario. Sebagai contoh, peranti pegang tangan biasanya mempunyai kuasa pengkomputeran yang terhad. Dalam pemanduan autonomi, sumber CPU dan GPU perlu dijadualkan secara serentak oleh berbilang modul intensif pengkomputeran. Oleh itu, kecekapan adalah penunjuk penting untuk mengkaji kepraktisan sesuatu algoritma.

Untuk meningkatkan kecekapan, beberapa deskriptor binari telah dicadangkan oleh para sarjana. Secara amnya, kaedah ini melakukan pensampelan titik di sekitar titik utama ciri. Kemudian saiz skala kelabu sepasang mata dibandingkan, dan hasilnya dinyatakan sebagai 0/1, membentuk vektor penerangan binari N-dimensi, membentuk corak binari titik ciri. Perbezaan terbesar antara deskriptor binari yang berbeza terutamanya terletak pada mod pensampelan ciri yang berbeza dan kaedah pemilihan pasangan titik.

Teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi menggunakan analisis Wanzi

Rajah 4: Mod subsampel deskriptor LBP

Seperti yang ditunjukkan dalam Rajah . Seperti yang ditunjukkan dalam 4, deskriptor LBP menggunakan skema persampelan bulat di sekitar titik utama dan membandingkannya dengan skala kelabu titik kunci pusat. Keputusan perbandingan skala kelabu dipaparkan pada gelanggang, dengan titik hitam ialah 0 dan titik putih ialah 1. LBP ialah bentuk deskriptor binari yang paling mudah, manakala ORB menambah baik ciri BRIEF dan merupakan deskriptor binari yang biasa digunakan pada masa ini. Seperti yang ditunjukkan dalam Rajah 5, apabila memilih pasangan titik, ORB menggunakan kaedah rawak untuk menerangkan butiran setempat dengan lebih komprehensif, tidak seperti hanya menggunakan titik tengah. Walau bagaimanapun, korelasi antara pasangan mata akan menjadi agak besar, sekali gus mengurangkan diskriminasi deskriptor. ORB secara langsung menggunakan kaedah tamak dan menyeluruh untuk menyelesaikan masalah ini dan mencari pasangan titik rawak dengan korelasi yang rendah.

Teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi menggunakan analisis Wanzi

Rajah 5: Mod pemilihan pasangan titik deskriptor ORB

Di Atas kaedah pensampelan dan kaedah pemilihan pasangan titik deskriptor binari adalah selaras dengan gerak hati umum orang ramai, manakala deskriptor seperti BRISK dan FREAK menyediakan kaedah pembinaan corak binari yang lebih teratur dengan maklumat skala. Contohnya, deskriptor FREAK meniru corak pensampelan visual mata manusia. Seperti yang ditunjukkan dalam Rajah 6, nilai setiap titik persampelan ialah nilai purata kelabu dalam bulatan merah, dan garis biru mewakili pelan pemilihan pasangan titik.

Teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi menggunakan analisis Wanzi

Rajah 6: Pensampelan deskriptor FREAK, mod pemilihan pasangan titik

Kecekapan tinggi deskriptor binari terutamanya dicerminkan dalam tiga aspek.

(1) Deskriptor binari menggunakan vektor binari sebagai penerangan ciri, dan hanya perlu membandingkan saiz pasangan titik tanpa mengira kecerunan tertentu.

(2) Jarak Hamming (Jarak Hamming), yang lebih pantas untuk dikira dan lebih mudah untuk dioptimumkan, boleh digunakan untuk membandingkan dua deskriptor.

(3) Memandangkan setiap vektor binari sepadan dengan nombor perpuluhan, ia sendiri juga mewakili corak tanpa perlu menggunakan histogram untuk mewakilinya seperti SIFT.

Penerangan binari secara amnya kurang diskriminasi berbanding deskriptor keluarga SIFT, tetapi dalam senario tertentu, digabungkan dengan pengaturcaraan selari, kecekapan boleh berpuluh-puluh kali lebih tinggi sambil memastikan keupayaan diskriminatif yang serupa kali.

Penciptaan pangkalan data dan pertanyaan

Pangkalan data boleh difahami sebagai penyepaduan peta + indeks. Peta boleh terdiri daripada imej 2D tulen, peta awan titik 3D atau gabungan imej 2D dan awan titik 3D. Penjanaan peta awan titik 3D terutamanya menggunakan kaedah pembinaan semula tiga dimensi SfM (Struktur daripada gerakan) untuk membuat kesimpulan maklumat 3D daripada imej 2D siri masa. Jika kamera RGB-D binokular memberikan kedalaman, maklumat titik 3D yang lebih tepat boleh diperolehi. Ia juga termasuk beberapa strategi pemilihan seperti kerangka kunci Kaedah khusus adalah di luar skop artikel ini. Pelajar yang berminat boleh menyemak sendiri maklumat yang berkaitan. Peranan pangkalan data ialah:

Untuk imej pemerhatian input, tanya sejarah pemetaan (imej/titik awan/titik ciri) melalui pangkalan data untuk mendapatkan pemerhatian semasa yang paling mungkin. imej Subset peta (imej/titik awan/titik ciri), padankan peta dengan maklumat pemerhatian, kira matriks transformasi, dan dapatkan pose kamera pemerhatian.

Indeks adalah kunci untuk mempercepatkan proses ini. Pangkalan data itu sendiri cenderung besar. Ambil contoh operasi percubaan robot kantung Meituan di tingkat dua Joy City di Chaoyang, Beijing, sebagai contoh. Memandangkan sifat kedudukan masa nyata, adalah mustahil untuk membandingkan pertanyaan dengan 80,000 imej satu demi satu setiap kali, jadi teknologi pengindeksan mesti digunakan untuk mempercepatkan keseluruhan algoritma. Teknologi ini sangat bertindih dengan ujian gelung balik dalam SLAM, pengambilan imej dan pengecaman lokasi dalam penglihatan Hanya kaedah umum diperkenalkan di bawah.

Terdapat beberapa titik ciri dalam imej Titik ciri perlu dikodkan terlebih dahulu, seperti pengekodan VLAD (Vektor deskriptor agregat setempat) dan deskriptor tempatan digunakan untuk membentuk satu. penerangan global imej. Kemudian gunakan indeks, seperti kd-tree, untuk melaksanakan pertanyaan peringkat imej. Sudah tentu, pengekodan dan pengindeksan juga boleh dilakukan pada masa yang sama, seperti model beg-of-words hierarki (Bag-of-words, BoW) + indeks ke hadapan + kaedah indeks terbalik.

Pengekodan VLAD

VLAD (Vektor deskriptor agregat setempat)[10], seperti yang ditunjukkan dalam Rajah 7 , ialah kaedah mudah yang membentuk buku kod dengan mengagregatkan deskriptor tempatan, dan melaksanakan pengekodan global dengan mengira secara kumulatif jarak antara deskriptor dan perkataan kod (Word). Satu Teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi menggunakan analisis Wanzi deskriptor dimensi dikodkan melalui buku kod kata kod untuk membentuk dimensi vektor keterangan, nilai dalam vektor ialah perbezaan antara deskriptor dan perkataan kod dalam dimensi . Kemudian lakukan penormalan Teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi menggunakan analisis Wanzi untuk membentuk vektor VLAD akhir.

Teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi menggunakan analisis Wanzi

Rajah 7: VLAD mengekod mengikut jarak antara deskriptor dan perkataan kod

DenseVLAD[11] dan NetVLAD[12] disebut secara khusus di sini. Torii et al., membuktikan bahawa DenseSIFT mengatasi SIFT standard dalam kedua-dua pertanyaan, padanan. DenseVLAD mengekstrak mata SIFT pada empat skala dalam corak pensampelan seperti grid dengan selang 2 piksel. Sampel 25M deskriptor secara rawak di seluruh dunia dan gunakan algoritma k-means untuk menjana buku kod 128 kata kod. Vektor VLAD dikurangkan secara dimensi menggunakan PCA (Analisis komponen utama) selepas penormalan untuk membentuk vektor DenseVLAD akhir 4096 dimensi. Seperti yang ditunjukkan dalam Rajah 8, bilangan titik dalaman (hijau) selepas dipadankan menggunakan DenseSIFT adalah lebih besar.

Teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi menggunakan analisis Wanzi

Rajah 8: DenseSIFT dan titik ciri SIFT standard, perbandingan titik dalaman (hijau) selepas dipadankan

NetVLAD menambah maklumat pengawasan pada VLAD untuk meningkatkan kebolehdiskriminasian pengekodan VLAD. Seperti yang ditunjukkan dalam Rajah 9, andaikan bahawa dua deskriptor merah dan hijau datang daripada dua gambar yang tidak sepatutnya dipadankan bersama. Oleh kerana kedua-duanya berada pada jejari yang lebih besar dan jarak yang sama dari pusat VLAD (×), selepas penormalan L2, nilai yang dikodkan mereka akan sangat serupa. Selepas menambah maklumat penyeliaan bahawa gambar yang sepadan dengan deskriptor merah dan hijau tidak sepadan, titik tengah (★) yang dijana oleh NetVLAD boleh membezakan kedua-dua deskriptor dengan lebih baik dan meningkatkan perbezaan jarak (jejari) yang dikodkan.

Teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi menggunakan analisis Wanzi

Rajah 9: Perbandingan antara pusat pengelompokan NetVLAD (×) dan pusat pengelompokan VLAD (★)Pengekodan + indeks BoW Pengekodan ciri dan idea reka bentuknya berdasarkan model beg-of-word BoW [13, 14] memainkan peranan penting dalam pembangunan visi dan kehendak komputer tidak diperkenalkan di sini. Artikel ini mengambil pangkalan data imej 2D padanan imej pertanyaan 2D sebagai contoh untuk memperkenalkan model bersepadu pengekodan dan pengindeksan BoW biasa. Seperti yang ditunjukkan dalam Rajah 10, kamus (Kosa Kata) dijana menggunakan kaedah hierarki Untuk semua deskriptor dalam set data, ruang dibahagikan mengikut struktur pokok, dan setiap lapisan dikira dengan k-means clustering. Nod daun akhir adalah bersamaan dengan perkataan kod (terdapat 9 perkataan kod dalam Rajah 10).

Teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi menggunakan analisis Wanzi

Rajah 10: Model BoW hierarki dengan indeks hadapan dan indeks songsang

Proses pembinaan pokok sebenarnya adalah proses pengekodan imej asal. Namun, pengekodan itu sendiri tidak mempercepatkan proses carian Sama seperti VLAD, ia masih perlu dibandingkan satu persatu dengan imej dalam pangkalan data. Oleh itu, indeks songsang (Indeks songsang) direka di sini, yang tidak memerlukan perbandingan vektor yang dikodkan. Prinsipnya ditunjukkan dalam Rajah 11. Untuk imej pertanyaan (Imej pertanyaan), deskriptor yang diekstrak dimasukkan ke dalam BoW dan akhirnya akan jatuh ke dalam nod daun perkataan kod (Perkataan visual) k. Setiap perkataan kod sepadan dengan indeks, merekodkan berat perkataan kod Teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi menggunakan analisis Wanzi untuk gambar dalam pangkalan data (Rajah . 10). Di sini berat dikira menggunakan TF-IDF (Kekerapan istilah–kekerapan dokumen songsang). Iaitu, jika perkataan mempunyai kekerapan kejadian yang tinggi dalam imej tertentu Teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi menggunakan analisis Wanzi dan kekerapan kejadian yang rendah dalam imej lain, maka perkataan ini mempunyai imej yang lebih baik diskriminasi dan nilai berat Lebih tinggi. Akhirnya, imej yang sepadan dipilih melalui mekanisme pengundian. Perlu diingatkan juga bahawa indeks terbalik tidak semestinya dibina pada BoW berstruktur pokok, ia hanya menyediakan kaedah pertanyaan pantas.

Teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi menggunakan analisis Wanzi

Rajah 11: Terus bertanya imej melalui indeks terbalik + mekanisme pengundian

Fungsi utama Indeks Langsung adalah untuk merekodkan nod yang mana titik ciri imej pangkalan data jatuh semasa membina BoW, supaya apabila imej disoal, tidak perlu mengira titik ciri. Titik ciri boleh diekstrak terus melalui indeks.

Pertanyaan awan titik 3D

Dalam pertanyaan imej 2D, imej disoal dari peringkat semantik dahulu, jadi ia boleh menjadi Imej mengekang julat ruang titik ciri. Pertanyaan awan titik 3D tidak mempunyai kekangan sedemikian, jadi ia mempunyai banyak kesukaran. Jika anda perlu mempertimbangkan kesinambungan spatial, sama ada semua titik pertanyaan berada dalam julat yang boleh diperhatikan, dsb. Di sini kami hanya memperkenalkan kaedah yang diterbitkan oleh Sattler di TPAMI 2016 [15]. Selepas bertahun-tahun menggilap, rangka kerja kaedah ini agak mudah dan lengkap. Memandangkan langkah carian pengekodan kamus bertindih dengan kandungan dalam bahagian sebelumnya, hanya dua mekanisme, Carian Aktif dan Penapisan Keterlihatan, diperkenalkan di sini.

Carian Aktif terutamanya untuk menjadikan mata 3D yang dipadankan sedekat mungkin dalam ruang dan mempunyai makna geometri. Seperti yang ditunjukkan dalam Rajah 12, titik merah dipadankan dengan titik dalam awan titik melalui satu siri proses pengekodan dan penghalusan (garis merah). Menurut rangka kerja keutamaan yang dicadangkan, titik 3D dengan kebarangkalian tertinggi ditemui dari awan titik, dan secara songsang (garis biru) sepadan dengan titik 2D yang sepadan dalam imej pertanyaan.

Teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi menggunakan analisis Wanzi

Rajah 12: Carian Aktif

Teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi menggunakan analisis Wanzi

Rajah 13: Penapisan Keterlihatan Penapisan Keterlihatan

Tujuan utama adalah untuk menjadikan titik yang dipadankan kelihatan seperti yang mungkin kepada kamera ( Kedudukan tidak diawasi, dan tidak mungkin untuk mengetahui sama ada mata yang dipadankan adalah betul). Kaedah yang digunakan di sini adalah untuk mencipta graf keterlihatan dwipartit apabila menggunakan SfM untuk mencipta peta awan titik 3D. Seperti yang ditunjukkan dalam Rajah 13 (kiri), apabila satu titik boleh diperhatikan oleh dua kamera pada masa yang sama, hubungan topologi diwujudkan. Dalam Rajah 13 (tengah), titik biru adalah titik dipadankan, dan ia bercanggah dari perspektif pemerhatian. Dengan melakukan pengelompokan graf pada topologi sedia ada, kamera dikumpulkan kepada dua kumpulan, seperti ditunjukkan dalam Rajah 13 (kanan). Dengan cara ini, hubungan topologi graf baharu boleh dijana. Kemudian, dengan menilai pertindihan antara setiap subgraf, kami menapis mata yang berkemungkinan besar tidak kelihatan.

Perlu diambil perhatian bahawa walaupun kamera binokular dan kamera RGB-D boleh memperoleh kedalaman, pertanyaan imej 2D juga boleh mendapatkan koordinat titik ciri 3D dalam julat terhad, tetapi disebabkan oleh had teknikal semasa , dalam bahan dalaman yang kompleks dan pemandangan luar berskala besar, kedalaman tidak boleh dipercayai. Oleh itu, pemadanan titik imej 2D dan peta awan titik 3D masih merupakan kaedah penting.

Padanan titik ciri

Proses pemadanan titik ciri boleh diselesaikan secara adaptif dalam pertanyaan pangkalan data, yang kebanyakannya dilihat dalam pertanyaan berdasarkan 3D struktur . Pemadanan juga boleh dilakukan secara berasingan selepas pertanyaan, yang lebih biasa dalam pertanyaan berasaskan imej 2D. Tujuan pemadanan ciri adalah untuk menyediakan pasangan titik padanan untuk pengiraan matriks transformasi seterusnya untuk mencapai pengiraan pose.

RANSAC Klasik

Algoritma konsensus sampel rawak (RANSAC) [16] ialah penapisan Data klasik dan pemasangan parameter algoritma. Ia menganggap bahawa pengagihan data (inliers) mematuhi model matematik tertentu, dan melalui pengiraan berulang, ia menghilangkan outlier dan titik hingar, dan pada masa yang sama memperoleh parameter model terbaik dari segi kebarangkalian. Dalam kedudukan global, titik dalaman merujuk pada padanan yang betul, mata luaran merujuk pada padanan yang salah, dan model parametrik merujuk kepada matriks transformasi spatial bagi pasangan mata yang dipadankan. Seperti yang ditunjukkan dalam Rajah 14, selepas pengoptimuman oleh algoritma RANSAC, pemadanan adalah lebih munasabah. Subset padanan yang dijangkakan oleh RANSAC untuk mencari perlu memenuhi dua penunjuk: ralat unjuran semula titik dalaman adalah sekecil mungkin; Jadi proses asasnya adalah seperti berikut:

① Mensampel subset awal.

② Kira matriks transformasi.

③ Kira ralat unjuran semula titik padanan mengikut matriks transformasi.

④ Alih keluar mata dengan ralat besar

⑤ Gelung ①-④ untuk mengekalkan penyelesaian padanan yang paling sesuai dengan indeks.

Teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi menggunakan analisis Wanzi

Rajah 14: (Atas) Pemadanan ciri asal; (Bawah) Pemadanan dioptimumkan oleh algoritma RANSAC

Antaranya, padanan calon awal dijana berdasarkan jarak antara deskriptor, tetapi ralat unjuran semula hanya berkaitan dengan kedudukan ruang titik utama dan tiada kaitan dengan deskriptor itu sendiri. Untuk kaedah matriks unjuran khusus, sila rujuk "2.4 Pengiraan Pose". Perlu ditegaskan bahawa algoritma RANSAC dipengaruhi oleh ralat pemadanan asal dan pemilihan parameter Ia hanya boleh memastikan bahawa algoritma mempunyai kebarangkalian yang cukup tinggi untuk menjadi munasabah, tetapi mungkin tidak semestinya memperoleh hasil yang optimum. Parameter algoritma terutamanya termasuk ambang dan bilangan lelaran. Kebarangkalian RANSAC memperoleh model yang boleh dipercayai adalah berkadar terus dengan bilangan lelaran, dan bilangan padanan yang diperoleh adalah berkadar songsang dengan ambang. Oleh itu, dalam penggunaan sebenar, mungkin perlu berulang kali mencuba tetapan parameter yang berbeza untuk mendapatkan hasil yang lebih baik.

Ulama telah membuat banyak penambahbaikan pada algoritma RANSAC klasik Seperti yang ditunjukkan dalam Rajah 15, rajah struktur RANSAC global (Universal-RANSAC) [17] dicadangkan, membentuk satu universal. Algoritma RANSAC Seni bina RANSAC adaptif merangkumi hampir semua aspek peningkatan RANSAC, seperti pra-penapisan, pensampelan subset minimum, penjanaan model yang boleh dipercayai daripada subset minimum, pengesahan parameter dan pemurnian model.

Teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi menggunakan analisis Wanzi

Rajah 15: Rangka kerja algoritma umum Universal-RANSAC

RANSAC yang boleh dibezakan

Memandangkan deskriptor manual masih menunjukkan prestasi tinggi dalam bidang penentududukan, sesetengah sarjana telah mula meneroka penggunaan pembelajaran mendalam untuk menggantikan bahagian tertentu rangka kerja algoritma . , bukannya terus menggunakan model anggaran pose hujung ke hujung untuk menggantikan sepenuhnya kaedah tradisional. RANSAC Boleh Dibezakan (RaNSAC Differentiable, DSAC) [18] bertujuan untuk menggantikan pemilihan hipotesis deterministik dengan pemilihan hipotesis kebarangkalian, supaya proses RANSAC boleh diperolehi dalam Rajah 16, di mana langkah "Pemarkahan" masih menggunakan unjuran semula ralat Sebagai penunjuk, perbezaannya ialah ralat adalah berdasarkan keseluruhan imej dan bukannya titik ciri, dan proses asal pemadanan titik ciri penapisan digantikan dengan proses menyaring terus hipotesis pose kamera h dengan kebarangkalian. Walaupun kaedah semasa mempunyai had yang agak besar, DSAC menyediakan idea yang boleh dilaksanakan untuk cara menambah pengetahuan sedia ada pada rangka kerja algoritma penentududukan tanpa pengawasan semasa. Teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi menggunakan analisis Wanzi

Teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi menggunakan analisis Wanzi

Rajah 16: Rangka kerja algoritma RANSAC pembezaan

bit Pengiraan Pose

Bagi pasangan titik padanan yang betul yang telah diperolehi, matriks transformasi yang sepadan (Transformation matrix) perlu dikira melalui kekangan geometri. Oleh kerana koordinat titik dalam pangkalan data dan pose kamera pada masa pensampelan diketahui, pose kamera semasa boleh diperolehi dengan memadankan matriks transformasi titik dengan titik peta. Beberapa simbol asas ditakrifkan di sini. Parameter dalaman kamera ialah Teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi menggunakan analisis Wanzi , dan bentuk homogen momen transformasi ialah:

Teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi menggunakan analisis Wanzi

Antaranya, Teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi menggunakan analisis Wanzi ialah matriks putaran, dan ialah matriks terjemahan.

2.4.1 Pengiraan matriks transformasi 2D-2D

Teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi menggunakan analisis Wanzi

Rajah 17: Pengiraan matriks transformasi 2D-2D Geometri epipolar

Untuk pasangan titik ciri yang dipadankan ( Teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi menggunakan analisis Wanzi ) dalam dua imej dua dimensi, ia berada pada satah ternormal Koordinat adalah ( ), dan matriks transformasi yang sepadan perlu dikira melalui kekangan epipolar. Seperti yang ditunjukkan dalam Rajah 17, makna geometrinya ialah Teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi menggunakan analisis Wanzi ialah satah koplanar ini juga dipanggil satah kutub, dipanggil garis dasar, dan dipanggil garis kutub. Kekangan epipolar termasuk kedua-dua terjemahan dan putaran, yang ditakrifkan sebagai:

Teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi menggunakan analisis Wanzi

Antaranya, Teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi menggunakan analisis Wanzi ialah Koordinat pada satah ternormal, ∧ ialah pengendali produk luar. Kira bahagian tengah formula sebagai matriks asas dan matriks penting , maka kita ada:

Teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi menggunakan analisis Wanzi

Memandangkan matriks penting Teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi menggunakan analisis Wanzi tidak mempunyai maklumat skala, kekangan epipolar masih berlaku selepas E didarab dengan sebarang pemalar bukan sifar. boleh diselesaikan dengan algoritma 8 mata klasik (algoritma lapan mata), dan kemudian diuraikan untuk mendapatkan Teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi menggunakan analisis Wanzi , . Oleh itu, dapat dilihat bahawa kaedah penyelesaian matriks transformasi 2D-2D mempunyai dua kelemahan Pertama, penglihatan monokular mempunyai ketidakpastian skala, dan maklumat skala perlu disediakan oleh Teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi menggunakan analisis Wanzi dalam permulaan. Sejajar dengan itu, pemulaan monokular tidak boleh hanya putaran tulen, tetapi mesti mempunyai tahap terjemahan yang mencukupi, jika tidak akan menjadi sifar.

2.4.2 Pengiraan matriks transformasi 2D-3D

Pemadanan 2D-3D adalah penting dalam menganggarkan kaedah . Secara amnya, kaedah PnP digunakan, iaitu diketahui bahawa Teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi menggunakan analisis Wanzi digunakan untuk menyelesaikan matriks transformasi bagi titik padanan 2D-3D untuk mendapatkan pose kamera. Kami menayangkan titik 3D P(X, Y, Z) pada satah pengimejan kamera ():

di mana, Teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi menggunakan analisis Wanzi ialah skala, . Penyelesaian persamaan ini boleh dikurangkan kepada masalah persamaan linear, dan setiap ciri boleh memberikan dua kekangan linear:

Teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi menggunakan analisis Wanzi

Dengan cara ini, sekurang-kurangnya 6 boleh dilalui Selesaikan mata padanan, dan apabila bilangan padanan lebih daripada 6, anda boleh menggunakan SVD dan kaedah lain untuk menyelesaikan masalah dengan membina kaedah kuasa dua terkecil. Kaedah P3P boleh dianggap sebagai penyelesaian khas bagi kaedah PnP Seperti yang ditunjukkan dalam Rajah 18, ia menggunakan sifat persamaan segitiga untuk menambah lebih banyak kekangan dan hanya memerlukan 3 pasang mata untuk menyelesaikan masalah. Kaedah penyelesaian lain termasuk Transformasi linear langsung (DLT), kaedah EPnP (PnP Cekap), dan UPnP (PnP Tidak Dikalibrasi), dsb. Berbanding dengan kaedah pengoptimuman linear di atas, kaedah pengoptimuman bukan linear seperti Pelarasan Bundle (BA) juga digunakan secara meluas. Kaedah BA adalah sejenis "satu-saiz-sesuai-semua" dalam visual SLAM Ia boleh mengoptimumkan berbilang pembolehubah pada masa yang sama, yang boleh mengurangkan ketidakstabilan sistem yang disebabkan oleh ralat tempatan pada tahap tertentu maklumat yang relevan untuk pemahaman yang lebih mendalam.

Teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi menggunakan analisis Wanzi

Rajah 18: Kaedah P3P dalam pengiraan matriks transformasi 2D-3D

Pengiraan matriks transformasi 3D-3D

Matriks transformasi antara titik 3D boleh diselesaikan menggunakan algoritma titik almari berulang (ICP). Dengan mengandaikan bahawa padanan pasangan titik ( Teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi menggunakan analisis Wanzi ) adalah betul, matriks transformasi yang diperoleh harus meminimumkan ralat unjuran semula . Anda boleh menggunakan SVD untuk menyelesaikan masalah kuasa dua terkecil:

Teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi menggunakan analisis Wanzi

atau gunakan kaedah pengoptimuman tak linear Pelarasan Bundle berdasarkan algebra Lie untuk menyelesaikan

Teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi menggunakan analisis Wanzi

Antaranya, Teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi menggunakan analisis Wanzi mewakili pose kamera. Matlamat pengoptimuman di sini adalah serupa dengan Pelarasan Bundle dalam padanan 2D-3D, tetapi tidak perlu mempertimbangkan parameter dalaman kamera kerana imej asal telah diproses oleh kamera binokular atau RGB -Kamera kedalaman D ditayangkan dari satah pengimejan kamera ke dunia 3D.

Masalah ICP telah terbukti mempunyai penyelesaian yang unik dan penyelesaian yang tidak terhingga. Oleh itu, apabila terdapat penyelesaian unik, fungsi pengoptimuman adalah bersamaan dengan fungsi cembung, dan nilai minimum ialah penyelesaian optimum global Tidak kira apa jenis permulaan yang diterima pakai, penyelesaian unik ini boleh diperolehi. Ini adalah salah satu kelebihan hebat kaedah ICP.

Artikel ini memperkenalkan algoritma anggaran pose berdasarkan titik ciri daripada empat aspek: perihalan imej, pertanyaan pemetaan, padanan ciri dan pengiraan pose. Walaupun kaedah penentududukan global visual tradisional masih menjadi pilihan pertama dalam aplikasi praktikal, kaedah tradisional adalah berdasarkan premis bahawa titik ciri ditakrifkan dengan betul, diekstrak dengan betul, dipadankan dengan betul dan diperhatikan dengan betul Premis ini sangat penting untuk penglihatan itu sendiri. Kedua, memandangkan kaedah tradisional adalah rangka kerja berbilang peringkat dan bukannya hujung ke hujung, setiap pautan dan interaksi antara pautan memerlukan banyak pelarasan parameter, dan teknologi setiap pautan boleh digunakan sebagai hala tuju penyelidikan yang berasingan. Dalam aplikasi sebenar, sejumlah besar helah yang sepadan dengan senario tertentu perlu ditambah, yang menjadikan kejuruteraan lebih kompleks.

Dan jangkaan orang ramai terhadap kaedah hujung ke hujung telah menimbulkan rangkaian seperti PoseNet, VLocNet, HourglassNet, dll., yang telah mencapai keputusan yang baik pada penanda aras. Penulis percaya bahawa masih terdapat banyak masalah dalam kaedah hujung ke hujung semasa Yang utama ialah fungsi kehilangan tidak mempunyai kekangan geometri, ruang 6 darjah kebebasan pose semasa membina peta tidak berterusan, dan sukar untuk membentuk pemetaan yang baik dengan ruang input, dan terdapat kekurangan regresi postur, mekanisme penghalusan, dll. Tidak dapat dinafikan bahawa sebagai alat pemodelan yang paling berkuasa untuk ruang tak linear, pembelajaran mendalam akan muncul lebih banyak dalam bidang penentududukan pada masa hadapan.

Kembali kepada kedudukan visual itu sendiri, kerana kelebihan penglihatan yang paling penting ialah kos rendah, semantik yang kaya dan sedikit sekatan pada senario penggunaan. Oleh itu, penyelesaian gabungan kedudukan yang memfokuskan pada penglihatan dan ditambah dengan penderia kos rendah lain juga akan menjadi topik penting pada masa hadapan.

Atas ialah kandungan terperinci Teknologi kedudukan global berdasarkan titik ciri dalam pemanduan autonomi menggunakan analisis Wanzi. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Tunjukkan Lagi

Artikel Panas

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

4 minggu yang lalu By DDD

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

3 minggu yang lalu By DDD

Di mana untuk mencari kad kunci kawalan kren di atomfall

4 minggu yang lalu By DDD

<🎜>: Rails Dead - Cara Melengkapkan Setiap Cabaran

1 bulan yang lalu By DDD

Panduan Atomfall: Lokasi Item, Panduan Pencarian, dan Petua

1 bulan yang lalu By DDD

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7711

Tutorial Java

1640

Tutorial CakePHP

1394

Tutorial Laravel

1288

Tutorial PHP

1232

Tunjukkan Lagi

Related knowledge

Mengapakah Gaussian Splatting begitu popular dalam pemanduan autonomi sehingga NeRF mula ditinggalkan? Jan 17, 2024 pm 02:57 PM

Ditulis di atas & pemahaman peribadi pengarang Gaussiansplatting tiga dimensi (3DGS) ialah teknologi transformatif yang telah muncul dalam bidang medan sinaran eksplisit dan grafik komputer dalam beberapa tahun kebelakangan ini. Kaedah inovatif ini dicirikan oleh penggunaan berjuta-juta Gaussians 3D, yang sangat berbeza daripada kaedah medan sinaran saraf (NeRF), yang terutamanya menggunakan model berasaskan koordinat tersirat untuk memetakan koordinat spatial kepada nilai piksel. Dengan perwakilan adegan yang eksplisit dan algoritma pemaparan yang boleh dibezakan, 3DGS bukan sahaja menjamin keupayaan pemaparan masa nyata, tetapi juga memperkenalkan tahap kawalan dan pengeditan adegan yang tidak pernah berlaku sebelum ini. Ini meletakkan 3DGS sebagai penukar permainan yang berpotensi untuk pembinaan semula dan perwakilan 3D generasi akan datang. Untuk tujuan ini, kami menyediakan gambaran keseluruhan sistematik tentang perkembangan dan kebimbangan terkini dalam bidang 3DGS buat kali pertama.

Bagaimana untuk menyelesaikan masalah ekor panjang dalam senario pemanduan autonomi? Jun 02, 2024 pm 02:44 PM

Semalam semasa temu bual, saya telah ditanya sama ada saya telah membuat sebarang soalan berkaitan ekor panjang, jadi saya fikir saya akan memberikan ringkasan ringkas. Masalah ekor panjang pemanduan autonomi merujuk kepada kes tepi dalam kenderaan autonomi, iaitu, kemungkinan senario dengan kebarangkalian yang rendah untuk berlaku. Masalah ekor panjang yang dirasakan adalah salah satu sebab utama yang kini mengehadkan domain reka bentuk pengendalian kenderaan autonomi pintar satu kenderaan. Seni bina asas dan kebanyakan isu teknikal pemanduan autonomi telah diselesaikan, dan baki 5% masalah ekor panjang secara beransur-ansur menjadi kunci untuk menyekat pembangunan pemanduan autonomi. Masalah ini termasuk pelbagai senario yang berpecah-belah, situasi yang melampau dan tingkah laku manusia yang tidak dapat diramalkan. "Ekor panjang" senario tepi dalam pemanduan autonomi merujuk kepada kes tepi dalam kenderaan autonomi (AVs) kes Edge adalah senario yang mungkin dengan kebarangkalian yang rendah untuk berlaku. kejadian yang jarang berlaku ini

Pilih kamera atau lidar? Kajian terbaru tentang mencapai pengesanan objek 3D yang mantap Jan 26, 2024 am 11:18 AM

0. Ditulis di hadapan&& Pemahaman peribadi bahawa sistem pemanduan autonomi bergantung pada persepsi lanjutan, membuat keputusan dan teknologi kawalan, dengan menggunakan pelbagai penderia (seperti kamera, lidar, radar, dll.) untuk melihat persekitaran sekeliling dan menggunakan algoritma dan model untuk analisis masa nyata dan membuat keputusan. Ini membolehkan kenderaan mengenali papan tanda jalan, mengesan dan menjejaki kenderaan lain, meramalkan tingkah laku pejalan kaki, dsb., dengan itu selamat beroperasi dan menyesuaikan diri dengan persekitaran trafik yang kompleks. Teknologi ini kini menarik perhatian meluas dan dianggap sebagai kawasan pembangunan penting dalam pengangkutan masa depan satu. Tetapi apa yang menyukarkan pemanduan autonomi ialah memikirkan cara membuat kereta itu memahami perkara yang berlaku di sekelilingnya. Ini memerlukan algoritma pengesanan objek tiga dimensi dalam sistem pemanduan autonomi boleh melihat dan menerangkan dengan tepat objek dalam persekitaran sekeliling, termasuk lokasinya,

Kertas Stable Diffusion 3 akhirnya telah dikeluarkan, dan butiran seni bina didedahkan Adakah ia akan membantu untuk menghasilkan semula Sora? Mar 06, 2024 pm 05:34 PM

Kertas StableDiffusion3 akhirnya di sini! Model ini dikeluarkan dua minggu lalu dan menggunakan seni bina DiT (DiffusionTransformer) yang sama seperti Sora. Ia menimbulkan kekecohan apabila ia dikeluarkan. Berbanding dengan versi sebelumnya, kualiti imej yang dijana oleh StableDiffusion3 telah dipertingkatkan dengan ketara Ia kini menyokong gesaan berbilang tema, dan kesan penulisan teks juga telah dipertingkatkan, dan aksara bercelaru tidak lagi muncul. StabilityAI menegaskan bahawa StableDiffusion3 ialah satu siri model dengan saiz parameter antara 800M hingga 8B. Julat parameter ini bermakna model boleh dijalankan terus pada banyak peranti mudah alih, dengan ketara mengurangkan penggunaan AI

Artikel ini sudah cukup untuk anda membaca tentang pemanduan autonomi dan ramalan trajektori! Feb 28, 2024 pm 07:20 PM

Ramalan trajektori memainkan peranan penting dalam pemanduan autonomi Ramalan trajektori pemanduan autonomi merujuk kepada meramalkan trajektori pemanduan masa hadapan kenderaan dengan menganalisis pelbagai data semasa proses pemanduan kenderaan. Sebagai modul teras pemanduan autonomi, kualiti ramalan trajektori adalah penting untuk kawalan perancangan hiliran. Tugas ramalan trajektori mempunyai timbunan teknologi yang kaya dan memerlukan kebiasaan dengan persepsi dinamik/statik pemanduan autonomi, peta ketepatan tinggi, garisan lorong, kemahiran seni bina rangkaian saraf (CNN&GNN&Transformer), dll. Sangat sukar untuk bermula! Ramai peminat berharap untuk memulakan ramalan trajektori secepat mungkin dan mengelakkan perangkap Hari ini saya akan mengambil kira beberapa masalah biasa dan kaedah pembelajaran pengenalan untuk ramalan trajektori! Pengetahuan berkaitan pengenalan 1. Adakah kertas pratonton teratur? A: Tengok survey dulu, hlm

SIMPL: Penanda aras ramalan gerakan berbilang ejen yang mudah dan cekap untuk pemanduan autonomi Feb 20, 2024 am 11:48 AM

Tajuk asal: SIMPL: ASimpleandEfficientMulti-agentMotionPredictionBaselineforAutonomousDriving Paper pautan: https://arxiv.org/pdf/2402.02519.pdf Pautan kod: https://github.com/HKUST-Aerial-Robotics/SIMPL Unit pengarang: Universiti Sains Hong Kong dan Teknologi Idea Kertas DJI: Kertas kerja ini mencadangkan garis dasar ramalan pergerakan (SIMPL) yang mudah dan cekap untuk kenderaan autonomi. Berbanding dengan agen-sen tradisional

Mari kita bincangkan tentang sistem pemanduan autonomi hujung ke hujung dan generasi seterusnya, serta beberapa salah faham tentang pemanduan autonomi hujung ke hujung? Apr 15, 2024 pm 04:13 PM

Pada bulan lalu, atas sebab-sebab yang diketahui umum, saya telah mengadakan pertukaran yang sangat intensif dengan pelbagai guru dan rakan sekelas dalam industri. Topik yang tidak dapat dielakkan dalam pertukaran secara semula jadi adalah hujung ke hujung dan Tesla FSDV12 yang popular. Saya ingin mengambil kesempatan ini untuk menyelesaikan beberapa buah fikiran dan pendapat saya pada masa ini untuk rujukan dan perbincangan anda. Bagaimana untuk mentakrifkan sistem pemanduan autonomi hujung ke hujung, dan apakah masalah yang sepatutnya dijangka diselesaikan hujung ke hujung? Menurut definisi yang paling tradisional, sistem hujung ke hujung merujuk kepada sistem yang memasukkan maklumat mentah daripada penderia dan secara langsung mengeluarkan pembolehubah yang membimbangkan tugas. Sebagai contoh, dalam pengecaman imej, CNN boleh dipanggil hujung-ke-hujung berbanding kaedah pengekstrak ciri + pengelas tradisional. Dalam tugas pemanduan autonomi, masukkan data daripada pelbagai penderia (kamera/LiDAR

FisheyeDetNet: algoritma pengesanan sasaran pertama berdasarkan kamera fisheye Apr 26, 2024 am 11:37 AM

Pengesanan objek ialah masalah yang agak matang dalam sistem pemanduan autonomi, antaranya pengesanan pejalan kaki adalah salah satu algoritma terawal untuk digunakan. Penyelidikan yang sangat komprehensif telah dijalankan dalam kebanyakan kertas kerja. Walau bagaimanapun, persepsi jarak menggunakan kamera fisheye untuk pandangan sekeliling agak kurang dikaji. Disebabkan herotan jejari yang besar, perwakilan kotak sempadan standard sukar dilaksanakan dalam kamera fisheye. Untuk mengurangkan perihalan di atas, kami meneroka kotak sempadan lanjutan, elips dan reka bentuk poligon am ke dalam perwakilan kutub/sudut dan mentakrifkan metrik mIOU pembahagian contoh untuk menganalisis perwakilan ini. Model fisheyeDetNet yang dicadangkan dengan bentuk poligon mengatasi model lain dan pada masa yang sama mencapai 49.5% mAP pada set data kamera fisheye Valeo untuk pemanduan autonomi

See all articles