CLIP-BEVFormer: Selia secara eksplisit struktur BEVFormer untuk meningkatkan prestasi pengesanan ekor panjang-AI-php.cn

Jadual Kandungan

Ditulis di hadapan & pemahaman peribadi penulis

Keseluruhan seni bina & butiran model rangkaian

Penjanaan nilai sebenar BEV

Interaksi pertanyaan sasaran nilai sebenar

Hasil eksperimen & penunjuk penilaian

Bahagian analisis kuantitatif

Bahagian analisis kualitatif

Kesimpulan

Rumah

Peranti teknologi

CLIP-BEVFormer: Selia secara eksplisit struktur BEVFormer untuk meningkatkan prestasi pengesanan ekor panjang

王林

Mar 26, 2024 pm 12:41 PM

algoritma 3d

Ditulis di hadapan & pemahaman peribadi penulis

Pada masa ini, dalam keseluruhan sistem pemanduan autonomi, modul persepsi memainkan peranan penting Kenderaan autonomi yang memandu di jalan raya hanya boleh mendapatkan maklumat yang tepat melalui modul persepsi Hanya selepas penderiaan hasilnya boleh modul pengawalan dan kawalan hiliran dalam sistem pemanduan autonomi membuat pertimbangan dan keputusan tingkah laku yang tepat pada masanya dan betul. Pada masa ini, kereta dengan fungsi pemanduan autonomi biasanya dilengkapi dengan pelbagai penderia maklumat data termasuk penderia kamera pandangan sekeliling, penderia lidar dan penderia radar gelombang milimeter untuk mengumpul maklumat dalam modaliti yang berbeza untuk mencapai tugas persepsi yang tepat.

Algoritma persepsi BEV berdasarkan penglihatan tulen telah mendapat perhatian meluas daripada industri dan akademia kerana kos perkakasannya yang rendah dan penggunaan yang mudah, dan hasil keluarannya boleh digunakan dengan mudah untuk pelbagai tugas hiliran. Dalam beberapa tahun kebelakangan ini, banyak algoritma persepsi visual berdasarkan ruang BEV telah muncul satu demi satu dan telah menunjukkan prestasi persepsi yang sangat baik pada set data awam.

Pada masa ini, algoritma persepsi berdasarkan ruang BEV boleh dibahagikan secara kasar kepada dua jenis model algoritma berdasarkan cara membina ciri BEV:

Satu jenis ialah kaedah pembinaan ciri BEV hadapan yang diwakili oleh algoritma LSS jenis ini model algoritma persepsi adalah pertama Rangkaian anggaran kedalaman dalam model persepsi digunakan untuk meramalkan maklumat ciri semantik dan taburan kebarangkalian kedalaman diskret bagi setiap piksel peta ciri, dan kemudian maklumat ciri semantik yang diperolehi dan kebarangkalian kedalaman diskret digunakan untuk membina ciri frustum semantik menggunakan operasi produk luar dan kaedah lain digunakan untuk akhirnya menyelesaikan proses pembinaan ciri ruang BEV.
Jenis lain ialah kaedah pembinaan ciri BEV terbalik yang diwakili oleh algoritma BEVFormer jenis model algoritma persepsi ini mula-mula secara eksplisit menjana titik koordinat voxel 3D dalam ruang BEV yang dirasakan, dan kemudian menggunakan parameter dalaman dan luaran kamera untuk menukar. 3D Titik koordinat voxel diunjurkan kembali ke sistem koordinat imej, dan ciri piksel pada kedudukan ciri yang sepadan diekstrak dan diagregatkan untuk membina ciri BEV dalam ruang BEV.

Walaupun kedua-dua algoritma boleh menjana ciri dengan tepat dalam ruang BEV dan mencapai hasil persepsi 3D, terdapat dua masalah berikut dalam algoritma persepsi sasaran 3D semasa berdasarkan ruang BEV, seperti algoritma BEVFormer:

Masalah 1 : Sejak rangka kerja keseluruhan model algoritma persepsi BEVFormer menggunakan struktur rangkaian Pengekod-Penyahkod, idea utama adalah menggunakan modul Pengekod untuk mendapatkan ciri dalam ruang BEV, dan kemudian menggunakan modul Penyahkod untuk meramalkan hasil persepsi akhir, dan membandingkan hasil persepsi output dengan Proses pengiraan kerugian untuk mencapai ciri ruang BEV yang diramalkan oleh model. Walau bagaimanapun, kaedah kemas kini parameter model rangkaian ini akan terlalu bergantung pada prestasi persepsi modul Penyahkod, yang mungkin membawa kepada masalah bahawa ciri BEV output oleh model tidak sejajar dengan ciri BEV nilai sebenar, dengan itu mengehadkan lagi prestasi akhir model persepsi.
Soalan 2: Memandangkan modul Penyahkod model algoritma persepsi BEVFormer masih menggunakan langkah-langkah modul perhatian kendiri ->modul perhatian silang->rangkaian neural suapan ke hadapan dalam Transformer untuk melengkapkan pembinaan ciri Pertanyaan dan keluarkan hasil pengesanan akhir Keseluruhan proses masih merupakan model kotak hitam, tidak mempunyai kebolehtafsiran yang baik. Pada masa yang sama, terdapat juga ketidakpastian yang besar dalam proses pemadanan satu dengan satu antara Object Query dan sasaran nilai sebenar semasa proses latihan model.

Untuk menyelesaikan masalah model algoritma persepsi BEVFormer, kami menambah baiknya dan mencadangkan model algoritma pengesanan 3D CLIP-BEVFormer berdasarkan imej sekeliling. Dengan memperkenalkan kaedah pembelajaran kontrastif, kami meningkatkan keupayaan model untuk membina ciri BEV dan mencapai prestasi persepsi peringkat terkemuka pada set data nuScenes.

Pautan artikel: https://arxiv.org/pdf/2403.08919.pdf

Keseluruhan seni bina & butiran model rangkaian

Sebelum memperkenalkan butiran CLIP-BEVFormer persepsi algoritma, model yang dicadangkan dalam artikel ini rajah berikut menunjukkan Struktur rangkaian keseluruhan algoritma CLIP-BEVFormer diperkenalkan.

CLIP-BEVFormer: Selia secara eksplisit struktur BEVFormer untuk meningkatkan prestasi pengesanan ekor panjang Carta alir keseluruhan model algoritma persepsi CLIP-BEVFormer yang dicadangkan dalam artikel ini

Dapat dilihat daripada carta alir keseluruhan algoritma bahawa model algoritma CLIP-BEVFormer yang dicadangkan dalam artikel ini ditambah baik berdasarkan model algoritma BEVFormer Berikut adalah ulasan ringkas proses pelaksanaan model algoritma persepsi BEVFormer . Pertama, model algoritma BEVFormer memasukkan data imej sekeliling yang dikumpul oleh penderia kamera dan menggunakan rangkaian pengekstrakan ciri imej 2D untuk mengekstrak maklumat ciri semantik berbilang skala bagi imej sekeliling input. Kedua, modul Pengekod yang mengandungi perhatian kendiri sementara dan perhatian silang ruang digunakan untuk melengkapkan proses penukaran ciri imej 2D kepada ciri spatial BEV. Kemudian, satu set Pertanyaan Objek dijana dalam bentuk taburan normal dalam ruang persepsi 3D dan dihantar ke modul Penyahkod untuk melengkapkan penggunaan interaktif ciri spatial dengan keluaran ciri ruang BEV oleh modul Pengekod. Akhir sekali, rangkaian neural suapan digunakan untuk meramalkan ciri semantik yang ditanya oleh Object Query, dan hasil klasifikasi dan regresi akhir model rangkaian adalah output. Pada masa yang sama, semasa proses latihan model algoritma BEVFormer, strategi padanan Hungaria satu dengan satu digunakan untuk melengkapkan proses pengedaran sampel positif dan negatif, dan klasifikasi dan kerugian regresi digunakan untuk melengkapkan proses kemas kini bagi parameter model rangkaian keseluruhan. Proses pengesanan keseluruhan model algoritma BEVFormer boleh dinyatakan dengan formula matematik berikut:

CLIP-BEVFormer: Selia secara eksplisit struktur BEVFormer untuk meningkatkan prestasi pengesanan ekor panjang

di mana, dalam formula mewakili modul pengekstrakan ciri Pengekod dalam algoritma BEVFormer, mewakili modul penyahkod Penyahkod dalam algoritma BEVFormer, dan mewakili nilai sebenar dalam set data Label sasaran Nilai, mewakili output hasil persepsi 3D oleh model algoritma BEVFormer semasa.

Penjanaan nilai sebenar BEV

Seperti yang dinyatakan di atas, kebanyakan algoritma pengesanan sasaran 3D sedia ada berdasarkan ruang BEV tidak menyelia secara eksplisit ciri ruang BEV yang dijana, menyebabkan ciri BEV penjanaan model mungkin tidak konsisten dengan ciri BEV sebenar Perbezaan dalam pengedaran ciri spatial BEV ini akan menyekat prestasi persepsi akhir model. Berdasarkan pertimbangan ini, kami mencadangkan modul Ground Truth BEV Idea teras kami dalam mereka bentuk modul ini adalah untuk membolehkan ciri BEV yang dihasilkan oleh model diselaraskan dengan ciri BEV nilai sebenar semasa, dengan itu meningkatkan prestasi model.

Secara khusus, seperti yang ditunjukkan dalam rajah rangka kerja keseluruhan rangkaian, kami menggunakan pengekod kebenaran tanah () untuk mengekod label kategori dan maklumat kedudukan kotak sempadan ruang bagi sebarang contoh kebenaran tanah pada peta ciri BEV :

Dimensi ciri dalam formula mempunyai saiz yang sama dengan peta ciri BEV yang dijana, mewakili maklumat ciri yang dikodkan bagi sasaran nilai sebenar. Semasa proses pengekodan, kami menggunakan dua bentuk, satu ialah model bahasa besar (LLM), dan satu lagi ialah perceptron berbilang lapisan (MLP) Melalui keputusan eksperimen, kami mendapati bahawa kedua-dua kaedah pada asasnya mencapai prestasi yang sama.

Selain itu, untuk meningkatkan lagi maklumat sempadan sasaran sebenar pada peta ciri BEV, kami memangkas sasaran sebenar pada peta ciri BEV mengikut kedudukan spatialnya, dan menggunakan pengumpulan pada operasi pemangkasan ciri untuk membina perwakilan maklumat ciri yang sepadan Proses ini boleh dinyatakan dalam bentuk berikut:

Akhir sekali, untuk menyelaraskan lagi ciri BEV yang dihasilkan oleh model dengan ciri BEV nilai sebenar, kami menggunakan kaedah pembelajaran kontrastif untuk mengoptimumkan kedua-dua kategori Hubungan elemen dan jarak antara ciri BEV, proses pengoptimuman boleh dinyatakan dalam bentuk berikut:

CLIP-BEVFormer: Selia secara eksplisit struktur BEVFormer untuk meningkatkan prestasi pengesanan ekor panjang

di mana jumlah dalam formula masing-masing mewakili matriks persamaan antara ciri BEV yang dihasilkan dan ciri BEV nilai sebenar, mewakili perbandingan Faktor skala logik dalam pembelajaran mewakili operasi pendaraban antara matriks dan mewakili fungsi kehilangan entropi silang. Melalui kaedah pembelajaran kontrastif di atas, kaedah yang kami cadangkan dapat memberikan panduan ciri yang lebih jelas untuk ciri BEV yang dihasilkan dan meningkatkan keupayaan persepsi model.

Interaksi pertanyaan sasaran nilai sebenar

Bahagian ini juga disebut dalam artikel sebelumnya, Pertanyaan Objek dalam model algoritma persepsi BEVFormer berinteraksi dengan ciri BEV yang dihasilkan melalui modul Penyahkod untuk mendapatkan ciri pertanyaan sasaran yang sepadan. keseluruhan proses Ia masih merupakan proses kotak hitam, kurang pemahaman proses yang lengkap. Untuk menangani masalah ini, kami memperkenalkan modul interaksi pertanyaan nilai kebenaran, yang menggunakan sasaran nilai kebenaran untuk melaksanakan interaksi ciri BEV modul Dekoder untuk merangsang proses pembelajaran parameter model. Khususnya, kami memperkenalkan output maklumat pengekodan sasaran kebenaran oleh modul pengekod kebenaran () ke dalam Pertanyaan Objek untuk mengambil bahagian dalam proses penyahkodan modul Penyahkod Seperti Pertanyaan Objek biasa, kami mengambil bahagian dalam modul perhatian diri yang sama, modul perhatian silang dan Rangkaian saraf suapan ke hadapan mengeluarkan hasil persepsi akhir. Walau bagaimanapun, perlu diingat bahawa semasa proses penyahkodan, semua Object Query menggunakan pengkomputeran selari untuk mengelakkan kebocoran maklumat sasaran nilai sebenar. Keseluruhan proses interaksi pertanyaan sasaran nilai kebenaran boleh dinyatakan secara abstrak dalam bentuk berikut:

CLIP-BEVFormer: Selia secara eksplisit struktur BEVFormer untuk meningkatkan prestasi pengesanan ekor panjang

Antaranya, dalam formula mewakili Pertanyaan Objek yang dimulakan, dan mewakili hasil output Pertanyaan Objek nilai sebenar melalui modul Dekoder dan kepala pengesanan penderiaan masing-masing. Dengan memperkenalkan proses interaksi sasaran nilai sebenar dalam proses latihan model, modul interaksi pertanyaan sasaran nilai kebenaran yang kami cadangkan boleh merealisasikan interaksi antara pertanyaan sasaran nilai sebenar dan ciri BEV nilai sebenar, dengan itu membantu proses kemas kini parameter bagi modul Penyahkod model.

Hasil eksperimen & penunjuk penilaian

Bahagian analisis kuantitatif

Untuk mengesahkan keberkesanan model algoritma CLIP-BEVFormer yang kami cadangkan, kami melakukan pada set data kesan nuScenes dan panjang persepsi daripada 3D kategori sasaran dalam set data. Eksperimen yang berkaitan telah dijalankan dari perspektif taburan ekor dan keteguhan Jadual berikut menunjukkan perbandingan ketepatan antara model algoritma yang kami cadangkan dan model algoritma persepsi 3D yang lain pada set data nuScenes.

CLIP-BEVFormer: Selia secara eksplisit struktur BEVFormer untuk meningkatkan prestasi pengesanan ekor panjang

Hasil perbandingan antara kaedah yang dicadangkan dalam artikel ini dan model algoritma persepsi lain

Dalam bahagian percubaan ini, kami menilai prestasi persepsi di bawah konfigurasi model yang berbeza Secara khusus, kami menggunakan model algoritma CLIP-BEVFormer Dalam varian kecil dan asas BEVFormer. Selain itu, kami juga meneroka kesan penggunaan model CLIP terlatih atau lapisan MLP sebagai pengekod sasaran kebenaran tanah pada prestasi persepsi model. Ia boleh dilihat daripada keputusan eksperimen bahawa sama ada ia adalah varian kecil atau asas asal, selepas menggunakan algoritma CLIP-BEVFormer yang kami cadangkan, penunjuk NDS dan mAP mempunyai peningkatan prestasi yang stabil. Di samping itu, melalui keputusan percubaan, kita boleh mendapati bahawa model algoritma yang kami cadangkan tidak sensitif sama ada lapisan MLP atau model bahasa dipilih untuk pengekod sasaran kebenaran tanah Kefleksibelan ini boleh menjadikan algoritma CLIP-BEVFormer yang kami cadangkan lebih banyak cekap. Boleh disesuaikan dan mudah dipasang pada kenderaan. Ringkasnya, penunjuk prestasi pelbagai varian model algoritma kami yang dicadangkan secara konsisten menunjukkan bahawa model algoritma CLIP-BEVFormer yang dicadangkan mempunyai keteguhan persepsi yang baik dan boleh mencapai prestasi pengesanan yang cemerlang di bawah kerumitan model dan jumlah parameter yang berbeza.

Selain mengesahkan prestasi cadangan CLIP-BEVFormer kami pada tugas persepsi 3D, kami juga menjalankan eksperimen pengedaran ekor panjang untuk menilai keteguhan dan generalisasi algoritma kami dalam menghadapi kehadiran pengedaran ekor panjang dalam data set. keupayaan isasi, keputusan eksperimen diringkaskan dalam jadual di bawah

CLIP-BEVFormer: Selia secara eksplisit struktur BEVFormer untuk meningkatkan prestasi pengesanan ekor panjang

Prestasi model algoritma CLIP-BEVFormer yang dicadangkan pada masalah ekor panjang

Ia boleh dilihat daripada keputusan eksperimen dalam jadual di atas bahawa Set data nuScenes menunjukkan sejumlah besar kategori Masalah ketidakseimbangan kuantiti ialah beberapa kategori seperti (kenderaan pembinaan, bas, motosikal, basikal, dll.) mempunyai bahagian yang sangat rendah, tetapi bahagian kereta adalah sangat tinggi. Kami menilai prestasi persepsi model algoritma CLIP-BEVFormer yang dicadangkan pada kategori ciri dengan menjalankan eksperimen yang berkaitan dengan pengedaran ekor panjang, dengan itu mengesahkan keupayaan pemprosesannya untuk menyelesaikan kategori yang kurang biasa. Ia boleh dilihat daripada data percubaan di atas bahawa model algoritma CLIP-BEVFormer yang dicadangkan telah mencapai peningkatan prestasi dalam semua kategori, dan dalam kategori yang menyumbang bahagian yang sangat kecil, model algoritma CLIP-BEVFormer telah menunjukkan peningkatan prestasi substantif yang jelas.

Memandangkan sistem pemanduan autonomi dalam persekitaran sebenar perlu menghadapi masalah seperti kegagalan perkakasan, keadaan cuaca yang teruk atau kegagalan sensor yang mudah disebabkan oleh halangan buatan manusia, kami selanjutnya mengesahkan secara eksperimen kekukuhan model algoritma yang dicadangkan. Khususnya, untuk mensimulasikan masalah kegagalan penderia, kami menyekat kamera kamera secara rawak semasa proses inferens pelaksanaan model, untuk mensimulasikan pemandangan di mana kamera mungkin gagal. Keputusan percubaan yang berkaitan ditunjukkan dalam jadual di bawah

CLIP-BEVFormer: Selia secara eksplisit struktur BEVFormer untuk meningkatkan prestasi pengesanan ekor panjang Hasil percubaan kekukuhan model algoritma CLIP-BEVFormer yang dicadangkan

Dapat dilihat daripada keputusan eksperimen bahawa model algoritma CLIP-BEVFormer yang kami cadangkan sentiasa lebih baik daripada BEVFormer tanpa mengira konfigurasi parameter model kecil atau asas model dengan konfigurasi yang sama mengesahkan prestasi unggul dan keteguhan cemerlang model algoritma kami dalam mensimulasikan keadaan kegagalan sensor.

Bahagian analisis kualitatif

Rajah berikut menunjukkan perbandingan visual hasil persepsi model algoritma CLIP-BEVFormer yang dicadangkan dan model algoritma BEVFormer. Dapat dilihat daripada hasil visual bahawa hasil persepsi model algoritma CLIP-BEVFormer yang kami cadangkan adalah lebih dekat dengan sasaran nilai sebenar, menunjukkan keberkesanan modul penjanaan ciri BEV nilai sebenar dan modul interaksi pertanyaan sasaran nilai sebenar yang kami cadangkan. .

CLIP-BEVFormer: Selia secara eksplisit struktur BEVFormer untuk meningkatkan prestasi pengesanan ekor panjang

Perbandingan visual hasil persepsi model algoritma CLIP-BEVFormer yang dicadangkan dan model algoritma BEVFormer

Kesimpulan

Dalam artikel ini, algoritma BEVFormer asal memfokuskan kepada kekurangan penyeliaan penjanaan paparan dalam proses penjanaan Peta ciri BEV Serta ketidakpastian pertanyaan interaktif antara Pertanyaan Objek dan ciri BEV dalam modul Penyahkod, kami mencadangkan model algoritma CLIP-BEVFormer dan menjalankan eksperimen dari aspek prestasi persepsi 3D model algoritma, sasaran pengedaran ekor panjang , dan keteguhan kepada kegagalan sensor , Sebilangan besar keputusan percubaan menunjukkan keberkesanan model algoritma CLIP-BEVFormer kami.

Atas ialah kandungan terperinci CLIP-BEVFormer: Selia secara eksplisit struktur BEVFormer untuk meningkatkan prestasi pengesanan ekor panjang. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Tunjukkan Lagi

Artikel Panas

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

3 minggu yang lalu By DDD

Bagaimana untuk memperbaiki KB5055523 gagal dipasang di Windows 11?

2 minggu yang lalu By DDD

Inzoi: Cara Memohon ke Sekolah dan Universiti

4 minggu yang lalu By DDD

Bagaimana untuk memperbaiki KB5055518 gagal dipasang di Windows 10?

2 minggu yang lalu By DDD

Roblox: Rails Dead - Cara Memanggil dan Mengalahkan Nikola Tesla

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7847

Tutorial Java

1649

Tutorial CakePHP

1403

Tutorial Laravel

1300

Tutorial PHP

1241

Tunjukkan Lagi

Related knowledge

Pilih kamera atau lidar? Kajian terbaru tentang mencapai pengesanan objek 3D yang mantap Jan 26, 2024 am 11:18 AM

0. Ditulis di hadapan&& Pemahaman peribadi bahawa sistem pemanduan autonomi bergantung pada persepsi lanjutan, membuat keputusan dan teknologi kawalan, dengan menggunakan pelbagai penderia (seperti kamera, lidar, radar, dll.) untuk melihat persekitaran sekeliling dan menggunakan algoritma dan model untuk analisis masa nyata dan membuat keputusan. Ini membolehkan kenderaan mengenali papan tanda jalan, mengesan dan menjejaki kenderaan lain, meramalkan tingkah laku pejalan kaki, dsb., dengan itu selamat beroperasi dan menyesuaikan diri dengan persekitaran trafik yang kompleks. Teknologi ini kini menarik perhatian meluas dan dianggap sebagai kawasan pembangunan penting dalam pengangkutan masa depan satu. Tetapi apa yang menyukarkan pemanduan autonomi ialah memikirkan cara membuat kereta itu memahami perkara yang berlaku di sekelilingnya. Ini memerlukan algoritma pengesanan objek tiga dimensi dalam sistem pemanduan autonomi boleh melihat dan menerangkan dengan tepat objek dalam persekitaran sekeliling, termasuk lokasinya,

CLIP-BEVFormer: Selia secara eksplisit struktur BEVFormer untuk meningkatkan prestasi pengesanan ekor panjang Mar 26, 2024 pm 12:41 PM

Ditulis di atas & pemahaman peribadi penulis: Pada masa ini, dalam keseluruhan sistem pemanduan autonomi, modul persepsi memainkan peranan penting Hanya selepas kenderaan pemanduan autonomi yang memandu di jalan raya memperoleh keputusan persepsi yang tepat melalui modul persepsi boleh Peraturan hiliran dan. modul kawalan dalam sistem pemanduan autonomi membuat pertimbangan dan keputusan tingkah laku yang tepat pada masanya dan betul. Pada masa ini, kereta dengan fungsi pemanduan autonomi biasanya dilengkapi dengan pelbagai penderia maklumat data termasuk penderia kamera pandangan sekeliling, penderia lidar dan penderia radar gelombang milimeter untuk mengumpul maklumat dalam modaliti yang berbeza untuk mencapai tugas persepsi yang tepat. Algoritma persepsi BEV berdasarkan penglihatan tulen digemari oleh industri kerana kos perkakasannya yang rendah dan penggunaan mudah, dan hasil keluarannya boleh digunakan dengan mudah untuk pelbagai tugas hiliran.

Melaksanakan Algoritma Pembelajaran Mesin dalam C++: Cabaran dan Penyelesaian Biasa Jun 03, 2024 pm 01:25 PM

Cabaran biasa yang dihadapi oleh algoritma pembelajaran mesin dalam C++ termasuk pengurusan memori, multi-threading, pengoptimuman prestasi dan kebolehselenggaraan. Penyelesaian termasuk menggunakan penunjuk pintar, perpustakaan benang moden, arahan SIMD dan perpustakaan pihak ketiga, serta mengikuti garis panduan gaya pengekodan dan menggunakan alat automasi. Kes praktikal menunjukkan cara menggunakan perpustakaan Eigen untuk melaksanakan algoritma regresi linear, mengurus memori dengan berkesan dan menggunakan operasi matriks berprestasi tinggi.

Terokai prinsip asas dan pemilihan algoritma bagi fungsi isihan C++ Apr 02, 2024 pm 05:36 PM

Lapisan bawah fungsi C++ sort menggunakan isihan gabungan, kerumitannya ialah O(nlogn), dan menyediakan pilihan algoritma pengisihan yang berbeza, termasuk isihan pantas, isihan timbunan dan isihan stabil.

$Yang terbaru dari Universiti Oxford! Mickey: Padanan imej 2D dalam SOTA 3D! (CVPR\'24)$ Yang terbaru dari Universiti Oxford! Mickey: Padanan imej 2D dalam SOTA 3D! (CVPR\'24) Apr 23, 2024 pm 01:20 PM

Pautan projek ditulis di hadapan: https://nianticlabs.github.io/mickey/ Memandangkan dua gambar, pose kamera di antara mereka boleh dianggarkan dengan mewujudkan kesesuaian antara gambar. Biasanya, surat-menyurat ini adalah 2D hingga 2D, dan anggaran pose kami adalah skala-tak tentu. Sesetengah aplikasi, seperti realiti tambahan segera pada bila-bila masa, di mana-mana sahaja, memerlukan anggaran pose metrik skala, jadi mereka bergantung pada penganggar kedalaman luaran untuk memulihkan skala. Makalah ini mencadangkan MicKey, proses pemadanan titik utama yang mampu meramalkan korespondensi metrik dalam ruang kamera 3D. Dengan mempelajari padanan koordinat 3D merentas imej, kami dapat membuat kesimpulan relatif metrik

Bolehkah kecerdasan buatan meramalkan jenayah? Terokai keupayaan CrimeGPT Mar 22, 2024 pm 10:10 PM

Konvergensi kecerdasan buatan (AI) dan penguatkuasaan undang-undang membuka kemungkinan baharu untuk pencegahan dan pengesanan jenayah. Keupayaan ramalan kecerdasan buatan digunakan secara meluas dalam sistem seperti CrimeGPT (Teknologi Ramalan Jenayah) untuk meramal aktiviti jenayah. Artikel ini meneroka potensi kecerdasan buatan dalam ramalan jenayah, aplikasi semasanya, cabaran yang dihadapinya dan kemungkinan implikasi etika teknologi tersebut. Kecerdasan Buatan dan Ramalan Jenayah: Asas CrimeGPT menggunakan algoritma pembelajaran mesin untuk menganalisis set data yang besar, mengenal pasti corak yang boleh meramalkan di mana dan bila jenayah mungkin berlaku. Set data ini termasuk statistik jenayah sejarah, maklumat demografi, penunjuk ekonomi, corak cuaca dan banyak lagi. Dengan mengenal pasti trend yang mungkin terlepas oleh penganalisis manusia, kecerdasan buatan boleh memperkasakan agensi penguatkuasaan undang-undang

LLM sudah selesai! OmniDrive: Mengintegrasikan persepsi 3D dan perancangan penaakulan (terbaharu NVIDIA) May 09, 2024 pm 04:55 PM

Ditulis di atas & pemahaman peribadi pengarang: Kertas kerja ini didedikasikan untuk menyelesaikan cabaran utama model bahasa besar multimodal semasa (MLLM) dalam aplikasi pemanduan autonomi, iaitu masalah melanjutkan MLLM daripada pemahaman 2D kepada ruang 3D. Peluasan ini amat penting kerana kenderaan autonomi (AV) perlu membuat keputusan yang tepat tentang persekitaran 3D. Pemahaman spatial 3D adalah penting untuk AV kerana ia memberi kesan langsung kepada keupayaan kenderaan untuk membuat keputusan termaklum, meramalkan keadaan masa depan dan berinteraksi dengan selamat dengan alam sekitar. Model bahasa besar berbilang mod semasa (seperti LLaVA-1.5) selalunya hanya boleh mengendalikan input imej resolusi rendah (cth.) disebabkan oleh had resolusi pengekod visual, had panjang jujukan LLM. Walau bagaimanapun, aplikasi pemanduan autonomi memerlukan

Algoritma pengesanan yang dipertingkatkan: untuk pengesanan sasaran dalam imej penderiaan jauh optik resolusi tinggi Jun 06, 2024 pm 12:33 PM

01Garis prospek Pada masa ini, sukar untuk mencapai keseimbangan yang sesuai antara kecekapan pengesanan dan hasil pengesanan. Kami telah membangunkan algoritma YOLOv5 yang dipertingkatkan untuk pengesanan sasaran dalam imej penderiaan jauh optik resolusi tinggi, menggunakan piramid ciri berbilang lapisan, strategi kepala pengesanan berbilang dan modul perhatian hibrid untuk meningkatkan kesan rangkaian pengesanan sasaran dalam imej penderiaan jauh optik. Menurut set data SIMD, peta algoritma baharu adalah 2.2% lebih baik daripada YOLOv5 dan 8.48% lebih baik daripada YOLOX, mencapai keseimbangan yang lebih baik antara hasil pengesanan dan kelajuan. 02 Latar Belakang & Motivasi Dengan perkembangan pesat teknologi penderiaan jauh, imej penderiaan jauh optik resolusi tinggi telah digunakan untuk menggambarkan banyak objek di permukaan bumi, termasuk pesawat, kereta, bangunan, dll. Pengesanan objek dalam tafsiran imej penderiaan jauh

See all articles