


Tambah SOTA dalam masa nyata dan meroket! FastOcc: Inferens yang lebih pantas dan algoritma Occ mesra penggunaan sudah tersedia!
Ditulis di atas & pemahaman peribadi pengarang
Dalam sistem pemanduan autonomi, tugas persepsi adalah komponen penting dalam keseluruhan sistem pemanduan autonomi. Matlamat utama tugas persepsi adalah untuk membolehkan kenderaan autonomi memahami dan melihat elemen persekitaran sekeliling, seperti kenderaan yang memandu di jalan raya, pejalan kaki di tepi jalan, halangan yang dihadapi semasa memandu, tanda lalu lintas di jalan raya, dan sebagainya, dengan itu membantu hiliran. modul Membuat keputusan dan tindakan yang betul dan munasabah. Kenderaan dengan keupayaan pandu sendiri biasanya dilengkapi dengan pelbagai jenis penderia pengumpulan maklumat, seperti penderia kamera pandangan sekeliling, penderia lidar, penderia radar gelombang milimeter, dsb., untuk memastikan kenderaan pandu sendiri itu dapat melihat dengan tepat dan memahami elemen persekitaran sekeliling , membolehkan kenderaan autonomi membuat keputusan yang betul semasa pemanduan autonomi.
Pada masa ini, kaedah persepsi visual berasaskan imej tulen mempunyai kos perkakasan dan kos penggunaan yang lebih rendah berbanding algoritma persepsi berasaskan lidar, dan oleh itu telah mendapat perhatian meluas daripada industri dan akademia. Banyak algoritma persepsi visual yang sangat baik telah muncul untuk mencapai tugas persepsi objek 3D dan tugas pembahagian semantik dalam adegan BEV. Walaupun algoritma persepsi sasaran 3D sedia ada telah mencapai kemajuan yang ketara dalam prestasi pengesanan, masih terdapat beberapa masalah yang didedahkan secara beransur-ansur dalam aplikasi praktikal:
- Algoritma persepsi sasaran 3D asal tidak dapat menyelesaikan masalah yang wujud dalam set data Masalah ekor panjang , serta objek yang wujud di dunia nyata tetapi mungkin tidak dilabelkan dalam set data latihan semasa (seperti batu besar di jalan raya, kenderaan terbalik, dll.)
- Algoritma persepsi objek 3D asal biasanya mengeluarkan secara langsung 3D kasar kotak sempadan stereoskopik tidak dapat menerangkan dengan tepat objek sasaran berbentuk arbitrari, dan ekspresi bentuk objek dan struktur geometri tidak cukup halus. Walaupun kotak hasil keluaran ini boleh memenuhi kebanyakan pemandangan objek, contohnya, bas bersambung atau kenderaan pembinaan dengan cangkuk panjang, algoritma persepsi 3D semasa tidak dapat memberikan penerangan yang tepat dan jelas
Berdasarkan perkara di atas Berkenaan isu berkaitan yang dinyatakan, grid algoritma penderiaan rangkaian penghunian (Occupancy Network) telah dicadangkan. Pada asasnya, algoritma persepsi Rangkaian Occupancy ialah tugas pembahagian semantik berdasarkan adegan spatial 3D. Algoritma persepsi Rangkaian Penghuni berdasarkan penglihatan tulen akan membahagikan ruang 3D semasa kepada grid voxel 3D, dan menghantar imej sekeliling yang dikumpul kepada model rangkaian melalui sensor kamera sekeliling yang dilengkapi pada kenderaan autonomi Selepas model algoritma Pemprosesan dan ramalan, output status penghunian setiap grid voxel 3D dalam ruang semasa dan kategori semantik sasaran yang mungkin, dengan itu mencapai persepsi menyeluruh tentang pemandangan ruang 3D semasa.
Dalam beberapa tahun kebelakangan ini, algoritma persepsi berdasarkan Rangkaian Occupancy telah mendapat perhatian yang meluas daripada penyelidik kerana kelebihan persepsi yang lebih baik Pada masa ini, banyak karya cemerlang telah muncul untuk meningkatkan prestasi pengesanan jenis algoritma ini hala tuju idea adalah untuk mencadangkan kaedah pengekstrakan ciri yang lebih mantap, kaedah transformasi koordinat daripada ciri 2D kepada ciri 3D, reka bentuk struktur rangkaian yang lebih kompleks dan cara menjana anotasi kebenaran tanah Penghuni dengan lebih tepat untuk membantu pembelajaran model, dsb. Walau bagaimanapun, banyak kaedah persepsi Rangkaian Pendudukan sedia ada mempunyai overhed pengiraan yang serius dalam proses ramalan dan inferens model, menjadikannya sukar bagi algoritma ini untuk memenuhi keperluan persepsi masa nyata untuk pemanduan autonomi dan sukar digunakan dalam kenderaan.
Kami mencadangkan kaedah ramalan Rangkaian Penghuni yang inovatif Berbanding dengan algoritma persepsi terkemuka semasa, algoritma FastOcc kami mempunyai kelajuan inferens masa nyata dan prestasi pengesanan yang sangat baik. Angka berikut boleh membandingkan secara visual perbezaan dalam prestasi dan kelajuan inferens antara algoritma cadangan kami dan algoritma lain.
Perbandingan ketepatan dan kelajuan inferens antara algoritma FastOcc dan algoritma SOTA lain
Pautan kertas: https://arxiv.org/pdf/2403.02710.pdf
Secara keseluruhan seni bina & butiran model rangkaian
untuk meningkatkan Pendudukan Untuk kelajuan inferens algoritma Persepsi Rangkaian, kami menjalankan eksperimen daripada empat bahagian: resolusi imej input, rangkaian tulang belakang pengekstrakan ciri, kaedah penukaran perspektif dan struktur kepala ramalan grid hasil eksperimen, kami mendapati bahawa struktur tiga dimensi kepala ramalan grid Konvolusi atau penyahkonvolusi mempunyai banyak ruang pengoptimuman yang memakan masa. Berdasarkan ini, kami mereka bentuk struktur rangkaian algoritma FastOcc, seperti yang ditunjukkan dalam rajah di bawah.Gambar rajah struktur rangkaian algoritma FastOcc
Pengekstrakan Ciri Imej untuk pengekstrakan ciri berskala, Lihat Transformasi untuk penukaran perspektif, Didik Kepala, mencapai output persepsi, kami akan memperkenalkan butiran ketiga-tiga bahagian ini secara berasingan.
Pengeluaran Ciri Imej
Untuk algoritma FastOcc yang dicadangkan, input rangkaian masih merupakan imej sekeliling yang dikumpul Di sini kami menggunakan struktur rangkaian ResNet untuk melengkapkan proses pengekstrakan ciri imej sekeliling. Pada masa yang sama, kami juga menggunakan struktur piramid ciri FPN untuk mengagregat keluaran ciri imej berskala oleh rangkaian tulang belakang. Untuk kemudahan ungkapan seterusnya, di sini kami mewakili imej input sebagai , dan ciri selepas pengekstrakan ciri sebagai .
Lihat Transformasi
Fungsi utama modul transformasi pandangan adalah untuk melengkapkan proses penukaran ciri imej 2D kepada ciri ruang 3D Pada masa yang sama, untuk mengurangkan kos model algoritma, biasanya ciri ditukar kepada ruang 3D akan menjadi Ungkapan kasar, di sini untuk kemudahan ekspresi, kami menandakan ciri yang ditukar kepada ruang 3D sebagai, di mana mewakili dimensi vektor ciri terbenam dan mewakili panjang, lebar dan ketinggian ruang persepsi. Antara algoritma persepsi semasa, proses penukaran perspektif arus perdana merangkumi dua kategori:
- Kategori pertama ialah kaedah transformasi koordinat ke belakang yang diwakili oleh BEVFormer. Kaedah jenis ini biasanya menjana pertanyaan voxel dalam ruang 3D dahulu, dan kemudian menggunakan Cross-view Attention untuk berinteraksi dengan pertanyaan voxel dalam ruang 3D dan ciri imej 2D untuk melengkapkan pembinaan ciri voxel 3D terakhir.
- Satu jenis ialah kaedah transformasi koordinat Hadapan yang diwakili oleh LSS. Kaedah jenis ini akan menggunakan rangkaian anggaran kedalaman dalam rangkaian untuk menganggarkan maklumat ciri semantik secara serentak dan kebarangkalian kedalaman diskret bagi setiap kedudukan piksel ciri, membina ciri frustum semantik melalui operasi produk luar, dan akhirnya menggunakan lapisan VoxelPooling untuk mencapai ciri voxel 3D akhir pembinaan.
Memandangkan algoritma LSS mempunyai kelajuan dan kecekapan penaakulan yang lebih baik, dalam artikel ini, kami menggunakan algoritma LSS sebagai modul penukaran perspektif kami. Pada masa yang sama, memandangkan kedalaman diskret setiap kedudukan piksel dianggarkan, ketidakpastiannya akan menyekat prestasi persepsi akhir model pada tahap tertentu. Oleh itu, dalam pelaksanaan khusus kami, kami menggunakan maklumat awan titik untuk penyeliaan ke arah yang mendalam untuk mencapai hasil persepsi yang lebih baik.
Raster Prediction Head (Occupancy Prediction Head)
Dalam rajah struktur rangkaian yang ditunjukkan di atas, kepala ramalan raster juga mengandungi tiga sub-bahagian, iaitu BEV feature extraction, Imej ciri interpolasi sampling . Seterusnya, kami akan memperkenalkan perincian kaedah tiga bahagian satu demi satu.
Ekstraksi ciri BEV
Pada masa ini, kebanyakan algoritma Rangkaian Pendudukan memproses ciri voxel 3D yang diperolehi oleh modul penukaran perspektif. Bentuk pemprosesan secara amnya adalah rangkaian konvolusi penuh tiga dimensi. Khususnya, untuk mana-mana lapisan rangkaian konvolusi penuh tiga dimensi, jumlah pengiraan yang diperlukan untuk menggabungkan ciri voxel tiga dimensi input adalah seperti berikut: di mana, dan mewakili bilangan saluran ciri input dan ciri output masing-masing, dan mewakili saiz ruang peta Ciri. Berbanding dengan memproses ciri voxel secara langsung dalam ruang 3D, kami menggunakan modul konvolusi ciri 2D BEV yang ringan. Khususnya, untuk ciri voxel keluaran modul penukaran perspektif, kami mula-mula menggabungkan maklumat ketinggian dan ciri semantik untuk mendapatkan ciri BEV 2D, dan kemudian menggunakan rangkaian konvolusi sepenuhnya 2D untuk melakukan pengekstrakan ciri untuk mendapatkan ciri BEV ini proses Jumlah pengiraan proses boleh dinyatakan dalam bentuk berikutMembandingkan jumlah pengiraan proses pemprosesan 3D dan 2D, dapat dilihat bahawa dengan menggunakan modul konvolusi ciri 2D BEV yang ringan untuk menggantikan pengekstrakan ciri voxel 3D asal , ia boleh dikurangkan dengan banyak Jumlah pengiraan model. Pada masa yang sama, carta alir visual kedua-dua jenis pemprosesan ditunjukkan dalam rajah di bawah:Pensampelan interpolasi ciri imej
Untuk mengurangkan jumlah pengiraan modul kepala ramalan raster , kami memampatkan ketinggian output ciri voxel 3D oleh modul penukaran perspektif, dan menggunakan modul lilitan BEV 2D untuk pengekstrakan ciri. Walau bagaimanapun, untuk meningkatkan maklumat ciri ketinggian paksi Z yang hilang dan mematuhi idea untuk mengurangkan jumlah pengiraan model, kami mencadangkan kaedah pensampelan interpolasi ciri imej. Secara khusus, kami mula-mula menetapkan ruang voxel tiga dimensi yang sepadan mengikut julat yang perlu dirasai, dan menetapkannya kepada sistem koordinat ego, yang dilambangkan sebagai . Kedua, matriks transformasi koordinat ekstrinsik dan intrinsik kamera digunakan untuk menayangkan titik koordinat dalam sistem koordinat ego kepada sistem koordinat imej, yang digunakan untuk mengekstrak ciri imej pada kedudukan yang sepadan. Antaranya, dan mewakili matriks transformasi koordinat intrinsik dan ekstrinsik kamera masing-masing, mewakili kedudukan titik spatial dalam sistem koordinat ego yang diunjurkan ke sistem koordinat imej. Selepas mendapatkan koordinat imej yang sepadan, kami menapis titik koordinat yang melebihi julat imej atau mempunyai kedalaman negatif. Kemudian, kami menggunakan operasi interpolasi bilinear untuk mendapatkan ciri semantik imej yang sepadan mengikut kedudukan koordinat yang diunjurkan, dan purata ciri yang dikumpul daripada semua imej kamera untuk mendapatkan hasil pensampelan interpolasi akhir.Penyepaduan ciri
Untuk menyepadukan ciri BEV planar yang diperolehi dengan ciri voxel 3D yang diperoleh melalui pensampelan interpolasi, kami mula-mula menggunakan operasi pensampelan untuk menyelaraskan dimensi ruang ciri BEV dan dimensi ruang ciri voxel 3D , dan Operasi ulangan dilakukan sepanjang arah paksi Z, dan ciri yang diperoleh selepas operasi direkodkan sebagai . Kemudian kami menggabungkan ciri yang diperolehi melalui pensampelan interpolasi ciri imej dan menyepadukannya melalui lapisan konvolusi untuk mendapatkan ciri voxel akhir.
Proses keseluruhan pensampelan interpolasi ciri imej dan integrasi ciri yang dinyatakan di atas boleh diwakili oleh rajah berikut:
Pensampelan interpolasi ciri imej dan proses integrasi ciri
Selain itu, untuk memastikan lagi ciri BEV modul pengekstrakan Ciri-ciri BEV keluaran mengandungi maklumat ciri yang mencukupi untuk melengkapkan proses persepsi seterusnya Kami menggunakan kaedah penyeliaan tambahan, iaitu, menggunakan kepala pembahagian semantik untuk melaksanakan tugas pembahagian semantik terlebih dahulu, dan menggunakan nilai sebenar Penghunian untuk membina. segmentasi semantik. Label kebenaran melengkapkan keseluruhan proses penyeliaan. Petunjuk Hasil & Penilaian Ekspretental Analisis Quaitatif Bahagian, kami akan menunjukkan perbandingan antara algoritma FASTOCC yang dicadangkan dan algoritma SOTA yang lain pada set data OCC3D-Nuscenes. dalam jadual di bawah Menunjukkan
Perbandingan setiap indeks algoritma pada set data Occ3D-nuScenes
Ia boleh dilihat daripada keputusan dalam jadual yang berbanding dengan algoritma lain, algoritma FastOcc yang kami cadangkan mempunyai prestasi yang lebih baik dalam kebanyakan kategori daripada algoritma lain Semua mempunyai lebih banyak kelebihan, dan penunjuk mIoU keseluruhan juga mencapai kesan SOTA.
Selain itu, kami juga membandingkan kesan kaedah penukaran perspektif yang berbeza dan modul ciri penyahkodan yang digunakan dalam kepala ramalan raster pada prestasi persepsi dan masa penaakulan (data eksperimen adalah berdasarkan resolusi imej input 640 × 1600, tulang belakang rangkaian menggunakan rangkaian ResNet-101), keputusan percubaan yang berkaitan dibandingkan seperti yang ditunjukkan dalam jadual di bawahPerbandingan keupayaan model di bawah rangkaian tulang belakang yang berbeza dan konfigurasi resolusi
Bahagian analisis kualitatif
Rajah berikut menunjukkan perbandingan hasil visual kami model algoritma FastOcc yang dicadangkan dan model algoritma SurroundOcc Daripada situasi ini, dapat dilihat dengan jelas bahawa model algoritma FastOcc yang dicadangkan mengisi elemen persekitaran sekeliling dengan cara yang lebih munasabah, dan mencapai persepsi yang lebih tepat tentang memandu kenderaan dan pokok.Kesimpulan
Dalam artikel ini, kami mencadangkan model algoritma FastOcc untuk menyelesaikan masalah yang model algoritma Occupancy Network sedia ada mengambil masa yang lama untuk dikesan dan sukar untuk digunakan pada kenderaan. Dengan menggantikan modul lilitan 3D asal yang memproses voxel 3D dengan lilitan 2D, masa penaakulan sangat dipendekkan, dan berbanding dengan algoritma lain, keputusan persepsi SOTA dicapai.
Atas ialah kandungan terperinci Tambah SOTA dalam masa nyata dan meroket! FastOcc: Inferens yang lebih pantas dan algoritma Occ mesra penggunaan sudah tersedia!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Prestasi i77700 adalah mencukupi untuk menjalankan win11, tetapi pengguna mendapati bahawa i77700 mereka tidak boleh dinaik taraf kepada win11 Ini terutamanya disebabkan oleh sekatan yang dikenakan oleh Microsoft, jadi mereka boleh memasangnya selagi mereka melangkau sekatan ini. i77700 tidak boleh dinaik taraf kepada win11: 1. Kerana Microsoft mengehadkan versi CPU. 2. Hanya Intel generasi kelapan dan versi ke atas boleh terus menaik taraf kepada win11 3. Sebagai generasi ke-7, i77700 tidak dapat memenuhi keperluan naik taraf win11. 4. Walau bagaimanapun, i77700 benar-benar mampu menggunakan win11 dengan lancar dari segi prestasi. 5. Jadi anda boleh menggunakan sistem pemasangan langsung win11 laman web ini. 6. Selepas muat turun selesai, klik kanan fail dan "muat"nya. 7. Klik dua kali untuk menjalankan "Satu klik

Ditulis di atas & pemahaman peribadi penulis: Pada masa ini, dalam keseluruhan sistem pemanduan autonomi, modul persepsi memainkan peranan penting Hanya selepas kenderaan pemanduan autonomi yang memandu di jalan raya memperoleh keputusan persepsi yang tepat melalui modul persepsi boleh Peraturan hiliran dan. modul kawalan dalam sistem pemanduan autonomi membuat pertimbangan dan keputusan tingkah laku yang tepat pada masanya dan betul. Pada masa ini, kereta dengan fungsi pemanduan autonomi biasanya dilengkapi dengan pelbagai penderia maklumat data termasuk penderia kamera pandangan sekeliling, penderia lidar dan penderia radar gelombang milimeter untuk mengumpul maklumat dalam modaliti yang berbeza untuk mencapai tugas persepsi yang tepat. Algoritma persepsi BEV berdasarkan penglihatan tulen digemari oleh industri kerana kos perkakasannya yang rendah dan penggunaan mudah, dan hasil keluarannya boleh digunakan dengan mudah untuk pelbagai tugas hiliran.

Cabaran biasa yang dihadapi oleh algoritma pembelajaran mesin dalam C++ termasuk pengurusan memori, multi-threading, pengoptimuman prestasi dan kebolehselenggaraan. Penyelesaian termasuk menggunakan penunjuk pintar, perpustakaan benang moden, arahan SIMD dan perpustakaan pihak ketiga, serta mengikuti garis panduan gaya pengekodan dan menggunakan alat automasi. Kes praktikal menunjukkan cara menggunakan perpustakaan Eigen untuk melaksanakan algoritma regresi linear, mengurus memori dengan berkesan dan menggunakan operasi matriks berprestasi tinggi.

Hari ini saya ingin memperkenalkan kepada anda artikel yang diterbitkan oleh MIT minggu lepas, menggunakan GPT-3.5-turbo untuk menyelesaikan masalah pengesanan anomali siri masa, dan pada mulanya mengesahkan keberkesanan LLM dalam pengesanan anomali siri masa. Tiada penalaan dalam keseluruhan proses, dan GPT-3.5-turbo digunakan secara langsung untuk pengesanan anomali Inti artikel ini ialah cara menukar siri masa kepada input yang boleh dikenali oleh GPT-3.5-turbo, dan cara mereka bentuk. gesaan atau saluran paip untuk membenarkan LLM menyelesaikan tugas pengesanan anomali. Izinkan saya memperkenalkan karya ini kepada anda secara terperinci. Tajuk kertas imej: Largelanguagemodelscanbezero-shotanomalydete

Lapisan bawah fungsi C++ sort menggunakan isihan gabungan, kerumitannya ialah O(nlogn), dan menyediakan pilihan algoritma pengisihan yang berbeza, termasuk isihan pantas, isihan timbunan dan isihan stabil.

Konvergensi kecerdasan buatan (AI) dan penguatkuasaan undang-undang membuka kemungkinan baharu untuk pencegahan dan pengesanan jenayah. Keupayaan ramalan kecerdasan buatan digunakan secara meluas dalam sistem seperti CrimeGPT (Teknologi Ramalan Jenayah) untuk meramal aktiviti jenayah. Artikel ini meneroka potensi kecerdasan buatan dalam ramalan jenayah, aplikasi semasanya, cabaran yang dihadapinya dan kemungkinan implikasi etika teknologi tersebut. Kecerdasan Buatan dan Ramalan Jenayah: Asas CrimeGPT menggunakan algoritma pembelajaran mesin untuk menganalisis set data yang besar, mengenal pasti corak yang boleh meramalkan di mana dan bila jenayah mungkin berlaku. Set data ini termasuk statistik jenayah sejarah, maklumat demografi, penunjuk ekonomi, corak cuaca dan banyak lagi. Dengan mengenal pasti trend yang mungkin terlepas oleh penganalisis manusia, kecerdasan buatan boleh memperkasakan agensi penguatkuasaan undang-undang

01Garis prospek Pada masa ini, sukar untuk mencapai keseimbangan yang sesuai antara kecekapan pengesanan dan hasil pengesanan. Kami telah membangunkan algoritma YOLOv5 yang dipertingkatkan untuk pengesanan sasaran dalam imej penderiaan jauh optik resolusi tinggi, menggunakan piramid ciri berbilang lapisan, strategi kepala pengesanan berbilang dan modul perhatian hibrid untuk meningkatkan kesan rangkaian pengesanan sasaran dalam imej penderiaan jauh optik. Menurut set data SIMD, peta algoritma baharu adalah 2.2% lebih baik daripada YOLOv5 dan 8.48% lebih baik daripada YOLOX, mencapai keseimbangan yang lebih baik antara hasil pengesanan dan kelajuan. 02 Latar Belakang & Motivasi Dengan perkembangan pesat teknologi penderiaan jauh, imej penderiaan jauh optik resolusi tinggi telah digunakan untuk menggambarkan banyak objek di permukaan bumi, termasuk pesawat, kereta, bangunan, dll. Pengesanan objek dalam tafsiran imej penderiaan jauh

1. Latar Belakang Pembinaan 58 Portrait Platform Pertama sekali, saya ingin berkongsi dengan anda latar belakang pembinaan 58 Portrait Platform. 1. Pemikiran tradisional platform pemprofilan tradisional tidak lagi mencukupi Membina platform pemprofilan pengguna bergantung pada keupayaan pemodelan gudang data untuk menyepadukan data daripada pelbagai barisan perniagaan untuk membina potret pengguna yang tepat untuk memahami tingkah laku, minat pengguna dan keperluan, dan menyediakan keupayaan sampingan, akhirnya, ia juga perlu mempunyai keupayaan platform data untuk menyimpan, bertanya dan berkongsi data profil pengguna dan menyediakan perkhidmatan profil dengan cekap. Perbezaan utama antara platform pemprofilan perniagaan binaan sendiri dan platform pemprofilan pejabat pertengahan ialah platform pemprofilan binaan sendiri menyediakan satu barisan perniagaan dan boleh disesuaikan atas permintaan platform pertengahan pejabat berkhidmat berbilang barisan perniagaan, mempunyai kompleks pemodelan, dan menyediakan lebih banyak keupayaan umum. 2.58 Potret pengguna latar belakang pembinaan potret di platform tengah 58
