


AAAI2024: Far3D - Idea inovatif untuk secara langsung mencapai pengesanan sasaran 3D visual 150m
Saya baru-baru ini membaca penyelidikan terkini tentang persepsi keliling visual tulen pada Arxiv Penyelidikan ini berdasarkan siri kaedah PETR dan memfokuskan pada menyelesaikan masalah persepsi visual tulen pengesanan sasaran jarak jauh, memanjangkan julat persepsi kepada 150 meter. Kaedah dan keputusan kertas ini mempunyai nilai rujukan yang hebat untuk kami, jadi saya cuba mentafsirkannya
Tajuk asal: Far3D: Expanding the Horizon for Surround-view 3D Object Detection
Pautan kertas: https:/ /arxiv.org/abs /2308.09616
Gabungan pengarang: Institut Teknologi Beijing & Teknologi Megvii
Latar belakang tugas
Pengesanan objek tiga dimensi memainkan peranan penting dalam memahami ciri-ciri pemanduan tiga dimensi, prese dan presenya. mencari dan mengelaskan objek di sekeliling kenderaan. Kaedah persepsi keliling visual tulen mempunyai kelebihan kos rendah dan kebolehgunaan luas, dan telah mencapai kemajuan yang ketara. Walau bagaimanapun, kebanyakannya menumpukan pada penderiaan jarak dekat (contohnya, jarak penderiaan nuScenes adalah kira-kira 50 meter), dan medan pengesanan jarak jauh kurang diterokai. Mengesan objek jauh adalah penting untuk mengekalkan jarak selamat semasa pemanduan sebenar, terutamanya pada kelajuan tinggi atau dalam keadaan jalan yang kompleks.
Baru-baru ini, kemajuan ketara telah dicapai dalam pengesanan objek 3D daripada imej pandangan sekeliling, yang agak murah untuk digunakan. Walau bagaimanapun, kebanyakan kajian tertumpu terutamanya pada julat penderiaan jarak dekat, dan terdapat sedikit kajian tentang pengesanan jarak jauh. Memanjangkan kaedah sedia ada secara langsung untuk meliputi jarak jauh akan menghadapi cabaran seperti kos pengiraan yang tinggi dan penumpuan yang tidak stabil. Untuk menangani batasan ini, kertas kerja ini mencadangkan rangka kerja berasaskan pertanyaan jarang baharu yang dipanggil Far3D.
Idea tesis
Mengikut perwakilan perantaraan, kaedah penderiaan lihat-sekitar yang sedia ada boleh dibahagikan secara kasar kepada dua kategori: kaedah berdasarkan perwakilan BEV dan kaedah berdasarkan perwakilan pertanyaan jarang. Kaedah berdasarkan perwakilan BEV memerlukan jumlah pengiraan yang sangat besar kerana keperluan untuk pengiraan intensif ciri BEV, menjadikannya sukar untuk diperluaskan kepada senario jarak jauh. Kaedah berdasarkan perwakilan pertanyaan jarang akan mempelajari pertanyaan 3D global daripada data latihan, amaun pengiraan agak kecil, dan ia mempunyai kebolehskalaan yang kuat. Walau bagaimanapun, ia juga mempunyai beberapa kelemahan Walaupun ia boleh mengelakkan pertumbuhan persegi bilangan pertanyaan, pertanyaan tetap global tidak mudah untuk menyesuaikan diri dengan adegan dinamik, dan sasaran sering terlepas dalam pengesanan jarak jauh set data, Perbandingan Prestasi 3D antara pengesanan dan pengesanan 2D.
Dalam pengesanan jarak jauh, kaedah berdasarkan perwakilan pertanyaan jarang mempunyai dua cabaran utama.
Pertama ialah prestasi panggil balik yang lemah. Disebabkan oleh pengedaran pertanyaan yang jarang dalam ruang 3D, hanya sebilangan kecil pertanyaan positif yang sepadan boleh dijana dalam julat jarak jauh. Seperti yang ditunjukkan dalam rajah di atas, kadar ingatan semula pengesanan 3D adalah lebih rendah, manakala kadar ingat semula pengesanan 2D sedia ada adalah lebih tinggi, meninggalkan jurang prestasi yang jelas antara kedua-duanya. Oleh itu, menggunakan objek 2D berkualiti tinggi sebelum menambah baik pertanyaan 3D ialah kaedah yang menjanjikan, yang bermanfaat untuk mencapai kedudukan tepat dan liputan objek yang komprehensif.
Kedua, memperkenalkan hasil pengesanan 2D secara langsung untuk membantu pengesanan 3D akan menghadapi masalah penyebaran ralat. Seperti yang ditunjukkan dalam rajah di bawah, dua sumber utama ialah 1) ralat kedudukan objek disebabkan oleh ramalan kedalaman yang tidak tepat 2) ralat kedudukan 3D dalam perubahan frustum meningkat dengan jarak. Pertanyaan bising ini akan menjejaskan kestabilan latihan dan memerlukan kaedah denoising yang berkesan untuk mengoptimumkan. Tambahan pula, semasa latihan, model akan menunjukkan kecenderungan untuk terlalu muat pada objek dekat yang berpenduduk padat sambil mengabaikan objek jauh yang diedarkan jarang.
- Untuk menangani masalah yang dinyatakan di atas, artikel ini menggunakan pelan reka bentuk berikut:
- Selain pertanyaan global 3D yang dipelajari daripada set data, pertanyaan penyesuaian 3D yang dijana daripada hasil pengesanan 2D juga diperkenalkan. Khususnya, pengesan 2D dan rangkaian ramalan kedalaman mula-mula digunakan untuk mendapatkan kotak 2D dan kedalaman yang sepadan, dan kemudian diunjurkan ke dalam ruang 3D melalui transformasi spatial sebagai permulaan pertanyaan penyesuaian 3D.
- Untuk menyesuaikan diri dengan skala objek yang berbeza pada jarak yang berbeza, Aggergation Sedar Perspektif direka bentuk. Ia membolehkan pertanyaan 3D berinteraksi dengan ciri skala yang berbeza, yang bermanfaat untuk menampilkan penangkapan objek pada jarak yang berbeza. Sebagai contoh, objek jauh memerlukan ciri resolusi besar, manakala objek dekat memerlukan ciri yang berbeza. Reka bentuk ini membolehkan model berinteraksi secara adaptif dengan ciri.
- Merangka strategi yang dipanggil Range-modulated 3D Denoising untuk mengurangkan masalah penyebaran ralat pertanyaan dan penumpuan perlahan. Memandangkan kesukaran regresi pertanyaan pada jarak berbeza adalah berbeza, pertanyaan bising dilaraskan mengikut jarak dan skala kotak sebenar. Masukkan berbilang set pertanyaan bising berhampiran GT ke dalam penyahkod untuk membina semula kotak sebenar 3D (untuk sampel positif) dan buang sampel negatif masing-masing.
Sumbangan Utama
- Kertas kerja ini mencadangkan rangka kerja pengesanan berasaskan pertanyaan jarang baharu, yang menggunakan objek 2D berkualiti tinggi sebelum menjana pertanyaan penyesuaian 3D, dengan itu mengembangkan julat persepsi pengesanan 3D.
- Artikel ini mereka bentuk modul Pengagregatan Sedar Perspektif, yang mengagregatkan ciri visual daripada skala dan perspektif yang berbeza, dan strategi Denoising 3D berdasarkan jarak sasaran untuk menyelesaikan masalah penyebaran ralat pertanyaan dan masalah penumpuan rangka kerja.
- Hasil eksperimen pada set data Argoverse 2 jarak jauh menunjukkan bahawa Far3D mengatasi kaedah lihat sekeliling sebelumnya dan mengatasi beberapa kaedah berasaskan lidar. Dan keumumannya disahkan pada set data nuScenes.
Reka bentuk model
Gambaran keseluruhan proses Far3D:
- Masukkan imej sekeliling ke dalam rangkaian tulang belakang dan lapisan FPN, mengekodkan ciri imej 2D dan mengekodkannya dengan parameter kamera.
- Menggunakan pengesan 2D dan rangkaian ramalan kedalaman untuk menjana kotak objek 2D yang boleh dipercayai dan kedalaman sepadannya, yang kemudiannya ditayangkan ke dalam ruang 3D melalui transformasi kamera.
- Pertanyaan penyesuaian 3D yang dijana digabungkan dengan pertanyaan global 3D awal dan diregres secara berulang oleh lapisan penyahkod untuk meramalkan kotak objek 3D. Tambahan pula, model boleh melaksanakan pemodelan siri masa melalui penyebaran pertanyaan jangka panjang.
Penggabungan Sedar Perspektif:
Untuk memperkenalkan ciri berbilang skala kepada model pengesanan jarak jauh, artikel ini menggunakan perhatian boleh ubah bentuk spatial 3D. Ia mula-mula melakukan pensampelan mengimbangi berhampiran kedudukan 3D yang sepadan dengan pertanyaan, dan kemudian mengagregatkan ciri imej melalui transformasi paparan 3D-2D. Kelebihan kaedah ini dan bukannya perhatian global dalam siri PETR ialah kerumitan pengiraan boleh dikurangkan dengan ketara. Khususnya, untuk setiap titik rujukan pertanyaan dalam ruang 3D, model mempelajari offset pensampelan M di sekelilingnya dan menayangkan titik offset ini ke dalam ciri paparan 2D yang berbeza.
Selepas itu, pertanyaan 3D berinteraksi dengan ciri sampel yang diperoleh melalui unjuran. Dengan cara ini, pelbagai ciri daripada perspektif dan skala yang berbeza akan disatukan ke dalam pertanyaan tiga dimensi dengan mempertimbangkan kepentingan relatifnya.
Range-modulated 3D Denoising:
Pertanyaan 3D dengan jarak berbeza mempunyai kesukaran regresi yang berbeza, yang berbeza daripada kaedah Denoising 2D sedia ada (seperti DN-DETR, pertanyaan 2D yang biasanya dilayan sama). Perbezaan dalam kesukaran datang daripada ketumpatan padanan pertanyaan dan penyebaran ralat. Di satu pihak, darjah padanan pertanyaan yang sepadan dengan objek jauh adalah lebih rendah daripada objek berdekatan. Sebaliknya, apabila memperkenalkan prior 2D dalam pertanyaan penyesuaian 3D, ralat kecil dalam kotak objek 2D akan dikuatkan, apatah lagi kesan ini akan meningkat apabila jarak objek meningkat. Oleh itu, beberapa pertanyaan berhampiran kotak GT boleh dianggap sebagai pertanyaan positif, sementara yang lain dengan sisihan yang jelas harus dianggap sebagai pertanyaan negatif. Kertas kerja ini mencadangkan kaedah Denoising 3D yang bertujuan untuk mengoptimumkan sampel positif tersebut dan terus membuang sampel negatif.
Secara khusus, pengarang membina pertanyaan bising berasaskan GT dengan menambahkan kumpulan sampel positif dan negatif secara serentak. Untuk kedua-dua jenis, hingar rawak digunakan berdasarkan lokasi dan saiz objek untuk memudahkan pembelajaran denoising dalam persepsi jarak jauh. Secara khusus, sampel positif ialah titik rawak dalam kotak 3D, manakala sampel negatif mengenakan offset yang lebih besar pada GT, dan julat offset berubah mengikut jarak objek. Kaedah ini boleh mensimulasikan sampel positif dan positif palsu calon yang bising semasa latihan
Hasil eksperimen
Far3D mencapai prestasi tertinggi pada Argoverse 2 dengan julat penderiaan 150m. Dan selepas model dipertingkatkan, ia boleh mencapai prestasi beberapa kaedah berasaskan Lidar, menunjukkan potensi kaedah visual tulen.
Untuk mengesahkan prestasi generalisasi, pengarang juga menjalankan eksperimen pada set data nuScenes, menunjukkan bahawa ia mencapai prestasi SoTA pada kedua-dua set pengesahan dan set ujian.
Selepas eksperimen ablasi, kami sampai pada kesimpulan berikut: pertanyaan penyesuaian 3D, pengagregatan sedar perspektif dan penolakan 3D terlaras julat masing-masing mempunyai keuntungan tertentu
di atas kertas
Apakah kebaharuan artikel ini?
J: Kebaharuan utama adalah untuk menyelesaikan masalah persepsi adegan jarak jauh. Terdapat banyak masalah dalam melanjutkan kaedah sedia ada kepada senario jarak jauh, termasuk kos pengiraan dan kesukaran penumpuan. Penulis kertas ini mencadangkan rangka kerja yang cekap untuk tugasan ini. Walaupun setiap modul kelihatan biasa secara individu, semuanya berfungsi untuk pengesanan sasaran yang jauh dan mempunyai matlamat yang jelas.
S: Berbanding dengan BevFormer v2, apakah perbezaan antara MV2D?
A: MV2D terutamanya bergantung pada sauh 2D untuk mendapatkan ciri yang sepadan untuk mengikat 3D, tetapi tidak ada anggaran kedalaman yang jelas, jadi ketidakpastian akan menjadi agak besar untuk objek jauh, dan kemudian ia akan menjadi sukar untuk menumpu terutamanya BevFormer v2 It menyelesaikan jurang domain antara tulang belakang 2D dan adegan tugas 3D Secara amnya, tulang belakang yang telah dilatih pada tugas pengecaman 2D mempunyai keupayaan yang tidak mencukupi untuk mengesan pemandangan 3D, dan tidak meneroka masalah dalam tugasan jarak jauh.
S: Bolehkah masa dipertingkatkan, seperti penyebaran pertanyaan ditambah penyebaran ciri?
J: Ia boleh dilaksanakan secara teori, tetapi pertukaran kecekapan prestasi harus dipertimbangkan dalam aplikasi praktikal.
S: Adakah terdapat mana-mana kawasan yang memerlukan penambahbaikan? J: Kedua-dua isu panjang dan penunjuk penilaian jarak jauh patut diperbaiki. Pada sasaran 26 kelas seperti Argoverse 2, model tidak menunjukkan prestasi yang baik pada kelas ekor panjang dan akhirnya mengurangkan ketepatan purata, yang masih belum diterokai. Sebaliknya, menggunakan metrik bersatu untuk menilai objek jauh dan dekat mungkin tidak sesuai, yang menekankan keperluan untuk kriteria penilaian dinamik praktikal yang boleh disesuaikan dengan senario yang berbeza dalam dunia nyata.
Atas ialah kandungan terperinci AAAI2024: Far3D - Idea inovatif untuk secara langsung mencapai pengesanan sasaran 3D visual 150m. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Prestasi i77700 adalah mencukupi untuk menjalankan win11, tetapi pengguna mendapati bahawa i77700 mereka tidak boleh dinaik taraf kepada win11 Ini terutamanya disebabkan oleh sekatan yang dikenakan oleh Microsoft, jadi mereka boleh memasangnya selagi mereka melangkau sekatan ini. i77700 tidak boleh dinaik taraf kepada win11: 1. Kerana Microsoft mengehadkan versi CPU. 2. Hanya Intel generasi kelapan dan versi ke atas boleh terus menaik taraf kepada win11 3. Sebagai generasi ke-7, i77700 tidak dapat memenuhi keperluan naik taraf win11. 4. Walau bagaimanapun, i77700 benar-benar mampu menggunakan win11 dengan lancar dari segi prestasi. 5. Jadi anda boleh menggunakan sistem pemasangan langsung win11 laman web ini. 6. Selepas muat turun selesai, klik kanan fail dan "muat"nya. 7. Klik dua kali untuk menjalankan "Satu klik

Salam semua. Hari ini saya ingin berkongsi dengan anda projek pengesanan jatuh, tepatnya, ia adalah pengecaman pergerakan manusia berdasarkan titik rangka. Ia secara kasarnya dibahagikan kepada tiga langkah: pengecaman badan manusia, kod sumber projek pengelasan titik rangka manusia telah dibungkus, lihat penghujung artikel untuk cara mendapatkannya. 0. chatgpt Pertama, kita perlu mendapatkan aliran video yang dipantau. Kod ini agak tetap. Kita boleh terus chatgpt melengkapkan kod yang ditulis oleh chatgpt Tiada masalah dan boleh digunakan terus. Tetapi apabila ia datang kepada tugas perniagaan kemudian, seperti menggunakan mediapipe untuk mengenal pasti titik rangka manusia, kod yang diberikan oleh chatgpt adalah tidak betul. Saya rasa chatgpt boleh digunakan sebagai kotak alat yang bebas daripada logik perniagaan Anda boleh cuba menyerahkannya kepada c

Ditulis sebelum ini, hari ini kita membincangkan bagaimana teknologi pembelajaran mendalam boleh meningkatkan prestasi SLAM berasaskan penglihatan (penyetempatan dan pemetaan serentak) dalam persekitaran yang kompleks. Dengan menggabungkan kaedah pengekstrakan ciri dalam dan pemadanan kedalaman, di sini kami memperkenalkan sistem SLAM visual hibrid serba boleh yang direka untuk meningkatkan penyesuaian dalam senario yang mencabar seperti keadaan cahaya malap, pencahayaan dinamik, kawasan bertekstur lemah dan seks yang teruk. Sistem kami menyokong berbilang mod, termasuk konfigurasi monokular, stereo, monokular-inersia dan stereo-inersia lanjutan. Selain itu, ia juga menganalisis cara menggabungkan SLAM visual dengan kaedah pembelajaran mendalam untuk memberi inspirasi kepada penyelidikan lain. Melalui percubaan yang meluas pada set data awam dan data sampel sendiri, kami menunjukkan keunggulan SL-SLAM dari segi ketepatan kedudukan dan keteguhan penjejakan.

Hari ini saya ingin memperkenalkan kepada anda artikel yang diterbitkan oleh MIT minggu lepas, menggunakan GPT-3.5-turbo untuk menyelesaikan masalah pengesanan anomali siri masa, dan pada mulanya mengesahkan keberkesanan LLM dalam pengesanan anomali siri masa. Tiada penalaan dalam keseluruhan proses, dan GPT-3.5-turbo digunakan secara langsung untuk pengesanan anomali Inti artikel ini ialah cara menukar siri masa kepada input yang boleh dikenali oleh GPT-3.5-turbo, dan cara mereka bentuk. gesaan atau saluran paip untuk membenarkan LLM menyelesaikan tugas pengesanan anomali. Izinkan saya memperkenalkan karya ini kepada anda secara terperinci. Tajuk kertas imej: Largelanguagemodelscanbezero-shotanomalydete

Penyelesaian anotasi visual semata-mata menggunakan penglihatan serta beberapa data daripada GPS, IMU dan penderia kelajuan roda untuk anotasi dinamik. Sudah tentu, untuk senario pengeluaran besar-besaran, ia tidak semestinya visual semata-mata. Sesetengah kenderaan yang dihasilkan secara besar-besaran akan mempunyai penderia seperti radar keadaan pepejal (AT128). Jika kami mencipta gelung tertutup data dari perspektif pengeluaran besar-besaran dan menggunakan semua penderia ini, kami boleh menyelesaikan masalah pelabelan objek dinamik dengan berkesan. Tetapi tiada radar keadaan pepejal dalam rancangan kami. Oleh itu, kami akan memperkenalkan penyelesaian pelabelan pengeluaran besar-besaran yang paling biasa ini. Teras penyelesaian anotasi visual semata-mata terletak pada pembinaan semula pose berketepatan tinggi. Kami menggunakan skema pembinaan semula pose Structure from Motion (SFM) untuk memastikan ketepatan pembinaan semula. Tetapi lulus

1 Pengenalan Medan Sinaran Neural (NeRF) adalah paradigma yang agak baharu dalam bidang pembelajaran mendalam dan penglihatan komputer. Teknologi ini telah diperkenalkan dalam kertas kerja ECCV2020 "NeRF: Mewakili Pemandangan sebagai Medan Sinaran Neural untuk Sintesis Pandangan" (yang memenangi Anugerah Kertas Terbaik) dan sejak itu telah menjadi sangat popular, dengan hampir 800 petikan sehingga kini [1]. Pendekatan ini menandakan perubahan besar dalam cara tradisional pembelajaran mesin memproses data 3D. Perwakilan pemandangan medan sinaran saraf dan proses pemaparan yang boleh dibezakan: imej komposit dengan mensampel koordinat 5D (kedudukan dan arah tontonan) sepanjang sinar kamera menyuapkan kedudukan ini ke dalam MLP untuk menghasilkan ketumpatan warna dan isipadu dan menggabungkan nilai ini menggunakan imej teknik pemaparan volumetrik; ; fungsi rendering boleh dibezakan, jadi ia boleh diluluskan

Ditulis di atas & Pemahaman peribadi penulis Dalam beberapa tahun kebelakangan ini, pemanduan autonomi telah mendapat perhatian yang semakin meningkat kerana potensinya untuk mengurangkan beban pemandu dan meningkatkan keselamatan pemanduan. Ramalan penghunian tiga dimensi berasaskan penglihatan ialah tugas persepsi yang muncul yang sesuai untuk penyiasatan kos efektif dan komprehensif tentang keselamatan pemanduan autonomi. Walaupun banyak kajian telah menunjukkan keunggulan alat ramalan penghunian 3D berbanding tugas persepsi berpusatkan objek, masih terdapat ulasan khusus untuk bidang yang sedang berkembang pesat ini. Kertas kerja ini mula-mula memperkenalkan latar belakang ramalan penghunian 3D berasaskan penglihatan dan membincangkan cabaran yang dihadapi dalam tugasan ini. Seterusnya, kami membincangkan secara menyeluruh status semasa dan trend pembangunan kaedah ramalan penghunian 3D semasa daripada tiga aspek: peningkatan ciri, kemesraan penggunaan dan kecekapan pelabelan. akhirnya

01Garis prospek Pada masa ini, sukar untuk mencapai keseimbangan yang sesuai antara kecekapan pengesanan dan hasil pengesanan. Kami telah membangunkan algoritma YOLOv5 yang dipertingkatkan untuk pengesanan sasaran dalam imej penderiaan jauh optik resolusi tinggi, menggunakan piramid ciri berbilang lapisan, strategi kepala pengesanan berbilang dan modul perhatian hibrid untuk meningkatkan kesan rangkaian pengesanan sasaran dalam imej penderiaan jauh optik. Menurut set data SIMD, peta algoritma baharu adalah 2.2% lebih baik daripada YOLOv5 dan 8.48% lebih baik daripada YOLOX, mencapai keseimbangan yang lebih baik antara hasil pengesanan dan kelajuan. 02 Latar Belakang & Motivasi Dengan perkembangan pesat teknologi penderiaan jauh, imej penderiaan jauh optik resolusi tinggi telah digunakan untuk menggambarkan banyak objek di permukaan bumi, termasuk pesawat, kereta, bangunan, dll. Pengesanan objek dalam tafsiran imej penderiaan jauh
