Tajuk asal: RoadBEV: Pembinaan Semula Permukaan Jalan dalam Pandangan Mata Burung
Pautan kertas: https://arxiv.org/pdf/2404.06605.pdf
Pautan kod: https://github.com/ztsrxh/RoadBEV
Gabungan pengarang: Universiti Tsinghua, Universiti California, BerkeleyWalau bagaimanapun, pembinaan semula permukaan jalan berperspektif imej (RSR) mempunyai kelemahan yang wujud. Anggaran kedalaman untuk piksel tertentu sebenarnya adalah untuk mencari tong optimum sepanjang arah yang berserenjang dengan satah imej (ditunjukkan sebagai titik oren dalam Rajah 1(b)). Terdapat sisihan sudut tertentu antara arah kedalaman dan permukaan jalan. Perubahan dan arah aliran dalam ciri profil jalan adalah tidak konsisten dengan perubahan dan arah aliran dalam arah carian. Petunjuk maklumat tentang perubahan ketinggian jalan adalah jarang dalam pandangan mendalam. Tambahan pula, julat carian kedalaman adalah sama untuk setiap piksel, menyebabkan model menangkap hierarki geometri global dan bukannya struktur permukaan tempatan. Disebabkan carian kedalaman global tetapi kasar, maklumat ketinggian jalan yang halus dimusnahkan. Oleh kerana kertas kerja ini memfokuskan pada ketinggian dalam arah menegak, usaha dalam arah kedalaman adalah sia-sia. Dalam pandangan perspektif, butiran tekstur pada jarak jauh hilang, yang seterusnya menimbulkan cabaran untuk regresi kedalaman yang cekap melainkan kekangan priori selanjutnya diperkenalkan [12].
Menganggar ketinggian jalan dari pandangan atas (iaitu pandangan mata burung, BEV) ialah idea semula jadi kerana ketinggian pada dasarnya menggambarkan getaran dalam arah menegak. Pandangan mata burung adalah paradigma yang berkesan untuk mewakili data multi-modal dan multi-view dalam koordinat bersatu [13], [14]. Prestasi terkini pada pengesanan objek dan tugasan pembahagian 3D telah dicapai melalui pendekatan berdasarkan pandangan mata burung [15], berbanding pandangan perspektif, yang dilakukan dengan memperkenalkan anggaran kepala pada ciri imej yang diubah suai pandangan. Rajah 1 menggambarkan motivasi untuk kertas ini. Daripada memfokuskan pada struktur global dalam paparan imej, pembinaan semula dalam pandangan mata burung secara langsung mengenal pasti ciri jalan dalam julat kecil tertentu dalam arah menegak. Ciri-ciri jalan raya yang diunjurkan dalam pandangan mata burung padat mencerminkan perubahan struktur dan kontur, memudahkan carian yang cekap dan halus. Pengaruh kesan perspektif juga ditindas kerana jalan raya diwakili secara seragam pada satah berserenjang dengan sudut pandangan. Pembinaan semula jalan raya berdasarkan ciri pandangan mata burung dijangka mencapai prestasi yang lebih tinggi.
Kertas ini membina semula permukaan jalan di bawah BEV untuk menyelesaikan masalah yang dikenal pasti di atas. Secara khususnya, kertas kerja ini memfokuskan kepada geometri jalan iaitu ketinggian. Untuk menggunakan imej monokular dan binokular dan menunjukkan kebolehlaksanaan luas persepsi pandangan mata burung, kertas kerja ini mencadangkan dua submodel bernama RoadBEV-mono dan RoadBEV-stereo. Mengikuti paradigma pandangan mata, kertas kerja ini mentakrifkan voxel yang diminati meliputi potensi pelepasan jalan. Ciri piksel pertanyaan voxel ini melalui unjuran 3D-2D. Untuk RoadBEV-mono, kertas kerja ini memperkenalkan kepala anggaran ketinggian pada ciri voxel yang dibentuk semula. Struktur RoadBEV-stereo adalah konsisten dengan pemadanan binokular dalam paparan imej. Berdasarkan ciri voxel kiri dan kanan, voxel kos 4D dibina dalam pandangan mata burung, yang diagregatkan melalui konvolusi 3D. Regresi ketinggian dianggap sebagai klasifikasi tong sampah yang telah ditetapkan untuk membolehkan pembelajaran model yang lebih cekap. Makalah ini mengesahkan model ini pada set data dunia sebenar yang diterbitkan oleh pengarang sebelum ini, menunjukkan bahawa mereka mempunyai kelebihan besar berbanding anggaran kedalaman monokular tradisional dan kaedah pemadanan stereo.
Rajah 1. Motivasi artikel ini. (a) Tanpa mengira konfigurasi monokular atau binokular, kaedah pembinaan semula kami dalam pandangan mata burung (BEV) mengatasi kaedah dalam paparan imej. (b) Apabila melakukan anggaran kedalaman dalam paparan imej, arah carian dipincang dari arah ketinggian jalan. Pada pandangan mendalam, ciri rangka jalan adalah jarang. Lubang tidak mudah dikenalpasti. (c) Dalam pandangan mata burung, getaran kontur seperti jalan berlubang, tangga tepi jalan dan juga alur boleh ditangkap dengan tepat. Ciri ketinggian jalan dalam arah menegak adalah lebih padat dan lebih mudah dikenal pasti.
Rajah 2. Selaraskan perwakilan dan penjanaan label ketinggian ground-truth (GT). (a) Koordinat (b) Wilayah kepentingan (ROI) dalam paparan imej (c) Wilayah minat (ROI) dalam pandangan mata burung (d) Menjana label kebenaran tanah (GT) dalam grid
Gamb. Contoh imej jalan raya dan peta ketinggian ground truth (GT).
Rajah 4. Ciri voxel yang diminati dalam paparan imej. Pusat voxel bertindan yang terletak pada kedudukan mendatar yang sama diunjurkan kepada piksel pada segmen garis merah.
Rajah 5. Senibina RoadBEV-mono. Kertas ini menggunakan unjuran 3D hingga 2D untuk menanyakan ciri piksel. Kepala anggaran ketinggian menggunakan lilitan 2D untuk mengekstrak ciri pada ciri Pandangan Mata Burung (BEV) yang dibentuk semula.
Rajah 6. Mekanisme RoadBEV-mono. Voxel ditunjukkan dalam pandangan sisi.
Rajah 7. Seni bina RoadBEV-stereo. Voksel yang ditakrifkan dalam sistem koordinat kamera kiri menanyakan ciri piksel peta ciri kiri dan kanan. Kertas kerja ini membina isipadu perbezaan dalam Pandangan Mata Burung (BEV) melalui penolakan antara ciri voxel kiri dan kanan. Kemudian, belitan 3D mengagregatkan volum 4D dalam pandangan mata burung.
Rajah 8. Mekanisme RoadBEV-stereo.
Rajah 9. Kehilangan latihan (a) RoadBEV-mono dan (b) RoadBEV-stereo.
Rajah 10. Perbandingan ralat ketinggian dalam arah jarak dengan model SOTA berdasarkan monokular dan binokular.
Rajah 11. Visualisasi permukaan jalan dibina semula oleh RoadBEV-mono.
Rajah 12. Visualisasi permukaan jalan dibina semula oleh RoadBEV-stereo.
Artikel ini membina semula ketinggian permukaan jalan untuk pandangan mata pertama kali. Kertas kerja ini mencadangkan dan menganalisis dua model berdasarkan imej monokular dan binokular, masing-masing dinamakan RoadBEV-mono dan RoadBEV-stereo. Makalah ini mendapati bahawa anggaran monokular dan pemadanan binokular dalam BEV adalah mekanisme yang sama seperti dalam pandangan perspektif, yang dipertingkatkan dengan mengecilkan julat carian dan ciri perlombongan secara langsung dalam arah ketinggian. Percubaan komprehensif pada set data dunia nyata mengesahkan kebolehlaksanaan dan keunggulan tetapan volum BEV, kepala anggaran dan parameter yang dicadangkan. Untuk kamera monokular, prestasi pembinaan semula dalam BEV dipertingkatkan sebanyak 50% berbanding paparan perspektif. Pada masa yang sama, dalam BEV, prestasi menggunakan kamera binokular adalah tiga kali ganda berbanding kamera monokular. Artikel ini menyediakan analisis dan panduan yang mendalam tentang model. Penerokaan terobosan artikel ini juga menyediakan rujukan berharga untuk penyelidikan lanjut dan aplikasi yang berkaitan dengan persepsi BEV, pembinaan semula 3D dan pengesanan 3D.
Atas ialah kandungan terperinci Tsinghua yang terbaru! RoadBEV: Bagaimana untuk mencapai pembinaan semula permukaan jalan di bawah BEV?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!