Jadual Kandungan
Ditulis sebelum ini
Pengenalan kepada latar belakang aplikasi SLAM semasa
Rangka kerja sistem SL-SLAM
1) Pengekstrakan Ciri
2) Padanan ciri dan bahagian hadapan
3) Penutupan gelung
Analisis perbandingan eksperimen
Rumah Peranti teknologi AI Di luar ORB-SLAM3! SL-SLAM: Adegan bertekstur lemah ringan, kegelisahan teruk dan lemah semuanya dikendalikan

Di luar ORB-SLAM3! SL-SLAM: Adegan bertekstur lemah ringan, kegelisahan teruk dan lemah semuanya dikendalikan

May 30, 2024 am 09:35 AM
pembelajaran yang mendalam Penglihatan

Ditulis sebelum ini

Hari ini kita membincangkan bagaimana teknologi pembelajaran mendalam boleh meningkatkan prestasi SLAM berasaskan penglihatan (penyetempatan dan pemetaan serentak) dalam persekitaran yang kompleks. Dengan menggabungkan kaedah pengekstrakan ciri dalam dan pemadanan kedalaman, di sini kami memperkenalkan sistem SLAM visual hibrid serba boleh yang direka untuk meningkatkan penyesuaian dalam senario yang mencabar seperti keadaan cahaya malap, pencahayaan dinamik, kawasan bertekstur lemah dan seks yang teruk. Sistem kami menyokong berbilang mod, termasuk konfigurasi monokular, stereo, monokular-inersia dan stereo-inersia lanjutan. Selain itu, ia juga menganalisis cara menggabungkan SLAM visual dengan kaedah pembelajaran mendalam untuk memberi inspirasi kepada penyelidikan lain. Melalui percubaan yang meluas pada set data awam dan data sampel sendiri, kami menunjukkan bahawa SL-SLAM mengatasi prestasi algoritma SLAM yang terkini dari segi ketepatan kedudukan dan keteguhan penjejakan.

Pautan projek: https://github.com/zzzzxxxx111/SLslam.

(Leret ibu jari anda ke atas, klik pada kad atas untuk mengikuti saya, Seluruh operasi hanya akan mengambil masa 1.328 saat, dan kemudian mengambil masa jauhkan masa depan , semua, maklumat kering percuma, sekiranya sebarang kandungan membantu anda~)

Pengenalan kepada latar belakang aplikasi SLAM semasa

SLAM (pembentuk kedudukan serentak dan pembinaan peta) ialah teknologi dalam robotik, pemanduan autonomi dan pembinaan semula 3D Teknologi utama ialah ia secara serentak menentukan kedudukan sensor (penyetempatan) dan membina peta persekitaran. Penderia penglihatan dan inersia ialah peranti penderiaan yang paling biasa digunakan, dan penyelesaian yang berkaitan telah dibincangkan dan diterokai secara mendalam. Selepas beberapa dekad pembangunan, rangka kerja pemprosesan visual (inertial) SLAM telah membentuk rangka kerja asas, termasuk pengesanan, pembinaan peta dan pengesanan gelung. Dalam algoritma SLAM, modul penjejakan bertanggungjawab untuk menganggar trajektori robot, modul pembinaan peta digunakan untuk menjana dan mengemas kini peta persekitaran, dan pengesanan gelung digunakan untuk mengenal pasti lokasi yang dilawati. Modul ini bekerjasama antara satu sama lain untuk mencapai kesedaran tentang keadaan dan persekitaran robot. Algoritma yang biasa digunakan dalam SLAM visual termasuk kaedah titik ciri, kaedah langsung dan kaedah separa langsung. Dalam kaedah titik ciri, pose kamera dan awan titik tiga dimensi dianggarkan dengan mengekstrak dan memadankan titik ciri secara langsung menganggarkan pose kamera dan awan titik tiga dimensi dengan meminimumkan perbezaan skala kelabu imej Dalam beberapa tahun kebelakangan ini, berkaitan penyelidikan telah memberi tumpuan kepada meningkatkan kekukuhan dalam keadaan yang melampau dan kebolehsuaian. Disebabkan oleh sejarah panjang pembangunan teknologi SLAM, terdapat banyak karya SLAM yang mewakili berdasarkan kaedah geometri tradisional, seperti ORB-SLAM, VINS-Mono, DVO, MSCKF, dll. Walau bagaimanapun, beberapa soalan yang tidak dapat diselesaikan masih kekal. Dalam persekitaran yang mencabar seperti cahaya malap atau pencahayaan dinamik, kegelisahan teruk dan kawasan tekstur yang lemah, kerana algoritma pengekstrakan ciri tradisional hanya mempertimbangkan maklumat setempat imej tanpa mengambil kira maklumat struktur dan semantik imej, apabila menghadapi situasi di atas, sedia ada. pengesanan sistem SLAM mungkin menjadi tidak stabil dan tidak berkesan. Oleh itu, dalam keadaan ini, pengesanan sistem SLAM mungkin menjadi tidak stabil dan tidak berkesan.

Perkembangan pesat pembelajaran mendalam telah membawa perubahan revolusioner kepada bidang penglihatan komputer. Dengan menggunakan sejumlah besar data untuk latihan, model pembelajaran mendalam boleh mensimulasikan struktur adegan kompleks dan maklumat semantik, dengan itu meningkatkan keupayaan sistem SLAM untuk memahami dan menyatakan adegan. Kaedah ini terutamanya dibahagikan kepada dua pendekatan. Yang pertama ialah algoritma hujung ke hujung berdasarkan pembelajaran mendalam, seperti Droid-slam, NICE-SLAM dan DVI-SLAM. Walau bagaimanapun, kaedah ini memerlukan sejumlah besar data untuk latihan, sumber pengkomputeran yang tinggi dan ruang storan, menjadikannya sukar untuk mencapai penjejakan masa nyata. Pendekatan kedua dipanggil SLAM hibrid, yang memanfaatkan pembelajaran mendalam untuk meningkatkan modul tertentu dalam SLAM. SLAM Hibrid memanfaatkan sepenuhnya kaedah geometri tradisional dan kaedah pembelajaran mendalam, dan boleh mencari keseimbangan antara hampir semua kekangan dan pemahaman semantik. Walaupun terdapat beberapa kajian dalam bidang ini, cara untuk mengintegrasikan teknologi pembelajaran mendalam secara berkesan masih merupakan hala tuju yang layak untuk penyelidikan lanjut.

Pada masa ini, SLAM hibrid sedia ada mempunyai beberapa batasan. DXNet hanya menggantikan titik ciri ORB dengan titik ciri mendalam, tetapi terus menggunakan kaedah tradisional untuk menjejaki ciri ini. Oleh itu, ini boleh menyebabkan ketidakselarasan dalam maklumat ciri yang mendalam. SP-Loop hanya memperkenalkan titik ciri pembelajaran mendalam ke dalam modul gelung tertutup, sambil mengekalkan kaedah pengekstrakan titik ciri tradisional di tempat lain. Oleh itu, kaedah SLAM hibrid ini tidak menggabungkan teknologi pembelajaran mendalam secara berkesan dan menyeluruh, mengakibatkan penurunan kesan penjejakan dan pemetaan dalam beberapa adegan yang kompleks.

Untuk menyelesaikan masalah ini, sistem SLAM pelbagai fungsi berdasarkan pembelajaran mendalam dicadangkan di sini. Integrasikan modul pengekstrakan titik ciri Superpoint ke dalam sistem dan gunakannya sebagai satu-satunya bentuk ungkapan di seluruh. Tambahan pula, dalam persekitaran yang kompleks, kaedah pemadanan ciri tradisional sering menunjukkan ketidakstabilan, yang membawa kepada penurunan kualiti penjejakan dan pemetaan. Walau bagaimanapun, kemajuan terkini dalam kaedah pemadanan ciri berasaskan pembelajaran mendalam telah menunjukkan potensi untuk mencapai prestasi pemadanan yang lebih baik dalam persekitaran yang kompleks. Kaedah ini mengeksploitasi maklumat terdahulu dan butiran struktur tempat kejadian untuk meningkatkan keberkesanan pemadanan. Sebagai kaedah pemadanan SOTA (teknologi terkini), Lightglue mempunyai kelebihan untuk sistem SLAM yang memerlukan prestasi masa nyata yang tinggi kerana ciri-cirinya yang cekap dan ringan. Oleh itu, kami telah menggantikan kaedah pemadanan ciri dalam keseluruhan sistem SLAM dengan Lightglue, yang meningkatkan keteguhan dan ketepatan berbanding kaedah tradisional.

Apabila memproses deskriptor titik ciri Superpoint, kami memprosesnya terlebih dahulu agar konsisten dengan latihan beg perkataan visual yang sepadan. Apabila digabungkan dengan Lightglue, pendekatan ini mencapai pengecaman pemandangan yang tepat. Pada masa yang sama, untuk mengekalkan keseimbangan antara ketepatan dan kecekapan, strategi pemilihan titik ciri direka bentuk. Memandangkan kebolehskalaan, mudah alih dan prestasi masa nyata, kami menggunakan perpustakaan ONNX+Rtime untuk menggunakan model pembelajaran mendalam ini. Akhir sekali, satu siri eksperimen direka bentuk untuk membuktikan bahawa kaedah itu meningkatkan ketepatan ramalan trajektori dan keteguhan pengesanan algoritma SLAM dalam pelbagai senario yang mencabar, seperti yang ditunjukkan dalam Rajah 8.

Di luar ORB-SLAM3! SL-SLAM: Adegan bertekstur lemah ringan, kegelisahan teruk dan lemah semuanya dikendalikan

Rangka kerja sistem SL-SLAM

Struktur sistem SL-SLAM ditunjukkan dalam Rajah 2. Sistem ini terutamanya mempunyai empat konfigurasi sensor, iaitu monokular, inersia monokular, binokular dan inersia binokular. Sistem ini berdasarkan ORB-SLAM3 sebagai garis dasar dan mengandungi tiga modul utama: penjejakan, pemetaan setempat dan pengesanan gelung. Untuk menyepadukan model pembelajaran mendalam ke dalam sistem, rangka kerja penggunaan pembelajaran mendalam ONNX Runtime digunakan, menggabungkan model SuperPoint dan LightGlue.

Untuk setiap imej input, sistem terlebih dahulu memasukkannya ke dalam rangkaian SuperPoint untuk mendapatkan tensor kebarangkalian dan tensor deskriptor bagi titik ciri. Sistem kemudiannya memulakan dengan dua bingkai dan melakukan penjejakan kasar pada setiap bingkai berikutnya. Ia memperhalusi lagi anggaran pose dengan menjejaki peta tempatan. Sekiranya berlaku kegagalan penjejakan, sistem sama ada menggunakan bingkai rujukan untuk penjejakan atau melakukan penempatan semula untuk mendapatkan semula pose. Sila ambil perhatian bahawa LightGlue digunakan untuk pemadanan ciri semasa penjejakan kasar, permulaan, penjejakan bingkai rujukan dan penempatan semula. Ini memastikan perhubungan padanan yang tepat dan teguh, dengan itu meningkatkan keberkesanan penjejakan.

Di luar ORB-SLAM3! SL-SLAM: Adegan bertekstur lemah ringan, kegelisahan teruk dan lemah semuanya dikendalikan

Dalam algoritma garis dasar, peranan utama utas pemetaan tempatan adalah untuk membina peta tempatan secara dinamik dalam masa nyata, termasuk titik peta dan bingkai utama. Ia menggunakan peta tempatan untuk melaksanakan pengoptimuman pelarasan berkas, dengan itu mengurangkan ralat penjejakan dan meningkatkan konsistensi. Benang pemetaan tempatan menggunakan output bingkai utama oleh utas penjejakan, triangulasi berasaskan LightGlue dan pengoptimuman pelarasan berkas tempatan (BA) adaptif untuk membina semula titik peta yang tepat. Titik peta berlebihan dan bingkai utama kemudiannya dibezakan dan dialih keluar.

Benang pembetulan gelung tertutup menggunakan pangkalan data kerangka kunci dan model beg-of-words yang dilatih pada deskriptor SuperPoint untuk mendapatkan bingkai kunci yang serupa. Tingkatkan kecekapan perolehan semula dengan memperduakan deskriptor SuperPoint. Bingkai utama yang dipilih dipadankan ciri menggunakan LightGlue untuk pengesahan geometri paparan biasa, mengurangkan kemungkinan ketidakpadanan. Akhir sekali, gabungan gelung tertutup dan BA global (Pelarasan Himpunan) dilakukan untuk mengoptimumkan postur keseluruhan.

1) Pengekstrakan Ciri

Struktur rangkaian SuperPoint: Seni bina rangkaian SuperPoint terutamanya terdiri daripada tiga bahagian: pengekod dikongsi, penyahkod pengesanan ciri dan penyahkod deskriptor. Pengekod ialah rangkaian gaya VGG yang mampu mengurangkan dimensi imej dan mengekstrak ciri. Tugas penyahkod pengesanan ciri adalah untuk mengira kebarangkalian setiap piksel dalam imej untuk menentukan kemungkinannya menjadi titik ciri. Rangkaian penyahkodan deskriptor menggunakan lilitan sub-piksel untuk mengurangkan kerumitan pengiraan proses penyahkodan. Rangkaian kemudiannya mengeluarkan deskriptor separa tumpat, dan algoritma interpolasi bikubik digunakan untuk mendapatkan deskriptor lengkap. Selepas memperoleh tensor titik ciri dan output tensor deskriptor oleh rangkaian, untuk meningkatkan keteguhan pengekstrakan ciri, kami menggunakan strategi pemilihan ambang penyesuaian untuk menapis titik ciri dan melakukan operasi pasca pemprosesan untuk mendapatkan titik ciri dan deskriptornya. . Struktur khusus modul pengekstrakan ciri ditunjukkan dalam Rajah 3.

Di luar ORB-SLAM3! SL-SLAM: Adegan bertekstur lemah ringan, kegelisahan teruk dan lemah semuanya dikendalikan

Pemilihan ciri penyesuaian: Pertama, setiap imej, berlabel I(W × H), ditukarkan kepada kelabu sebelum diubah saiznya supaya sepadan dengan dimensi imej input (W′ × H′) bagi imej darjah rangkaian SuperPoint. Imej yang terlalu kecil boleh menghalang pengekstrakan ciri, dengan itu mengurangkan prestasi penjejakan, manakala imej yang terlalu besar boleh mengakibatkan keperluan pengiraan dan penggunaan memori yang berlebihan. Oleh itu, untuk mengimbangi ketepatan dan kecekapan pengekstrakan ciri, artikel ini memilih W′ = 400 dan H′ = 300. Selepas itu, tensor bersaiz W′ × H′ dimasukkan ke dalam rangkaian, menghasilkan dua tensor output: tensor skor S, dan tensor deskriptor D. Setelah tensor skor titik ciri dan deskriptor ciri diperoleh, langkah seterusnya ialah menetapkan threshold untuk menapis titik ciri.

Dalam senario yang mencabar, keyakinan setiap titik ciri akan dikurangkan, yang mungkin mengakibatkan pengurangan bilangan ciri yang diekstrak jika ambang keyakinan tetap diterima pakai. Untuk menyelesaikan masalah ini, kami memperkenalkan strategi tetapan ambang SuperPoint adaptif. Kaedah penyesuaian ini secara dinamik melaraskan ambang pengekstrakan ciri mengikut adegan, dengan itu mencapai pengekstrakan ciri yang lebih mantap dalam adegan yang mencabar. Mekanisme ambang penyesuaian mengambil kira dua faktor: hubungan antara ciri dan hubungan ciri antara bingkai.

Dalam senario yang mencabar, keyakinan setiap titik ciri akan dikurangkan, yang mungkin mengakibatkan pengurangan bilangan ciri yang diekstrak jika ambang keyakinan tetap diterima pakai. Untuk menyelesaikan masalah ini, strategi tetapan ambang SuperPoint adaptif diperkenalkan. Kaedah penyesuaian ini secara dinamik melaraskan ambang pengekstrakan ciri mengikut adegan, dengan itu mencapai pengekstrakan ciri yang lebih mantap dalam adegan yang mencabar. Mekanisme ambang penyesuaian mengambil kira dua faktor: hubungan antara ciri dan hubungan ciri antara bingkai.

2) Padanan ciri dan bahagian hadapan

Struktur rangkaian LightGlue: Model LightGlue terdiri daripada berbilang lapisan yang sama yang memproses dua set ciri secara bersama. Setiap lapisan mengandungi unit perhatian diri dan perhatian silang untuk mengemas kini perwakilan mata. Pengelas dalam setiap lapisan menentukan tempat untuk menghentikan inferens, mengelakkan pengiraan yang tidak perlu. Akhir sekali, pengepala ringan mengira markah padanan separa. Kedalaman rangkaian dilaraskan secara dinamik berdasarkan kerumitan imej input. Jika pasangan imej mudah dipadankan, penamatan awal boleh dicapai kerana keyakinan tinggi tag. Akibatnya, LightGlue mempunyai masa jalan yang lebih pendek dan penggunaan memori yang lebih rendah, menjadikannya sesuai untuk penyepaduan ke dalam tugas yang memerlukan prestasi masa nyata.

Selang masa antara bingkai bersebelahan biasanya hanya puluhan milisaat ORB-SLAM3 mengandaikan bahawa kamera bergerak pada kelajuan tetap dalam tempoh masa yang singkat ini. Ia menggunakan pose dan halaju bingkai sebelumnya untuk menganggarkan pose bingkai semasa dan menggunakan pose anggaran ini untuk padanan unjuran. Ia kemudian mencari titik padanan dalam julat tertentu dan memperhalusi pose dengan sewajarnya. Walau bagaimanapun, pada hakikatnya, pergerakan kamera mungkin tidak selalu seragam. Pecutan, nyahpecutan atau putaran secara tiba-tiba boleh menjejaskan keberkesanan kaedah ini. Lightglue boleh menyelesaikan masalah ini dengan berkesan dengan memadankan ciri secara langsung antara bingkai semasa dan bingkai sebelumnya. Ia kemudian menggunakan ciri yang dipadankan ini untuk memperhalusi anggaran pose awal, dengan itu mengurangkan kesan negatif pecutan atau putaran mengejut.

Dalam kes di mana penjejakan imej gagal dalam bingkai sebelumnya, sama ada disebabkan pergerakan kamera secara tiba-tiba atau faktor lain, rangka kekunci rujukan perlu digunakan untuk menjejak atau meletakkan semula. Algoritma garis dasar menggunakan kaedah Bag-of-Words (BoW) untuk mempercepatkan padanan ciri antara bingkai semasa dan bingkai rujukan. Walau bagaimanapun, kaedah BoW menukar maklumat spatial kepada maklumat statistik berdasarkan perbendaharaan kata visual, yang mungkin kehilangan hubungan spatial yang tepat antara titik ciri. Tambahan pula, jika perbendaharaan kata visual yang digunakan dalam model BoW tidak mencukupi atau tidak cukup mewakili, ia mungkin tidak menangkap ciri-ciri yang kaya pada adegan, yang membawa kepada ketidaktepatan dalam proses pemadanan.

Digabungkan dengan penjejakan Lightglue: Memandangkan selang masa antara bingkai bersebelahan adalah sangat singkat, biasanya hanya berpuluh-puluh milisaat, ORB-SLAM3 mengandaikan bahawa kamera bergerak pada kelajuan seragam dalam tempoh ini. Ia menggunakan pose dan halaju bingkai sebelumnya untuk menganggarkan pose bingkai semasa dan menggunakan pose anggaran ini untuk padanan unjuran. Ia kemudian mencari titik padanan dalam julat tertentu dan memperhalusi pose dengan sewajarnya. Walau bagaimanapun, pada hakikatnya, pergerakan kamera mungkin tidak selalu seragam. Pecutan, nyahpecutan atau putaran secara tiba-tiba boleh menjejaskan keberkesanan kaedah ini. Lightglue boleh menyelesaikan masalah ini dengan berkesan dengan memadankan ciri secara langsung antara bingkai semasa dan bingkai sebelumnya. Ia kemudian menggunakan ciri yang dipadankan ini untuk memperhalusi anggaran pose awal, dengan itu mengurangkan kesan negatif pecutan atau putaran mengejut.

Dalam kes di mana penjejakan imej gagal dalam bingkai sebelumnya, sama ada disebabkan pergerakan kamera secara tiba-tiba atau faktor lain, rangka kekunci rujukan perlu digunakan untuk menjejak atau meletakkan semula. Algoritma garis dasar menggunakan kaedah Bag-of-Words (BoW) untuk mempercepatkan padanan ciri antara bingkai semasa dan bingkai rujukan. Walau bagaimanapun, kaedah BoW menukar maklumat spatial kepada maklumat statistik berdasarkan perbendaharaan kata visual, yang mungkin kehilangan hubungan spatial yang tepat antara titik ciri. Tambahan pula, jika perbendaharaan kata visual yang digunakan dalam model BoW tidak mencukupi atau tidak cukup mewakili, ia mungkin tidak menangkap ciri-ciri yang kaya pada adegan, yang membawa kepada ketidaktepatan dalam proses pemadanan.

Di luar ORB-SLAM3! SL-SLAM: Adegan bertekstur lemah ringan, kegelisahan teruk dan lemah semuanya dikendalikan

Untuk menyelesaikan masalah ini, kaedah BoW telah digantikan dengan Lightglue di seluruh sistem. Perubahan ini meningkatkan dengan ketara kebarangkalian penjejakan dan penempatan semula yang berjaya di bawah transformasi berskala besar, sekali gus meningkatkan ketepatan dan keteguhan proses penjejakan kami. Rajah 4 menunjukkan keberkesanan kaedah pemadanan yang berbeza. Dapat diperhatikan bahawa kaedah padanan berdasarkan Lightglue menunjukkan prestasi padanan yang lebih baik daripada kaedah padanan berdasarkan unjuran atau Bag-of-Words yang digunakan dalam ORB-SLAM3. Oleh itu, semasa operasi SLAM, ia menjadikan pengesanan titik peta lebih seragam dan stabil, seperti yang ditunjukkan dalam Rajah 6.

Di luar ORB-SLAM3! SL-SLAM: Adegan bertekstur lemah ringan, kegelisahan teruk dan lemah semuanya dikendalikan

Digabungkan dengan pemetaan tempatan Lightglue: Dalam urutan pemetaan tempatan, triangulasi titik peta baharu diselesaikan melalui bingkai utama semasa dan bingkai utama bersebelahan dengannya. Untuk mendapatkan titik peta yang lebih tepat, anda perlu padankan dengan bingkai utama dengan garis dasar yang lebih besar. Walau bagaimanapun, ORB-SLAM3 menggunakan padanan Bag-of-Words (BoW) untuk mencapai ini, tetapi prestasi padanan ciri BoW berkurangan apabila garis dasar besar. Sebaliknya, algoritma Lightglue sangat sesuai untuk dipadankan dengan garis dasar yang besar dan disepadukan dengan lancar ke dalam sistem. Dengan menggunakan Lightglue untuk pemadanan ciri dan titik padanan triangulasi, titik peta yang lebih komprehensif dan berkualiti tinggi boleh dipulihkan.

Ini meningkatkan keupayaan pemetaan tempatan dengan mewujudkan lebih banyak sambungan antara bingkai utama dan menstabilkan penjejakan dengan mengoptimumkan secara bersama pose bingkai utama yang boleh dilihat bersama dan titik peta. Kesan triangulasi titik peta ditunjukkan dalam Rajah 6. Dapat diperhatikan bahawa berbanding dengan ORB-SLAM3, titik peta yang dibina oleh kaedah kami dapat mencerminkan maklumat struktur tempat kejadian dengan lebih baik. Tambahan pula, mereka lebih sekata dan diedarkan secara meluas di angkasa.

3) Penutupan gelung

Deskriptor kedalaman beg perkataan: Kaedah beg perkataan yang digunakan dalam pengesanan penutupan gelung ialah kaedah berdasarkan kosa kata visual, yang menggunakan konsep beg perkataan dalam pemprosesan bahasa semula jadi. Ia mula-mula melaksanakan latihan luar talian kamus. Pada mulanya, algoritma K-means digunakan untuk mengelompokkan deskriptor ciri yang dikesan dalam set imej latihan ke dalam set k, membentuk peringkat pertama pepohon kamus. Selepas itu, operasi rekursif dilakukan dalam setiap set, dan akhirnya pepohon kamus terakhir dengan kedalaman L dan beberapa cabang diperoleh, dan perbendaharaan kata visual diwujudkan. Setiap nod daun dianggap sebagai perbendaharaan kata.

Setelah latihan kamus selesai, vektor beg-of-word dan vektor ciri dijana dalam talian daripada semua titik ciri imej semasa semasa pelaksanaan algoritma. Rangka kerja SLAM arus perdana cenderung menggunakan deskriptor binari yang ditetapkan secara manual kerana jejak memorinya yang kecil dan kaedah perbandingan yang mudah. Bagi meningkatkan lagi kecekapan kaedah, SP-Loop menggunakan taburan Gaussian dengan nilai jangkaan 0 dan sisihan piawai 0.07 untuk mewakili nilai deskriptor titik super. Oleh itu, deskriptor titik terapung 256 dimensi superpoint boleh dikodkan binari untuk meningkatkan kelajuan pertanyaan pengecaman lokasi visual. Pengekodan binari ditunjukkan dalam Persamaan 4.

Di luar ORB-SLAM3! SL-SLAM: Adegan bertekstur lemah ringan, kegelisahan teruk dan lemah semuanya dikendalikan

Proses asas: Pengesanan penutupan gelung dalam SLAM biasanya melibatkan tiga peringkat utama: mencari kerangka kunci calon penutupan gelung awal, mengesahkan rangka kunci calon penutupan gelung, dan melakukan pembetulan penutupan gelung dan pelarasan berkas global (Pelarasan Himpunan, BA).

Langkah pertama dalam proses permulaan ialah mengenal pasti kerangka kunci calon penutupan gelung awal. Ini dicapai dengan memanfaatkan model beg-of-words DBoW3 yang dilatih sebelum ini. Bingkai utama yang berkongsi perbendaharaan kata dengan bingkai semasa Ka dikenal pasti, tetapi bingkai utama yang boleh dilihat bersama dengan Ka dikecualikan. Kira jumlah skor bingkai kunci yang boleh dilihat bersama berkaitan dengan bingkai kunci calon ini. Daripada kumpulan N teratas dengan markah tertinggi antara bingkai kunci calon gelung tertutup, pilih bingkai utama dengan skor tertinggi. Kerangka kunci yang dipilih ini dinyatakan sebagai Km.

Seterusnya, anda perlu menentukan transformasi postur relatif Tam dari Km kepada rangka kunci semasa Ka. Dalam ORB-SLAM3, kaedah pemadanan ciri berasaskan beg-of-words digunakan untuk memadankan bingkai kunci semasa dengan bingkai kunci calon Km dan bingkai kunci Kco yang boleh dilihat bersama. Perlu diingat bahawa oleh kerana algoritma gam cahaya meningkatkan kecekapan pemadanan, pemadanan bingkai semasa dengan bingkai calon Km akan menghasilkan surat-menyurat titik peta berkualiti tinggi. Kemudian, algoritma RANSAC digunakan untuk menghapuskan outlier dan transformasi Sim(3) diselesaikan untuk menentukan sikap relatif awal Tam. Untuk mengelakkan pengecaman kedudukan yang salah, bingkai kunci calon akan disahkan secara geometri dan langkah seterusnya adalah serupa dengan ORB-SLAM3.

Analisis perbandingan eksperimen

Di luar ORB-SLAM3! SL-SLAM: Adegan bertekstur lemah ringan, kegelisahan teruk dan lemah semuanya dikendalikanDi luar ORB-SLAM3! SL-SLAM: Adegan bertekstur lemah ringan, kegelisahan teruk dan lemah semuanya dikendalikanDi luar ORB-SLAM3! SL-SLAM: Adegan bertekstur lemah ringan, kegelisahan teruk dan lemah semuanya dikendalikanDi luar ORB-SLAM3! SL-SLAM: Adegan bertekstur lemah ringan, kegelisahan teruk dan lemah semuanya dikendalikanDi luar ORB-SLAM3! SL-SLAM: Adegan bertekstur lemah ringan, kegelisahan teruk dan lemah semuanya dikendalikan

Di luar ORB-SLAM3! SL-SLAM: Adegan bertekstur lemah ringan, kegelisahan teruk dan lemah semuanya dikendalikan

Atas ialah kandungan terperinci Di luar ORB-SLAM3! SL-SLAM: Adegan bertekstur lemah ringan, kegelisahan teruk dan lemah semuanya dikendalikan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Kaedah dan langkah untuk menggunakan BERT untuk analisis sentimen dalam Python Kaedah dan langkah untuk menggunakan BERT untuk analisis sentimen dalam Python Jan 22, 2024 pm 04:24 PM

BERT ialah model bahasa pembelajaran mendalam pra-latihan yang dicadangkan oleh Google pada 2018. Nama penuh ialah BidirectionalEncoderRepresentationsfromTransformers, yang berdasarkan seni bina Transformer dan mempunyai ciri pengekodan dwiarah. Berbanding dengan model pengekodan sehala tradisional, BERT boleh mempertimbangkan maklumat kontekstual pada masa yang sama semasa memproses teks, jadi ia berfungsi dengan baik dalam tugas pemprosesan bahasa semula jadi. Dwiarahnya membolehkan BERT memahami dengan lebih baik hubungan semantik dalam ayat, dengan itu meningkatkan keupayaan ekspresif model. Melalui kaedah pra-latihan dan penalaan halus, BERT boleh digunakan untuk pelbagai tugas pemprosesan bahasa semula jadi, seperti analisis sentimen, penamaan.

Analisis fungsi pengaktifan AI yang biasa digunakan: amalan pembelajaran mendalam Sigmoid, Tanh, ReLU dan Softmax Analisis fungsi pengaktifan AI yang biasa digunakan: amalan pembelajaran mendalam Sigmoid, Tanh, ReLU dan Softmax Dec 28, 2023 pm 11:35 PM

Fungsi pengaktifan memainkan peranan penting dalam pembelajaran mendalam Ia boleh memperkenalkan ciri tak linear ke dalam rangkaian saraf, membolehkan rangkaian belajar dengan lebih baik dan mensimulasikan hubungan input-output yang kompleks. Pemilihan dan penggunaan fungsi pengaktifan yang betul mempunyai kesan penting terhadap prestasi dan hasil latihan rangkaian saraf Artikel ini akan memperkenalkan empat fungsi pengaktifan yang biasa digunakan: Sigmoid, Tanh, ReLU dan Softmax, bermula dari pengenalan, senario penggunaan, kelebihan, kelemahan dan penyelesaian pengoptimuman Dimensi dibincangkan untuk memberi anda pemahaman yang menyeluruh tentang fungsi pengaktifan. 1. Fungsi Sigmoid Pengenalan kepada formula fungsi SIgmoid: Fungsi Sigmoid ialah fungsi tak linear yang biasa digunakan yang boleh memetakan sebarang nombor nyata antara 0 dan 1. Ia biasanya digunakan untuk menyatukan

Di luar ORB-SLAM3! SL-SLAM: Adegan bertekstur lemah ringan, kegelisahan teruk dan lemah semuanya dikendalikan Di luar ORB-SLAM3! SL-SLAM: Adegan bertekstur lemah ringan, kegelisahan teruk dan lemah semuanya dikendalikan May 30, 2024 am 09:35 AM

Ditulis sebelum ini, hari ini kita membincangkan bagaimana teknologi pembelajaran mendalam boleh meningkatkan prestasi SLAM berasaskan penglihatan (penyetempatan dan pemetaan serentak) dalam persekitaran yang kompleks. Dengan menggabungkan kaedah pengekstrakan ciri dalam dan pemadanan kedalaman, di sini kami memperkenalkan sistem SLAM visual hibrid serba boleh yang direka untuk meningkatkan penyesuaian dalam senario yang mencabar seperti keadaan cahaya malap, pencahayaan dinamik, kawasan bertekstur lemah dan seks yang teruk. Sistem kami menyokong berbilang mod, termasuk konfigurasi monokular, stereo, monokular-inersia dan stereo-inersia lanjutan. Selain itu, ia juga menganalisis cara menggabungkan SLAM visual dengan kaedah pembelajaran mendalam untuk memberi inspirasi kepada penyelidikan lain. Melalui percubaan yang meluas pada set data awam dan data sampel sendiri, kami menunjukkan keunggulan SL-SLAM dari segi ketepatan kedudukan dan keteguhan penjejakan.

Pembenaman ruang terpendam: penjelasan dan demonstrasi Pembenaman ruang terpendam: penjelasan dan demonstrasi Jan 22, 2024 pm 05:30 PM

Pembenaman Ruang Terpendam (LatentSpaceEmbedding) ialah proses memetakan data berdimensi tinggi kepada ruang berdimensi rendah. Dalam bidang pembelajaran mesin dan pembelajaran mendalam, pembenaman ruang terpendam biasanya merupakan model rangkaian saraf yang memetakan data input berdimensi tinggi ke dalam set perwakilan vektor berdimensi rendah ini sering dipanggil "vektor terpendam" atau "terpendam pengekodan". Tujuan pembenaman ruang terpendam adalah untuk menangkap ciri penting dalam data dan mewakilinya ke dalam bentuk yang lebih ringkas dan mudah difahami. Melalui pembenaman ruang terpendam, kami boleh melakukan operasi seperti memvisualisasikan, mengelaskan dan mengelompokkan data dalam ruang dimensi rendah untuk memahami dan menggunakan data dengan lebih baik. Pembenaman ruang terpendam mempunyai aplikasi yang luas dalam banyak bidang, seperti penjanaan imej, pengekstrakan ciri, pengurangan dimensi, dsb. Pembenaman ruang terpendam adalah yang utama

Fahami dalam satu artikel: kaitan dan perbezaan antara AI, pembelajaran mesin dan pembelajaran mendalam Fahami dalam satu artikel: kaitan dan perbezaan antara AI, pembelajaran mesin dan pembelajaran mendalam Mar 02, 2024 am 11:19 AM

Dalam gelombang perubahan teknologi yang pesat hari ini, Kecerdasan Buatan (AI), Pembelajaran Mesin (ML) dan Pembelajaran Dalam (DL) adalah seperti bintang terang, menerajui gelombang baharu teknologi maklumat. Ketiga-tiga perkataan ini sering muncul dalam pelbagai perbincangan dan aplikasi praktikal yang canggih, tetapi bagi kebanyakan peneroka yang baru dalam bidang ini, makna khusus dan hubungan dalaman mereka mungkin masih diselubungi misteri. Jadi mari kita lihat gambar ini dahulu. Dapat dilihat bahawa terdapat korelasi rapat dan hubungan progresif antara pembelajaran mendalam, pembelajaran mesin dan kecerdasan buatan. Pembelajaran mendalam ialah bidang khusus pembelajaran mesin dan pembelajaran mesin

Super kuat! 10 algoritma pembelajaran mendalam teratas! Super kuat! 10 algoritma pembelajaran mendalam teratas! Mar 15, 2024 pm 03:46 PM

Hampir 20 tahun telah berlalu sejak konsep pembelajaran mendalam dicadangkan pada tahun 2006. Pembelajaran mendalam, sebagai revolusi dalam bidang kecerdasan buatan, telah melahirkan banyak algoritma yang berpengaruh. Jadi, pada pendapat anda, apakah 10 algoritma teratas untuk pembelajaran mendalam? Berikut adalah algoritma teratas untuk pembelajaran mendalam pada pendapat saya Mereka semua menduduki kedudukan penting dari segi inovasi, nilai aplikasi dan pengaruh. 1. Latar belakang rangkaian saraf dalam (DNN): Rangkaian saraf dalam (DNN), juga dipanggil perceptron berbilang lapisan, adalah algoritma pembelajaran mendalam yang paling biasa Apabila ia mula-mula dicipta, ia dipersoalkan kerana kesesakan kuasa pengkomputeran tahun, kuasa pengkomputeran, Kejayaan datang dengan letupan data. DNN ialah model rangkaian saraf yang mengandungi berbilang lapisan tersembunyi. Dalam model ini, setiap lapisan menghantar input ke lapisan seterusnya dan

Pembinaan semula statik visual tulen pertama bagi pemanduan autonomi Pembinaan semula statik visual tulen pertama bagi pemanduan autonomi Jun 02, 2024 pm 03:24 PM

Penyelesaian anotasi visual semata-mata menggunakan penglihatan serta beberapa data daripada GPS, IMU dan penderia kelajuan roda untuk anotasi dinamik. Sudah tentu, untuk senario pengeluaran besar-besaran, ia tidak semestinya visual semata-mata. Sesetengah kenderaan yang dihasilkan secara besar-besaran akan mempunyai penderia seperti radar keadaan pepejal (AT128). Jika kami mencipta gelung tertutup data dari perspektif pengeluaran besar-besaran dan menggunakan semua penderia ini, kami boleh menyelesaikan masalah pelabelan objek dinamik dengan berkesan. Tetapi tiada radar keadaan pepejal dalam rancangan kami. Oleh itu, kami akan memperkenalkan penyelesaian pelabelan pengeluaran besar-besaran yang paling biasa ini. Teras penyelesaian anotasi visual semata-mata terletak pada pembinaan semula pose berketepatan tinggi. Kami menggunakan skema pembinaan semula pose Structure from Motion (SFM) untuk memastikan ketepatan pembinaan semula. Tetapi lulus

Cara menggunakan model hibrid CNN dan Transformer untuk meningkatkan prestasi Cara menggunakan model hibrid CNN dan Transformer untuk meningkatkan prestasi Jan 24, 2024 am 10:33 AM

Rangkaian Neural Konvolusi (CNN) dan Transformer ialah dua model pembelajaran mendalam berbeza yang telah menunjukkan prestasi cemerlang pada tugasan yang berbeza. CNN digunakan terutamanya untuk tugas penglihatan komputer seperti klasifikasi imej, pengesanan sasaran dan pembahagian imej. Ia mengekstrak ciri tempatan pada imej melalui operasi lilitan, dan melakukan pengurangan dimensi ciri dan invarian ruang melalui operasi pengumpulan. Sebaliknya, Transformer digunakan terutamanya untuk tugas pemprosesan bahasa semula jadi (NLP) seperti terjemahan mesin, klasifikasi teks dan pengecaman pertuturan. Ia menggunakan mekanisme perhatian kendiri untuk memodelkan kebergantungan dalam jujukan, mengelakkan pengiraan berjujukan dalam rangkaian saraf berulang tradisional. Walaupun kedua-dua model ini digunakan untuk tugasan yang berbeza, ia mempunyai persamaan dalam pemodelan jujukan, jadi

See all articles