Pautan projek: https://nianticlabs.github.io/mickey/
Memandangkan dua imej, pose kamera di antara mereka boleh dianggarkan dengan mewujudkan kesesuaian antara imej. Biasanya, surat-menyurat ini adalah 2D hingga 2D, dan anggaran pose kami adalah skala-tak tentu. Sesetengah aplikasi, seperti realiti tambahan segera pada bila-bila masa, di mana-mana sahaja, memerlukan anggaran pose metrik skala, jadi mereka bergantung pada penganggar kedalaman luaran untuk memulihkan skala.
Artikel ini mencadangkan MicKey, proses pemadanan titik utama yang boleh meramalkan korespondensi metrik dalam ruang kamera tiga dimensi. Dengan mempelajari padanan koordinat 3D merentas imej, kami dapat membuat kesimpulan pose relatif metrik tanpa ujian kedalaman. Tidak ada keperluan untuk ujian kedalaman, pembinaan semula pemandangan atau maklumat pertindihan imej semasa latihan. MicKey hanya diawasi oleh pasangan imej dan pose relatif mereka. MicKey mencapai prestasi tercanggih pada penanda aras penyetempatan semula tanpa peta sambil memerlukan kurang pengawasan berbanding kaedah bersaing yang lain.
"Metric+Keypoints (MicKey) ialah proses pengesanan ciri yang menyelesaikan dua masalah. Pertama, MicKey mengundurkan lokasi titik utama dalam ruang kamera, yang membolehkan mewujudkan korespondensi metrik melalui pemadanan deskriptor. Daripada metrik Dalam surat-menyurat, relatif metrik pose boleh dipulihkan, seperti yang ditunjukkan dalam Rajah 1. Kedua, dengan menggunakan pengoptimuman pose yang boleh dibezakan untuk latihan hujung ke hujung, MicKey hanya memerlukan pasangan imej dan pose relatif sebenar mereka tanpa pengawasan semasa proses latihan MicKey mempelajari yang betul kedalaman titik utama secara tersirat dan hanya untuk kawasan ciri yang ditemui dengan tepat Proses latihan kami adalah mantap kepada pasangan imej dengan pertindihan visual yang tidak diketahui, jadi maklumat yang diperolehi oleh SFM (seperti pertindihan imej) tidak diperlukan menarik kerana melatihnya pada domain baharu tidak memerlukan sebarang maklumat tambahan kecuali berpose ”
Dalam penanda aras penempatan semula tanpa peta Dalam ujian, MicKey muncul di tempat teratas, mengatasi kaedah terkini. MicKey menyediakan anggaran pose skala-metrik yang boleh dipercayai walaupun di bawah perubahan sudut tontonan yang melampau disokong oleh ramalan kedalaman yang disasarkan khusus pada padanan ciri yang jarang. Padanan ubah bentuk di bawah perubahan sudut tontonan yang melampau disokong oleh ketepatan ini menjadikan MicKey sesuai untuk menyokong anggaran kedalaman yang diperlukan untuk padanan anggaran kedalaman disokong oleh ramalan kedalaman khusus untuk padanan ciri yang jarang.
Sumbangan utama adalah seperti berikut:
MicKey ialah rangkaian saraf yang boleh meramalkan perkara utama daripada satu imej dan menerangkannya. Deskriptor sedemikian boleh membenarkan anggaran pose relatif metrik antara imej.
Strategi latihan ini hanya memerlukan pemantauan pose relatif, tiada pengukuran kedalaman dan tiada pengetahuan tentang pertindihan pasangan imej.
MicKey meramalkan koordinat tiga dimensi titik penting dalam ruang kamera. Rangkaian juga meramalkan kebarangkalian pemilihan titik utama (taburan titik kunci) dan deskriptor yang membimbing kebarangkalian padanan (taburan padanan). Menggabungkan kedua-dua pengedaran ini, kami mendapat kebarangkalian bahawa dua titik utama menjadi titik sepadan, dan mengoptimumkan rangkaian untuk menjadikan titik sepadan lebih berkemungkinan muncul. Dalam gelung RANSAC yang boleh dibezakan, berbilang hipotesis pose relatif dijana dan kerugiannya berbanding dengan transformasi sebenar dikira. Hasilkan kecerunan melalui REINFORCE untuk melatih kebarangkalian yang sepadan. Memandangkan fungsi penyelesai pose dan kehilangan kami boleh dibezakan, perambatan belakang juga menyediakan isyarat langsung untuk melatih koordinat titik kekunci 3D.
Diberi dua imej, hitung pose relatif metrik mereka, serta skor titik utama, kebarangkalian padanan dan pose keyakinan (dalam bentuk kiraan inlier lembut). Matlamat kami adalah untuk melatih semua modul anggaran pose relatif secara hujung ke hujung. Semasa proses latihan, kami menganggap bahawa data latihan adalah, di manakah transformasi sebenar dan K/K' ialah parameter intrinsik kamera. Gambarajah skematik keseluruhan sistem ditunjukkan dalam Rajah 2.
Untuk mempelajari koordinat, keyakinan dan deskriptor perkara utama 3D, kami memerlukan sistem boleh dibezakan sepenuhnya. Walau bagaimanapun, oleh kerana beberapa elemen dalam saluran paip tidak boleh dibezakan, seperti pensampelan titik utama atau pengiraan lebih dalam, saluran paip anggaran pose relatif ditakrifkan semula sebagai kebarangkalian. Ini bermakna kita menganggap output rangkaian sebagai kebarangkalian padanan yang berpotensi, dan semasa latihan rangkaian mengoptimumkan outputnya untuk menjana kebarangkalian supaya padanan yang betul lebih berkemungkinan untuk dipilih.
MicKey mengikuti seni bina rangkaian berbilang kepala dengan pengekod dikongsi yang menyimpulkan titik kekunci metrik 3D serta deskriptor daripada imej input, seperti ditunjukkan dalam Rajah 3.
Pengekod. Gunakan model DINOv2 terlatih sebagai pengekstrak ciri dan gunakan cirinya secara langsung tanpa latihan lanjut atau penalaan halus. DINOv2 membahagikan imej input kepada blok bersaiz 14×14 dan menyediakan vektor ciri untuk setiap blok. Peta ciri akhir F mempunyai resolusi (1024, w, h), dengan w = W/14 dan h = H/14.
Perkara utama ialah Kepala. Empat kepala selari ditakrifkan di sini, yang memproses peta ciri F dan mengira peta xy offset (U), kedalaman (Z), keyakinan (C) dan deskriptor (D) di mana setiap entri peta sepadan dengan input A 14 ×14 blok dalam imej. MicKey mempunyai sifat yang jarang berlaku untuk meramalkan titik utama sebagai offset relatif daripada grid biasa yang jarang. Koordinat 2D mutlak diperolehi seperti berikut:
Penilaian pose relatif pada set data tanpa peta. Nilai kawasan di bawah lengkung (AUC) dan ketepatan (Prec.) untuk metrik VCRE pada ambang 90 piksel dilaporkan, dengan kedua-dua versi MicKey mencapai keputusan tertinggi. Selain itu, ralat median juga dilaporkan, dan sementara MicKey memperoleh nilai terendah dari segi ralat VCRE, kaedah lain, seperti RoMa, memberikan ralat pose yang lebih rendah. Untuk mengira ralat median, garis dasar hanya menggunakan pose sah yang dijana oleh setiap kaedah, oleh itu, kami melaporkan anggaran jumlah pose. Akhir sekali, masa padanan dilaporkan dan MicKey didapati setanding dengan LoFTR dan LighGlue, sambil mengurangkan dengan ketara masa RoMa, pesaing terdekat kepada MicKey dari segi metrik VCRE. Kaedah pemadanan menggunakan DPT untuk memulihkan skala.
Contoh mata surat-menyurat, skor dan peta kedalaman yang dijana oleh MicKey. MicKey menemui titik surat-menyurat yang berkesan walaupun terdapat perubahan besar-besaran atau garis dasar yang luas. Ambil perhatian bahawa disebabkan pengekod ciri kami, resolusi peta kedalaman adalah 14 kali lebih kecil daripada imej input. Kami mengikuti kaedah visualisasi peta kedalaman yang digunakan dalam DPT, dengan warna yang lebih cerah mewakili jarak yang lebih dekat.
Penilaian pose relatif pada set data ScanNet. Semua kaedah pemadanan ciri digunakan bersama PlaneRCNN untuk memulihkan skala metrik. Kami menunjukkan isyarat latihan untuk setiap kaedah: kedalaman (D), skor pertindihan (O), dan pose (P).
Atas ialah kandungan terperinci Yang terbaru dari Universiti Oxford! Mickey: Padanan imej 2D dalam SOTA 3D! (CVPR\'24). Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!