Penjejakan objek ialah salah satu tugas asas penglihatan komputer Dalam beberapa tahun kebelakangan ini, penjejakan objek mod tunggal (RGB) telah mencapai kemajuan yang ketara. Walau bagaimanapun, disebabkan oleh pengehadan penderia pengimejan tunggal, kami perlu memperkenalkan imej berbilang mod (seperti RGB, inframerah, dll.) untuk mengimbangi kelemahan ini untuk mencapai penjejakan sasaran semua cuaca dalam persekitaran yang kompleks. Aplikasi imej berbilang modal tersebut boleh memberikan maklumat yang lebih komprehensif dan meningkatkan ketepatan dan keteguhan pengesanan dan pengesanan sasaran. Pembangunan penjejakan sasaran berbilang mod adalah sangat penting untuk merealisasikan aplikasi penglihatan komputer peringkat lebih tinggi.
Walau bagaimanapun, tugas penjejakan berbilang modal sedia ada juga menghadapi dua masalah utama:
Banyak usaha penjejakan berbilang modal yang melatih terlebih dahulu jujukan RGB dan kemudian memperhalusi sepenuhnya kepada adegan berbilang modal mempunyai masalah masa dan kecekapan, serta prestasi terhad.
Selain kaedah penalaan halus yang lengkap, ia juga diilhamkan oleh kaedah penalaan halus yang cekap untuk parameter dalam bidang pemprosesan bahasa semula jadi (NLP). Beberapa kaedah baru-baru ini telah memperkenalkan penalaan segera yang cekap parameter dalam penjejakan berbilang modal. Kaedah ini melakukan ini dengan membekukan parameter rangkaian tulang belakang dan menambah set tambahan parameter yang boleh dipelajari.
Biasanya, kaedah ini memfokuskan pada satu modaliti (biasanya RGB) sebagai modaliti utama dan modaliti lain sebagai modaliti tambahan. Walau bagaimanapun, kaedah ini mengabaikan korelasi dinamik antara data berbilang modal dan oleh itu tidak dapat menggunakan sepenuhnya kesan pelengkap maklumat berbilang modal dalam adegan yang kompleks, sekali gus mengehadkan prestasi penjejakan.
Gambar 1: Mod dominan yang berbeza dalam senario yang kompleks.
Untuk menyelesaikan masalah di atas, penyelidik dari Universiti Tianjin mencadangkan penyelesaian yang dipanggil Penyesuai Dwi Arah untuk Penjejakan Pelbagai Modal (BAT). Berbeza daripada kaedah tradisional, kaedah BAT tidak bergantung kepada mod dominan tetap dan mod tambahan, tetapi memperoleh prestasi yang lebih baik dalam perubahan mod tambahan kepada mod dominan melalui proses mengekstrak maklumat berkesan secara dinamik. Inovasi kaedah ini ialah ia boleh menyesuaikan diri dengan ciri data dan keperluan tugas yang berbeza, dengan itu meningkatkan keupayaan perwakilan model asas dalam tugasan hiliran. Dengan menggunakan kaedah BAT, penyelidik berharap dapat menyediakan penyelesaian penjejakan pelbagai mod yang lebih fleksibel dan cekap, membawa hasil yang lebih baik kepada penyelidikan dan aplikasi dalam bidang berkaitan.
BAT terdiri daripada dua pengekod model asas dengan parameter dikongsi khusus untuk cawangan modal dan penyesuai dwiarah am. Semasa proses latihan, BAT tidak memperhalusi model asas sepenuhnya, tetapi menggunakan kaedah latihan langkah demi langkah. Setiap cawangan modaliti tertentu dimulakan dengan menggunakan model asas dengan parameter tetap, dan hanya penyesuai dwiarah yang baru ditambah dilatih. Setiap cawangan modal mempelajari maklumat isyarat daripada modaliti lain dan menggabungkannya dengan maklumat ciri modaliti semasa untuk meningkatkan keupayaan perwakilan. Dua cawangan khusus modaliti berinteraksi melalui penyesuai dwiarah universal untuk menggabungkan maklumat dominan dan tambahan secara dinamik antara satu sama lain untuk menyesuaikan diri dengan paradigma perkaitan tidak tetap pelbagai mod. Reka bentuk ini membolehkan BAT memperhalusi kandungan tanpa mengubah maksud kandungan asal, meningkatkan keupayaan perwakilan dan kebolehsuaian model.
Penyesuai dua hala universal menggunakan struktur jam pasir yang ringan dan boleh dibenamkan ke dalam setiap lapisan pengekod pengubah model asas untuk mengelak daripada memperkenalkan sejumlah besar parameter yang boleh dipelajari. Dengan menambah hanya sebilangan kecil parameter latihan (0.32M), penyesuai dua hala universal mempunyai kos latihan yang lebih rendah dan mencapai prestasi penjejakan yang lebih baik berbanding dengan kaedah yang diperhalusi sepenuhnya dan kaedah berasaskan pembelajaran isyarat.
Kertas "Penyesuai Dwi Arah untuk Penjejakan Berbilang Modal":
Pautan kertas: https://arxiv.org/abs/2312.10611
🎜Pautan kertas: https://arxiv.org/abs/2312.10611🎜 .com/SparkTempest/BAT🎜🎜
tidak memperhalusi model asas sepenuhnya, tetapi hanya mempelajari Penyesuai dwiarah yang ringan untuk memindahkan penjejak RGB yang telah dilatih dengan cekap kepada adegan berbilang mod, mencapai pelengkap berbilang mod yang sangat baik dan ketepatan penjejakan yang sangat baik.
Rajah 2: Keseluruhan seni bina BAT.
Mula-mula tukarkan
bingkai templat (bingkai awal objek sasaran dalam bingkai pertama) dan bingkai carian ke dalam setiap imej penjejakan modaliti🜎 Mereka disambungkan bersama dan dihantar ke pengekod pengubah dwi-strim N-lapisan masing-masing. Penyesuai dwiarah disediakan selari dengan lapisan pengekod dwi-strim untuk mempelajari isyarat ciri dari satu modaliti ke mod yang lain. Untuk tujuan ini, ciri keluaran kedua-dua cawangan ditambah dan dimasukkan ke dalam kepala ramalan H untuk mendapatkan kotak keputusan penjejakan akhir B.
Penyesuai bidirectional mengamalkan reka bentuk modular dan tertanam di peringkat penampilan diri multi-kepala dan peringkat MLP masing-masing. direka untuk mengubah isyarat ciri daripada satu model kepada keadaan yang lain. Ia terdiri daripada tiga lapisan unjuran linear, tn mewakili bilangan token dalam setiap modaliti, token input pertama kali dikurangkan secara dimensi kepada unjuran de melalui bawah dan melalui lapisan unjuran linear, dan kemudian diunjurkan ke atas kepada dimensi asal dt dan disuap balik sebagai ciri gesaan Transformer lapisan pengekod kepada modaliti lain.
Melalui struktur ringkas ini, penyesuai dwiarah boleh melaksanakan gesaan ciri dengan berkesan antara mod
untuk mencapai penjejakan berbilang modal.
Memandangkan pengekod pengubah dan kepala ramalan dibekukan, hanya parameter penyesuai yang baru ditambah perlu dioptimumkan. Terutama, tidak seperti kebanyakan penyesuai tradisional, penyesuai dwiarah kami berfungsi sebagai isyarat ciri rentas mod untuk mengubah modaliti dominan secara dinamik, memastikan prestasi penjejakan yang baik dalam dunia terbuka.
Seperti yang ditunjukkan dalam Jadual 1, perbandingan pada dua set data RGBT234 dan LasHeR menunjukkan bahawa kaedah kami lebih baik daripada kaedah terkini dalam kedua-dua ketepatan dan kadar kejayaan. Seperti yang ditunjukkan dalam Rajah 3, perbandingan prestasi dengan kaedah terkini di bawah sifat pemandangan berbeza bagi dataset LasHeR juga menunjukkan keunggulan kaedah yang dicadangkan.
Percubaan ini membuktikan sepenuhnya bahawa rangka kerja penjejakan dwi-strim dan Penyesuai dwiarah kami boleh berjaya menjejaki sasaran dalam persekitaran yang paling kompleks dan secara adaptif mengekstrak maklumat berkesan daripada mod bantu dominan yang berubah secara dinamik untuk mencapai prestasi Termaju.
Jadual 1 Prestasi keseluruhan pada set data RGBT234 dan LasHeR.
Rajah 3 Perbandingan BAT dan kaedah bersaing di bawah atribut berbeza dalam dataset LasHeR.
Eksperimen membuktikan keberkesanan kami dalam mendorong maklumat berkesan secara dinamik daripada mengubah corak bantu dominan dalam senario yang kompleks. Seperti yang ditunjukkan dalam Rajah 4, berbanding dengan kaedah berkaitan yang membetulkan mod dominan, kaedah kami boleh menjejaki sasaran dengan berkesan walaupun RGB tidak tersedia sepenuhnya, apabila kedua-dua RGB dan TIR boleh memberikan maklumat yang berkesan dalam adegan berikutnya, kesan penjejakan adalah lebih baik . Penyesuai dwiarah kami secara dinamik mengekstrak ciri berkesan sasaran daripada modaliti RGB dan IR, menangkap lokasi tindak balas sasaran yang lebih tepat dan menghapuskan gangguan daripada modaliti RGB.
Rajah 4 Visualisasi hasil pengesanan.
Kami juga menilai kaedah kami pada dataset penjejakan RGBE. Seperti yang ditunjukkan dalam Rajah 5, berbanding dengan kaedah lain pada set ujian VisEvent, kaedah kami mempunyai hasil penjejakan yang paling tepat dalam senario kompleks yang berbeza, membuktikan keberkesanan dan generalisasi model BAT kami.
Rajah 5 Hasil penjejakan di bawah set data VisEvent.
Rajah 6 Perhatian visualisasi berat badan.
Kami menggambarkan berat perhatian lapisan berbeza yang menjejak sasaran dalam Rajah 6. Berbanding dengan kaedah dwi-garis dasar (rangka kerja dwi-aliran untuk permulaan parameter model asas), BAT kami memacu mod tambahan secara berkesan untuk mempelajari lebih banyak maklumat pelengkap daripada mod dominan, sambil mengekalkan keberkesanan mod dominan apabila kedalaman rangkaian meningkat. prestasi, dengan itu meningkatkan prestasi penjejakan keseluruhan.
Eksperimen menunjukkan bahawa BAT berjaya menangkap maklumat pelengkap pelbagai mod dan mencapai penjejakan dinamik adaptif sampel.
Atas ialah kandungan terperinci Kaedah BAT: Penyesuai dwiarah universal penjejakan sasaran berbilang modal pertama AAI 2024. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!