Rumah > Peranti teknologi > AI > teks badan

Kaedah BAT: Penyesuai dwiarah universal penjejakan sasaran berbilang modal pertama AAI 2024

PHPz
Lepaskan: 2024-01-24 15:33:23
ke hadapan
688 orang telah melayarinya

Penjejakan objek ialah salah satu tugas asas penglihatan komputer Dalam beberapa tahun kebelakangan ini, penjejakan objek mod tunggal (RGB) telah mencapai kemajuan yang ketara. Walau bagaimanapun, disebabkan oleh pengehadan penderia pengimejan tunggal, kami perlu memperkenalkan imej berbilang mod (seperti RGB, inframerah, dll.) untuk mengimbangi kelemahan ini untuk mencapai penjejakan sasaran semua cuaca dalam persekitaran yang kompleks. Aplikasi imej berbilang modal tersebut boleh memberikan maklumat yang lebih komprehensif dan meningkatkan ketepatan dan keteguhan pengesanan dan pengesanan sasaran. Pembangunan penjejakan sasaran berbilang mod adalah sangat penting untuk merealisasikan aplikasi penglihatan komputer peringkat lebih tinggi.

Walau bagaimanapun, tugas penjejakan berbilang modal sedia ada juga menghadapi dua masalah utama:

  1. Disebabkan kos anotasi data yang tinggi untuk penjejakan sasaran berbilang modal, kebanyakan set data sedia ada adalah terhad dalam skala dan tidak mencukupi untuk menyokong Membina penjejak berbilang modal yang berkesan
  2. Oleh kerana kaedah pengimejan yang berbeza mempunyai kepekaan yang berbeza terhadap objek dalam persekitaran yang berubah-ubah, modaliti dominan dalam dunia terbuka berubah secara dinamik, dan korelasi dominan antara data berbilang modal Seks tidak tetap .

Banyak usaha penjejakan berbilang modal yang melatih terlebih dahulu jujukan RGB dan kemudian memperhalusi sepenuhnya kepada adegan berbilang modal mempunyai masalah masa dan kecekapan, serta prestasi terhad.

Selain kaedah penalaan halus yang lengkap, ia juga diilhamkan oleh kaedah penalaan halus yang cekap untuk parameter dalam bidang pemprosesan bahasa semula jadi (NLP). Beberapa kaedah baru-baru ini telah memperkenalkan penalaan segera yang cekap parameter dalam penjejakan berbilang modal. Kaedah ini melakukan ini dengan membekukan parameter rangkaian tulang belakang dan menambah set tambahan parameter yang boleh dipelajari.

Biasanya, kaedah ini memfokuskan pada satu modaliti (biasanya RGB) sebagai modaliti utama dan modaliti lain sebagai modaliti tambahan. Walau bagaimanapun, kaedah ini mengabaikan korelasi dinamik antara data berbilang modal dan oleh itu tidak dapat menggunakan sepenuhnya kesan pelengkap maklumat berbilang modal dalam adegan yang kompleks, sekali gus mengehadkan prestasi penjejakan.

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

Gambar 1: Mod dominan yang berbeza dalam senario yang kompleks.

Untuk menyelesaikan masalah di atas, penyelidik dari Universiti Tianjin mencadangkan penyelesaian yang dipanggil Penyesuai Dwi Arah untuk Penjejakan Pelbagai Modal (BAT). Berbeza daripada kaedah tradisional, kaedah BAT tidak bergantung kepada mod dominan tetap dan mod tambahan, tetapi memperoleh prestasi yang lebih baik dalam perubahan mod tambahan kepada mod dominan melalui proses mengekstrak maklumat berkesan secara dinamik. Inovasi kaedah ini ialah ia boleh menyesuaikan diri dengan ciri data dan keperluan tugas yang berbeza, dengan itu meningkatkan keupayaan perwakilan model asas dalam tugasan hiliran. Dengan menggunakan kaedah BAT, penyelidik berharap dapat menyediakan penyelesaian penjejakan pelbagai mod yang lebih fleksibel dan cekap, membawa hasil yang lebih baik kepada penyelidikan dan aplikasi dalam bidang berkaitan.

BAT terdiri daripada dua pengekod model asas dengan parameter dikongsi khusus untuk cawangan modal dan penyesuai dwiarah am. Semasa proses latihan, BAT tidak memperhalusi model asas sepenuhnya, tetapi menggunakan kaedah latihan langkah demi langkah. Setiap cawangan modaliti tertentu dimulakan dengan menggunakan model asas dengan parameter tetap, dan hanya penyesuai dwiarah yang baru ditambah dilatih. Setiap cawangan modal mempelajari maklumat isyarat daripada modaliti lain dan menggabungkannya dengan maklumat ciri modaliti semasa untuk meningkatkan keupayaan perwakilan. Dua cawangan khusus modaliti berinteraksi melalui penyesuai dwiarah universal untuk menggabungkan maklumat dominan dan tambahan secara dinamik antara satu sama lain untuk menyesuaikan diri dengan paradigma perkaitan tidak tetap pelbagai mod. Reka bentuk ini membolehkan BAT memperhalusi kandungan tanpa mengubah maksud kandungan asal, meningkatkan keupayaan perwakilan dan kebolehsuaian model.

Penyesuai dua hala universal menggunakan struktur jam pasir yang ringan dan boleh dibenamkan ke dalam setiap lapisan pengekod pengubah model asas untuk mengelak daripada memperkenalkan sejumlah besar parameter yang boleh dipelajari. Dengan menambah hanya sebilangan kecil parameter latihan (0.32M), penyesuai dua hala universal mempunyai kos latihan yang lebih rendah dan mencapai prestasi penjejakan yang lebih baik berbanding dengan kaedah yang diperhalusi sepenuhnya dan kaedah berasaskan pembelajaran isyarat.

Kertas "Penyesuai Dwi Arah untuk Penjejakan Berbilang Modal":

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

Pautan kertas: https://arxiv.org/abs/2312.10611

🎜Pautan kertas: https://arxiv.org/abs/2312.10611🎜 .com/SparkTempest/BAT🎜🎜

Sumbangan Utama

  • Kami mula-mula mencadangkan rangka kerja kiu visual pengesanan pelbagai mod berasaskan penyesuai. Model kami dapat melihat perubahan dinamik modaliti dominan dalam adegan terbuka dan menggabungkan maklumat berbilang modal dengan berkesan secara adaptif.
  • Sepanjang pengetahuan kami, kami mencadangkan penyesuai dua arah universal untuk model asas buat kali pertama. Ia mempunyai struktur yang ringkas dan cekap serta dapat merealisasikan penjejakan silang isyarat berbilang modal dengan berkesan. Dengan menambah hanya 0.32M parameter yang boleh dipelajari, model kami adalah teguh kepada penjejakan berbilang modal dalam senario terbuka.
  • Kami menjalankan analisis mendalam tentang kesan penyesuai universal kami pada kedalaman lapisan yang berbeza. Kami juga meneroka seni bina penyesuai yang lebih cekap dalam eksperimen dan mengesahkan kelebihan kami pada berbilang set data berkaitan penjejakan RGBT.

Kaedah yang ditunjukkan dalam Rajah 2, kami mencadangkan rangka kerja visual pengesan pelbagai modal (BAT) berdasarkan penyesuai bidirectional. struktur modaliti, setiap aliran menggunakan parameter model asas yang sama. Penyesuai dwiarah disediakan selari dengan lapisan pengekod dwi-strim untuk mengiu silang data multimodal daripada dua modaliti. Kaedah

tidak memperhalusi model asas sepenuhnya, tetapi hanya mempelajari Penyesuai dwiarah yang ringan untuk memindahkan penjejak RGB yang telah dilatih dengan cekap kepada adegan berbilang mod, mencapai pelengkap berbilang mod yang sangat baik dan ketepatan penjejakan yang sangat baik.

Rajah 2: Keseluruhan seni bina BAT. 首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

Mula-mula tukarkan

bingkai templat (bingkai awal objek sasaran dalam bingkai pertama首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024) dan 首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024bingkai carian ke dalam setiap imej penjejakan modaliti🜎 Mereka disambungkan bersama dan dihantar ke pengekod pengubah dwi-strim N-lapisan masing-masing. 首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024Penyesuai dwiarah disediakan selari dengan lapisan pengekod dwi-strim untuk mempelajari isyarat ciri dari satu modaliti ke mod yang lain. Untuk tujuan ini, ciri keluaran kedua-dua cawangan ditambah dan dimasukkan ke dalam kepala ramalan H untuk mendapatkan kotak keputusan penjejakan akhir B.

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

Penyesuai bidirectional mengamalkan reka bentuk modular dan tertanam di peringkat penampilan diri multi-kepala dan peringkat MLP masing-masing. direka untuk mengubah isyarat ciri daripada satu model kepada keadaan yang lain. Ia terdiri daripada tiga lapisan unjuran linear, tn mewakili bilangan token dalam setiap modaliti, token input pertama kali dikurangkan secara dimensi kepada unjuran de melalui bawah dan melalui lapisan unjuran linear, dan kemudian diunjurkan ke atas kepada dimensi asal dt dan disuap balik sebagai ciri gesaan Transformer lapisan pengekod kepada modaliti lain.

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024Melalui struktur ringkas ini, penyesuai dwiarah boleh melaksanakan gesaan ciri dengan berkesan antara mod

untuk mencapai penjejakan berbilang modal.

Memandangkan pengekod pengubah dan kepala ramalan dibekukan, hanya parameter penyesuai yang baru ditambah perlu dioptimumkan. Terutama, tidak seperti kebanyakan penyesuai tradisional, penyesuai dwiarah kami berfungsi sebagai isyarat ciri rentas mod untuk mengubah modaliti dominan secara dinamik, memastikan prestasi penjejakan yang baik dalam dunia terbuka. 首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

Hasil eksperimen

Seperti yang ditunjukkan dalam Jadual 1, perbandingan pada dua set data RGBT234 dan LasHeR menunjukkan bahawa kaedah kami lebih baik daripada kaedah terkini dalam kedua-dua ketepatan dan kadar kejayaan. Seperti yang ditunjukkan dalam Rajah 3, perbandingan prestasi dengan kaedah terkini di bawah sifat pemandangan berbeza bagi dataset LasHeR juga menunjukkan keunggulan kaedah yang dicadangkan.

Percubaan ini membuktikan sepenuhnya bahawa rangka kerja penjejakan dwi-strim dan Penyesuai dwiarah kami boleh berjaya menjejaki sasaran dalam persekitaran yang paling kompleks dan secara adaptif mengekstrak maklumat berkesan daripada mod bantu dominan yang berubah secara dinamik untuk mencapai prestasi Termaju.

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

Jadual 1 Prestasi keseluruhan pada set data RGBT234 dan LasHeR.

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

Rajah 3 Perbandingan BAT dan kaedah bersaing di bawah atribut berbeza dalam dataset LasHeR.

Eksperimen membuktikan keberkesanan kami dalam mendorong maklumat berkesan secara dinamik daripada mengubah corak bantu dominan dalam senario yang kompleks. Seperti yang ditunjukkan dalam Rajah 4, berbanding dengan kaedah berkaitan yang membetulkan mod dominan, kaedah kami boleh menjejaki sasaran dengan berkesan walaupun RGB tidak tersedia sepenuhnya, apabila kedua-dua RGB dan TIR boleh memberikan maklumat yang berkesan dalam adegan berikutnya, kesan penjejakan adalah lebih baik . Penyesuai dwiarah kami secara dinamik mengekstrak ciri berkesan sasaran daripada modaliti RGB dan IR, menangkap lokasi tindak balas sasaran yang lebih tepat dan menghapuskan gangguan daripada modaliti RGB.

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

Rajah 4 Visualisasi hasil pengesanan.

Kami juga menilai kaedah kami pada dataset penjejakan RGBE. Seperti yang ditunjukkan dalam Rajah 5, berbanding dengan kaedah lain pada set ujian VisEvent, kaedah kami mempunyai hasil penjejakan yang paling tepat dalam senario kompleks yang berbeza, membuktikan keberkesanan dan generalisasi model BAT kami.

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

Rajah 5 Hasil penjejakan di bawah set data VisEvent.

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

Rajah 6 Perhatian visualisasi berat badan.

Kami menggambarkan berat perhatian lapisan berbeza yang menjejak sasaran dalam Rajah 6. Berbanding dengan kaedah dwi-garis dasar (rangka kerja dwi-aliran untuk permulaan parameter model asas), BAT kami memacu mod tambahan secara berkesan untuk mempelajari lebih banyak maklumat pelengkap daripada mod dominan, sambil mengekalkan keberkesanan mod dominan apabila kedalaman rangkaian meningkat. prestasi, dengan itu meningkatkan prestasi penjejakan keseluruhan.

Eksperimen menunjukkan bahawa BAT berjaya menangkap maklumat pelengkap pelbagai mod dan mencapai penjejakan dinamik adaptif sampel.

Atas ialah kandungan terperinci Kaedah BAT: Penyesuai dwiarah universal penjejakan sasaran berbilang modal pertama AAI 2024. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Label berkaitan:
sumber:51cto.com
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan