Jadual Kandungan
Sumbangan Utama
Kaedah yang ditunjukkan dalam Rajah 2, kami mencadangkan rangka kerja visual pengesan pelbagai modal (BAT) berdasarkan penyesuai bidirectional. struktur modaliti, setiap aliran menggunakan parameter model asas yang sama. Penyesuai dwiarah disediakan selari dengan lapisan pengekod dwi-strim untuk mengiu silang data multimodal daripada dua modaliti. Kaedah
Hasil eksperimen
Rumah Peranti teknologi AI Kaedah BAT: Penyesuai dwiarah universal penjejakan sasaran berbilang modal pertama AAI 2024

Kaedah BAT: Penyesuai dwiarah universal penjejakan sasaran berbilang modal pertama AAI 2024

Jan 24, 2024 pm 03:33 PM
ai kereta api

Penjejakan objek ialah salah satu tugas asas penglihatan komputer Dalam beberapa tahun kebelakangan ini, penjejakan objek mod tunggal (RGB) telah mencapai kemajuan yang ketara. Walau bagaimanapun, disebabkan oleh pengehadan penderia pengimejan tunggal, kami perlu memperkenalkan imej berbilang mod (seperti RGB, inframerah, dll.) untuk mengimbangi kelemahan ini untuk mencapai penjejakan sasaran semua cuaca dalam persekitaran yang kompleks. Aplikasi imej berbilang modal tersebut boleh memberikan maklumat yang lebih komprehensif dan meningkatkan ketepatan dan keteguhan pengesanan dan pengesanan sasaran. Pembangunan penjejakan sasaran berbilang mod adalah sangat penting untuk merealisasikan aplikasi penglihatan komputer peringkat lebih tinggi.

Walau bagaimanapun, tugas penjejakan berbilang modal sedia ada juga menghadapi dua masalah utama:

  1. Disebabkan kos anotasi data yang tinggi untuk penjejakan sasaran berbilang modal, kebanyakan set data sedia ada adalah terhad dalam skala dan tidak mencukupi untuk menyokong Membina penjejak berbilang modal yang berkesan
  2. Oleh kerana kaedah pengimejan yang berbeza mempunyai kepekaan yang berbeza terhadap objek dalam persekitaran yang berubah-ubah, modaliti dominan dalam dunia terbuka berubah secara dinamik, dan korelasi dominan antara data berbilang modal Seks tidak tetap .

Banyak usaha penjejakan berbilang modal yang melatih terlebih dahulu jujukan RGB dan kemudian memperhalusi sepenuhnya kepada adegan berbilang modal mempunyai masalah masa dan kecekapan, serta prestasi terhad.

Selain kaedah penalaan halus yang lengkap, ia juga diilhamkan oleh kaedah penalaan halus yang cekap untuk parameter dalam bidang pemprosesan bahasa semula jadi (NLP). Beberapa kaedah baru-baru ini telah memperkenalkan penalaan segera yang cekap parameter dalam penjejakan berbilang modal. Kaedah ini melakukan ini dengan membekukan parameter rangkaian tulang belakang dan menambah set tambahan parameter yang boleh dipelajari.

Biasanya, kaedah ini memfokuskan pada satu modaliti (biasanya RGB) sebagai modaliti utama dan modaliti lain sebagai modaliti tambahan. Walau bagaimanapun, kaedah ini mengabaikan korelasi dinamik antara data berbilang modal dan oleh itu tidak dapat menggunakan sepenuhnya kesan pelengkap maklumat berbilang modal dalam adegan yang kompleks, sekali gus mengehadkan prestasi penjejakan.

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

Gambar 1: Mod dominan yang berbeza dalam senario yang kompleks.

Untuk menyelesaikan masalah di atas, penyelidik dari Universiti Tianjin mencadangkan penyelesaian yang dipanggil Penyesuai Dwi Arah untuk Penjejakan Pelbagai Modal (BAT). Berbeza daripada kaedah tradisional, kaedah BAT tidak bergantung kepada mod dominan tetap dan mod tambahan, tetapi memperoleh prestasi yang lebih baik dalam perubahan mod tambahan kepada mod dominan melalui proses mengekstrak maklumat berkesan secara dinamik. Inovasi kaedah ini ialah ia boleh menyesuaikan diri dengan ciri data dan keperluan tugas yang berbeza, dengan itu meningkatkan keupayaan perwakilan model asas dalam tugasan hiliran. Dengan menggunakan kaedah BAT, penyelidik berharap dapat menyediakan penyelesaian penjejakan pelbagai mod yang lebih fleksibel dan cekap, membawa hasil yang lebih baik kepada penyelidikan dan aplikasi dalam bidang berkaitan.

BAT terdiri daripada dua pengekod model asas dengan parameter dikongsi khusus untuk cawangan modal dan penyesuai dwiarah am. Semasa proses latihan, BAT tidak memperhalusi model asas sepenuhnya, tetapi menggunakan kaedah latihan langkah demi langkah. Setiap cawangan modaliti tertentu dimulakan dengan menggunakan model asas dengan parameter tetap, dan hanya penyesuai dwiarah yang baru ditambah dilatih. Setiap cawangan modal mempelajari maklumat isyarat daripada modaliti lain dan menggabungkannya dengan maklumat ciri modaliti semasa untuk meningkatkan keupayaan perwakilan. Dua cawangan khusus modaliti berinteraksi melalui penyesuai dwiarah universal untuk menggabungkan maklumat dominan dan tambahan secara dinamik antara satu sama lain untuk menyesuaikan diri dengan paradigma perkaitan tidak tetap pelbagai mod. Reka bentuk ini membolehkan BAT memperhalusi kandungan tanpa mengubah maksud kandungan asal, meningkatkan keupayaan perwakilan dan kebolehsuaian model.

Penyesuai dua hala universal menggunakan struktur jam pasir yang ringan dan boleh dibenamkan ke dalam setiap lapisan pengekod pengubah model asas untuk mengelak daripada memperkenalkan sejumlah besar parameter yang boleh dipelajari. Dengan menambah hanya sebilangan kecil parameter latihan (0.32M), penyesuai dua hala universal mempunyai kos latihan yang lebih rendah dan mencapai prestasi penjejakan yang lebih baik berbanding dengan kaedah yang diperhalusi sepenuhnya dan kaedah berasaskan pembelajaran isyarat.

Kertas "Penyesuai Dwi Arah untuk Penjejakan Berbilang Modal":

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

Pautan kertas: https://arxiv.org/abs/2312.10611

🎜Pautan kertas: https://arxiv.org/abs/2312.10611🎜 .com/SparkTempest/BAT🎜🎜

Sumbangan Utama

  • Kami mula-mula mencadangkan rangka kerja kiu visual pengesanan pelbagai mod berasaskan penyesuai. Model kami dapat melihat perubahan dinamik modaliti dominan dalam adegan terbuka dan menggabungkan maklumat berbilang modal dengan berkesan secara adaptif.
  • Sepanjang pengetahuan kami, kami mencadangkan penyesuai dua arah universal untuk model asas buat kali pertama. Ia mempunyai struktur yang ringkas dan cekap serta dapat merealisasikan penjejakan silang isyarat berbilang modal dengan berkesan. Dengan menambah hanya 0.32M parameter yang boleh dipelajari, model kami adalah teguh kepada penjejakan berbilang modal dalam senario terbuka.
  • Kami menjalankan analisis mendalam tentang kesan penyesuai universal kami pada kedalaman lapisan yang berbeza. Kami juga meneroka seni bina penyesuai yang lebih cekap dalam eksperimen dan mengesahkan kelebihan kami pada berbilang set data berkaitan penjejakan RGBT.

Kaedah yang ditunjukkan dalam Rajah 2, kami mencadangkan rangka kerja visual pengesan pelbagai modal (BAT) berdasarkan penyesuai bidirectional. struktur modaliti, setiap aliran menggunakan parameter model asas yang sama. Penyesuai dwiarah disediakan selari dengan lapisan pengekod dwi-strim untuk mengiu silang data multimodal daripada dua modaliti. Kaedah

tidak memperhalusi model asas sepenuhnya, tetapi hanya mempelajari Penyesuai dwiarah yang ringan untuk memindahkan penjejak RGB yang telah dilatih dengan cekap kepada adegan berbilang mod, mencapai pelengkap berbilang mod yang sangat baik dan ketepatan penjejakan yang sangat baik.

Rajah 2: Keseluruhan seni bina BAT. 首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

Mula-mula tukarkan

bingkai templat (bingkai awal objek sasaran dalam bingkai pertama首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024) dan 首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024bingkai carian ke dalam setiap imej penjejakan modaliti🜎 Mereka disambungkan bersama dan dihantar ke pengekod pengubah dwi-strim N-lapisan masing-masing. 首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024Penyesuai dwiarah disediakan selari dengan lapisan pengekod dwi-strim untuk mempelajari isyarat ciri dari satu modaliti ke mod yang lain. Untuk tujuan ini, ciri keluaran kedua-dua cawangan ditambah dan dimasukkan ke dalam kepala ramalan H untuk mendapatkan kotak keputusan penjejakan akhir B.

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

Penyesuai bidirectional mengamalkan reka bentuk modular dan tertanam di peringkat penampilan diri multi-kepala dan peringkat MLP masing-masing. direka untuk mengubah isyarat ciri daripada satu model kepada keadaan yang lain. Ia terdiri daripada tiga lapisan unjuran linear, tn mewakili bilangan token dalam setiap modaliti, token input pertama kali dikurangkan secara dimensi kepada unjuran de melalui bawah dan melalui lapisan unjuran linear, dan kemudian diunjurkan ke atas kepada dimensi asal dt dan disuap balik sebagai ciri gesaan Transformer lapisan pengekod kepada modaliti lain.

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024Melalui struktur ringkas ini, penyesuai dwiarah boleh melaksanakan gesaan ciri dengan berkesan antara mod

untuk mencapai penjejakan berbilang modal.

Memandangkan pengekod pengubah dan kepala ramalan dibekukan, hanya parameter penyesuai yang baru ditambah perlu dioptimumkan. Terutama, tidak seperti kebanyakan penyesuai tradisional, penyesuai dwiarah kami berfungsi sebagai isyarat ciri rentas mod untuk mengubah modaliti dominan secara dinamik, memastikan prestasi penjejakan yang baik dalam dunia terbuka. 首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

Hasil eksperimen

Seperti yang ditunjukkan dalam Jadual 1, perbandingan pada dua set data RGBT234 dan LasHeR menunjukkan bahawa kaedah kami lebih baik daripada kaedah terkini dalam kedua-dua ketepatan dan kadar kejayaan. Seperti yang ditunjukkan dalam Rajah 3, perbandingan prestasi dengan kaedah terkini di bawah sifat pemandangan berbeza bagi dataset LasHeR juga menunjukkan keunggulan kaedah yang dicadangkan.

Percubaan ini membuktikan sepenuhnya bahawa rangka kerja penjejakan dwi-strim dan Penyesuai dwiarah kami boleh berjaya menjejaki sasaran dalam persekitaran yang paling kompleks dan secara adaptif mengekstrak maklumat berkesan daripada mod bantu dominan yang berubah secara dinamik untuk mencapai prestasi Termaju.

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

Jadual 1 Prestasi keseluruhan pada set data RGBT234 dan LasHeR.

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

Rajah 3 Perbandingan BAT dan kaedah bersaing di bawah atribut berbeza dalam dataset LasHeR.

Eksperimen membuktikan keberkesanan kami dalam mendorong maklumat berkesan secara dinamik daripada mengubah corak bantu dominan dalam senario yang kompleks. Seperti yang ditunjukkan dalam Rajah 4, berbanding dengan kaedah berkaitan yang membetulkan mod dominan, kaedah kami boleh menjejaki sasaran dengan berkesan walaupun RGB tidak tersedia sepenuhnya, apabila kedua-dua RGB dan TIR boleh memberikan maklumat yang berkesan dalam adegan berikutnya, kesan penjejakan adalah lebih baik . Penyesuai dwiarah kami secara dinamik mengekstrak ciri berkesan sasaran daripada modaliti RGB dan IR, menangkap lokasi tindak balas sasaran yang lebih tepat dan menghapuskan gangguan daripada modaliti RGB.

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

Rajah 4 Visualisasi hasil pengesanan.

Kami juga menilai kaedah kami pada dataset penjejakan RGBE. Seperti yang ditunjukkan dalam Rajah 5, berbanding dengan kaedah lain pada set ujian VisEvent, kaedah kami mempunyai hasil penjejakan yang paling tepat dalam senario kompleks yang berbeza, membuktikan keberkesanan dan generalisasi model BAT kami.

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

Rajah 5 Hasil penjejakan di bawah set data VisEvent.

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

Rajah 6 Perhatian visualisasi berat badan.

Kami menggambarkan berat perhatian lapisan berbeza yang menjejak sasaran dalam Rajah 6. Berbanding dengan kaedah dwi-garis dasar (rangka kerja dwi-aliran untuk permulaan parameter model asas), BAT kami memacu mod tambahan secara berkesan untuk mempelajari lebih banyak maklumat pelengkap daripada mod dominan, sambil mengekalkan keberkesanan mod dominan apabila kedalaman rangkaian meningkat. prestasi, dengan itu meningkatkan prestasi penjejakan keseluruhan.

Eksperimen menunjukkan bahawa BAT berjaya menangkap maklumat pelengkap pelbagai mod dan mencapai penjejakan dinamik adaptif sampel.

Atas ialah kandungan terperinci Kaedah BAT: Penyesuai dwiarah universal penjejakan sasaran berbilang modal pertama AAI 2024. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Bagaimana cara menukar saiz senarai bootstrap? Bagaimana cara menukar saiz senarai bootstrap? Apr 07, 2025 am 10:45 AM

Saiz senarai bootstrap bergantung kepada saiz bekas yang mengandungi senarai, bukan senarai itu sendiri. Menggunakan sistem grid Bootstrap atau Flexbox boleh mengawal saiz bekas, dengan itu secara tidak langsung mengubah saiz item senarai.

Bagaimana untuk melaksanakan penyiaran senarai bootstrap? Bagaimana untuk melaksanakan penyiaran senarai bootstrap? Apr 07, 2025 am 10:27 AM

Senarai bersarang di Bootstrap memerlukan penggunaan sistem grid Bootstrap untuk mengawal gaya. Pertama, gunakan lapisan luar & lt; ul & gt; dan & lt; li & gt; Untuk membuat senarai, kemudian bungkus senarai lapisan dalaman dalam & lt; div class = & quot; row & gt; dan tambah & lt; kelas div = & quot; col-md-6 & quot; & gt; ke senarai lapisan dalaman untuk menentukan bahawa senarai lapisan dalaman menduduki separuh lebar baris. Dengan cara ini, senarai dalaman boleh mempunyai yang betul

Bagaimana cara menambah ikon ke senarai bootstrap? Bagaimana cara menambah ikon ke senarai bootstrap? Apr 07, 2025 am 10:42 AM

Cara Menambah Ikon ke Senarai Bootstrap: Secara langsung barangan ikon ke dalam item senarai & lt; li & gt;, menggunakan nama kelas yang disediakan oleh Perpustakaan Ikon (seperti Font Awesome). Gunakan kelas Bootstrap untuk menyelaraskan ikon dan teks (contohnya, D-Flex, Justify-Content-Between, Align-Items-Center). Gunakan komponen tag bootstrap (lencana) untuk memaparkan nombor atau status. Laraskan kedudukan ikon (arah flex: row-reverse;), mengawal gaya (gaya CSS). Ralat biasa: ikon tidak dipaparkan (tidak

Kaedah apa yang digunakan untuk menukar rentetan ke dalam objek dalam vue.js? Kaedah apa yang digunakan untuk menukar rentetan ke dalam objek dalam vue.js? Apr 07, 2025 pm 09:39 PM

Apabila menukar rentetan ke objek dalam vue.js, json.parse () lebih disukai untuk rentetan json standard. Untuk rentetan JSON yang tidak standard, rentetan boleh diproses dengan menggunakan ungkapan biasa dan mengurangkan kaedah mengikut format atau url yang dikodkan. Pilih kaedah yang sesuai mengikut format rentetan dan perhatikan isu keselamatan dan pengekodan untuk mengelakkan pepijat.

Cara Melihat Sistem Grid Bootstrap Cara Melihat Sistem Grid Bootstrap Apr 07, 2025 am 09:48 AM

Sistem mesh Bootstrap adalah peraturan untuk membina susun atur responsif dengan cepat, yang terdiri daripada tiga kelas utama: kontena (kontena), baris (baris), dan col (lajur). Secara lalai, grid 12-kolumn disediakan, dan lebar setiap lajur boleh diselaraskan melalui kelas tambahan seperti Col-MD-, dengan itu mencapai pengoptimuman susun atur untuk saiz skrin yang berbeza. Dengan menggunakan kelas mengimbangi dan jejaring bersarang, fleksibiliti susun atur boleh dilanjutkan. Apabila menggunakan sistem grid, pastikan setiap elemen mempunyai struktur bersarang yang betul dan pertimbangkan pengoptimuman prestasi untuk meningkatkan kelajuan pemuatan halaman. Hanya dengan pemahaman dan amalan yang mendalam, kita dapat menguasai sistem grid bootstrap yang mahir.

Apakah perubahan yang telah dibuat dengan gaya senarai Bootstrap 5? Apakah perubahan yang telah dibuat dengan gaya senarai Bootstrap 5? Apr 07, 2025 am 11:09 AM

Perubahan gaya Bootstrap 5 adalah disebabkan oleh pengoptimuman terperinci dan peningkatan semantik, termasuk: margin lalai senarai yang tidak teratur dipermudahkan, dan kesan visual adalah bersih dan kemas; Gaya senarai menekankan semantik, meningkatkan kebolehcapaian dan penyelenggaraan.

Cara melihat reka bentuk responsif Bootstrap Cara melihat reka bentuk responsif Bootstrap Apr 07, 2025 am 10:30 AM

Reka bentuk responsif Bootstrap secara automatik menyesuaikan kesan paparan halaman pada saiz skrin yang berbeza melalui pertanyaan media CSS. Ia mempamerkan satu siri titik putus di bawah saiz skrin yang berbeza, dan gaya yang berbeza digunakan secara dinamik mengikut lebar skrin untuk mencapai penyesuaian halaman.

Cara mendaftarkan komponen yang dieksport oleh lalai eksport di Vue Cara mendaftarkan komponen yang dieksport oleh lalai eksport di Vue Apr 07, 2025 pm 06:24 PM

Soalan: Bagaimana untuk mendaftarkan komponen VUE yang dieksport melalui lalai eksport? Jawapan: Terdapat tiga kaedah pendaftaran: Pendaftaran Global: Gunakan kaedah vue.component () untuk mendaftar sebagai komponen global. Pendaftaran Tempatan: Daftar dalam pilihan Komponen, hanya terdapat dalam komponen semasa dan subkomponennya. Pendaftaran Dinamik: Gunakan kaedah vue.component () untuk mendaftar selepas komponen dimuatkan.

See all articles