Seperti yang ditunjukkan dalam Rajah 1, rangkaian penjejakan sasaran tunggal RGB-T tiga peringkat sedia ada biasanya menggunakan dua cawangan pengekstrakan ciri bebas, yang masing-masing bertanggungjawab untuk mengekstrak ciri kedua-dua modaliti. Walau bagaimanapun, cawangan pengekstrakan ciri yang saling bebas akan menyebabkan kekurangan interaksi maklumat yang berkesan antara kedua-dua modaliti dalam peringkat pengekstrakan ciri. Oleh itu, sebaik sahaja rangkaian melengkapkan latihan luar talian, ia hanya boleh mengekstrak ciri tetap daripada setiap imej modal dan tidak boleh melaraskan secara dinamik mengikut keadaan mod sebenar untuk mengekstrak ciri dinamik yang lebih disasarkan. Had ini mengehadkan keupayaan rangkaian untuk menyesuaikan diri dengan penampilan bimodal sasaran yang pelbagai dan korespondensi dinamik antara penampilan modal. Seperti yang ditunjukkan dalam Rajah 2, kaedah pengekstrakan ciri ini tidak sesuai untuk senario aplikasi praktikal penjejakan sasaran tunggal RGB-T, terutamanya dalam persekitaran yang kompleks, kerana kesewenang-wenangan sasaran yang dijejaki akan membawa kepada penampilan bimodal sasaran yang pelbagai, dan Dinamik hubungan antara kedua-dua modaliti juga berubah apabila persekitaran penjejakan berubah. Penjejakan gabungan tiga peringkat tidak dapat menyesuaikan diri dengan situasi ini dengan baik, mengakibatkan kesesakan kelajuan yang jelas.
Kecuali rangkaian penjejakan sasaran tunggal RGB-T berdasarkan Transformer, ia menggunakan penambahan terus atau lata untuk menggabungkan ciri-ciri dua kawasan carian mod dan masukkan kepala ramalan untuk mengeluarkan hasil ramalan akhir. Walau bagaimanapun, imej video yang disediakan oleh set data penjejakan sasaran tunggal RGB-T semasa tidak diselaraskan sepenuhnya dan bukan setiap kawasan carian mod boleh memberikan maklumat yang berkesan, seperti kawasan carian mod RGB dalam malam gelap dan senario penjejakan silang yang panas. Dan kawasan carian luar inframerah tidak akan dapat memberikan maklumat penampilan sasaran yang berkesan, dan akan terdapat banyak bunyi latar belakang. Oleh itu, penggabungan ciri secara langsung melalui penambahan atau lata mengikut unsur tidak mengambil kira masalah penggabungan ciri dalam kawasan carian yang berbeza. Untuk menyelesaikan masalah ini, kertas kerja ini mencadangkan kaedah baharu yang dipanggil Fusion Feature Selection Module (FFSM). Modul FFSM digunakan terutamanya untuk memilih ciri kawasan carian penampilan sasaran dengan maklumat yang berkesan. Khususnya, modul FFSM terlebih dahulu mempelajari berat setiap ciri kawasan carian melalui mekanisme perhatian. Kemudian, ciri kawasan carian ditimbang dan dijumlahkan berdasarkan pemberat ini untuk mendapatkan ciri gabungan akhir. Mekanisme ini secara berkesan boleh menapis bunyi latar belakang yang tidak sah dan mengekstrak maklumat penampilan sasaran dengan kepentingan yang lebih tinggi, dengan itu meningkatkan prestasi penjejakan sasaran tunggal RGB-T. Untuk mengesahkan keberkesanan modul FFSM, kami menjalankan eksperimen dengan kehadiran sejumlah besar bunyi latar belakang. Keputusan eksperimen menunjukkan bahawa rangkaian penjejakan sasaran tunggal RGB-T menggunakan modul FFSM mencapai prestasi yang lebih baik dalam penjejakan sasaran berbanding dengan penambahan atau lata mengikut unsur langsung. Dalam malam gelap dan senario penjejakan silang yang panas, modul FFSM boleh memilih maklumat penampilan sasaran yang berkesan dengan tepat, meningkatkan ketepatan dan keteguhan penjejakan sasaran. Ringkasnya, pengenalan modul FFSM secara berkesan menyelesaikan masalah gabungan ciri langsung dan meningkatkan prestasi rangkaian pengesan sasaran tunggal RGB-T. Kaedah ini boleh digunakan secara meluas dengan kehadiran bunyi latar belakang yang banyak
Artikel ini memperkenalkan rangkaian penjejakan sasaran tunggal RGB-T yang cekap berdasarkan USTrack Transformer. Terasnya adalah untuk menyatukan secara langsung tiga bahagian fungsi kaedah penjejakan gabungan tiga peringkat ke dalam rangkaian tulang belakang ViT untuk pelaksanaan serentak melalui kaedah pengekstrakan ciri bersama, gabungan dan pemodelan korelasi, dengan itu mencapai pengekstrakan langsung templat sasaran dan carian di bawah interaksi mod. Ciri gabungan rantau ini dibina dan pemodelan persatuan antara dua ciri gabungan itu dibina, dengan itu meningkatkan kelajuan dan ketepatan penjejakan. Selain itu, USTrack juga mereka bentuk mekanisme pemilihan ciri berdasarkan kebolehpercayaan modal, yang boleh mengurangkan gangguan mod tidak sah dengan menekan secara langsung penjanaan mod tidak sah, dengan itu mengurangkan kesan maklumat hingar pada hasil penjejakan akhir. Akhirnya, USTrack mencipta kelajuan terpantas dalam penjejakan sasaran tunggal RGB-T semasa pada 84.2FPS, dan sangat mengurangkan maklumat hingar dengan meminimumkan sisihan kedudukan sasaran dalam dua imej mod dan mengurangkan kesan maklumat mod tidak sah pada hasil penjejakan. kesan ke atas keputusan ramalan akhir.
Sumbangan artikel ini adalah seperti berikut:
Rangkaian penjejakan gabungan tiga peringkat semasa mempunyai masalah kekurangan interaksi modal dalam peringkat pengekstrakan ciri modal. Bab ini mencadangkan kaedah pemodelan pengekstrakan ciri & gabungan & korelasi. Kaedah ini boleh mengekstrak terus ciri gabungan templat sasaran dan kawasan carian di bawah interaksi modaliti, dan pada masa yang sama melaksanakan operasi pemodelan korelasi antara dua ciri gabungan. Buat pertama kalinya, paradigma penjejakan gabungan satu peringkat yang cekap dan ringkas disediakan untuk reka bentuk rangkaian penjejakan sasaran tunggal RGB-T jangka pendek.
Jangan ubah maksud teks asal, laraskan struktur ayat, "%EF%BC%882%EF%BC%89 mula-mula mencadangkan mekanisme pemilihan ciri berdasarkan kebolehpercayaan modal, yang boleh menilai kebolehpercayaan imej modal yang berbeza berdasarkan pada sifat persekitaran penjejakan sebenar, dan buang ciri gabungan yang dijana oleh modaliti tidak sah berdasarkan kebolehpercayaan, mengurangkan kesan maklumat hingar pada hasil ramalan akhir, dengan itu meningkatkan lagi prestasi penjejakan "
Artikel ini memperkenalkan tiga tunggal RGB-T arus perdana data penanda aras penjejakan sasaran Sebilangan besar percubaan pada set menunjukkan bahawa kaedah ini bukan sahaja mencapai prestasi SoTA baharu, tetapi juga mencipta kelajuan penjejakan terpantas sehingga 84.2FPS. Terutamanya pada set data penjejak jangka pendek VTUAV dan set data penjejakan jangka panjang, USTrack mengatasi kaedah terbaik sedia ada sebanyak 11.1%/11.7% dan 11.3%/9.7% pada metrik MPR/MSR.
Seperti yang ditunjukkan dalam Rajah 3, seni bina keseluruhan USTrack terdiri daripada tiga bahagian: lapisan benam dwi, rangkaian tulang belakang ViT dan mekanisme pemilihan ciri berdasarkan kebolehpercayaan modal. Lapisan terbenam dua terdiri daripada dua lapisan terbenam bebas. Ini memandangkan mekanisme perhatian memperoleh maklumat global berdasarkan persamaan, dan prestasi yang wujud bagi data modal yang berbeza boleh menyebabkan kedua-dua modaliti mempunyai perwakilan ciri yang berbeza untuk corak yang sama Jika model dipetakan secara langsung melalui perhatian, Keheterogenan ini mungkin mengehadkan keupayaan rangkaian untuk memodelkan maklumat perkongsian keadaan mod, sekali gus menjejaskan proses gabungan ciri seterusnya. Oleh itu, USTrack menggunakan dua lapisan pembenaman yang boleh dipelajari untuk memetakan input yang sepadan dengan modaliti yang berbeza ke dalam ruang yang kondusif kepada gabungan, untuk menyelaraskan dua modaliti pada tahap tertentu dan mengurangkan kesan intrinsik modal pada gabungan ciri. Kemudian, semua output lapisan benam berganda digunakan bersama sebagai input rangkaian tulang belakang ViT, dan terus melalui lapisan perhatian. Ia menggabungkan maklumat modal, gabungan ciri dan gabungan templat sasaran melalui perhatian, menyatukan tiga peringkat fungsi penjejakan RGB-T, dan menyediakan paradigma penjejakan satu peringkat yang cekap untuk penjejakan RGB-T.
Mekanisme pemilihan ciri berdasarkan kebolehpercayaan corak ialah kepala ramalan dan dua modul penilaian kebolehpercayaan. Ia membenarkan kedua-dua kepala ramalan untuk mengeluarkan hasil yang berbeza, dan berdasarkan skor kebolehpercayaan corak, membantu rangkaian memilih kawasan carian yang sepadan dengan corak yang lebih sesuai untuk senario penjejakan semasa. Mekanisme pemilihan ciri boleh digunakan dalam ramalan akhir untuk mengurangkan kesan maklumat hingar yang dijana oleh corak tidak sah pada hasil ramalan akhir.
UStrack set data GTOT, RGB234 dan VTUAV yang dipilih sebagai penanda aras ujian, dan keputusan ujian ditunjukkan dalam Rajah 4. Kami juga menggunakan VTUAV sebagai penanda aras untuk menganalisis prestasi USTrack dalam senario cabaran yang berbeza. Seperti yang ditunjukkan dalam Rajah 5, artikel ini telah menapis enam atribut yang mencabar dengan peningkatan prestasi yang paling jelas. Ia adalah: ubah bentuk (DEF), perubahan skala (SV), oklusi lengkap (FO), oklusi separa (PO), silang terma (TC) dan pencahayaan melampau (EI). Khususnya, atribut cabaran ubah bentuk (DEF) dan perubahan skala (SV) boleh menunjukkan perbezaan dalam penampilan sasaran dengan berkesan semasa proses penjejakan. Atribut cabaran oklusi penuh (FO), oklusi separa (PO), silang terma (TC) dan pencahayaan melampau (EI) boleh menyebabkan kemunculan keadaan mod yang sepadan berubah atau hilang, dengan berkesan menunjukkan dinamik sasaran dalam senario cabaran yang berbeza perhubungan. USTrack mencapai peningkatan prestasi yang paling ketara dalam senario penjejakan dengan atribut mencabar ini, dan boleh dinilai bahawa pendekatan pemodelan pengekstrakan & gabungan & gabungan & korelasi ciri bersama dapat mengurangkan masalah interaksi ciri mod yang tidak mencukupi dalam peringkat pengekstrakan dalam tiga- paradigma penjejakan gabungan peringkat, Ia boleh menyesuaikan diri dengan lebih baik kepada hubungan dinamik antara penampilan yang berbeza dan modaliti sasaran semasa penjejakan. Rajah 4 struktur kepala mekanisme pemilihan ciri dan beberapa struktur kepala ramalan biasa dilakukan, dan hasil visual korespondensi yang baik antara kebolehpercayaan modal dan adegan pengesanan sebenar diberikan.
Bab ini mencadangkan rangkaian penjejakan sasaran tunggal RGB-T jangka pendek yang cekap berdasarkan Transformer. Teras USTrack adalah untuk mencadangkan kaedah pemodelan pengekstrakan ciri & gabungan & korelasi untuk menyelesaikan masalah kekurangan interaksi modal dalam peringkat pengekstrakan ciri rangkaian penjejakan gabungan tiga peringkat tradisional. Ini meningkatkan kebolehsuaian rangkaian penjejakan kepada penampilan bimodal sasaran yang pelbagai dan korespondensi dinamik antara penampilan mod. Atas dasar ini, mekanisme pemilihan ciri berdasarkan kebolehpercayaan modal selanjutnya dicadangkan. Mekanisme ini mengurangkan kesan maklumat hingar pada hasil ramalan akhir dengan membuang terus ciri gabungan yang dijana oleh mod tidak sah, dengan itu mencapai prestasi penjejakan yang lebih baik. USTrack mencapai prestasi SoTA pada tiga set data arus perdana dan menetapkan rekod baharu untuk kelajuan inferens penjejakan RGB-T terpantas pada 84.2 FPS. Perlu diingat bahawa pada set data penanda aras penjejakan sasaran tunggal RGB-T terbesar pada masa ini VTUAV, kaedah ini meningkatkan penunjuk penilaian MPR/MSR masing-masing sebanyak 11.1%/11.7% dan 11.3%/9.7% berbanding dengan kaedah SoTA sedia ada. mencapai kejayaan prestasi utama, menambahkan kaedah garis dasar baharu dan berkuasa pada set data penanda aras ini.
1. Xia Qiangqiang
Pelajar Sarjana, Institut Sains dan Inovasi Teknologi Pertahanan Negara, Akademi Sains Ketenteraan. Minat penyelidikan termasuk pemprosesan imej visual, pengesanan sasaran, penjejakan sasaran tunggal, dsb. Pengarang pertama menerbitkan artikel di persidangan Kelas A CCF dan memenangi hadiah pertama untuk Huawei dalam Pertandingan Inovasi Kecerdasan Buatan Siswazah China Keempat "Piala Huawei" 2022.
2. Zhao Jian
Zhao Jian, ketua Makmal Pembelajaran Kognitif Multimedia (EVOL Lab) Institut Penyelidikan Kepintaran Buatan Telekom China, seorang saintis muda, seorang penyelidik di Institut Optoelektronik dan Perisikan Universiti Politeknik Barat Laut, dan seorang graduan Ph.D dari Universiti Nasional Singapura minat penyelidikan termasuk analisis multimedia, keselamatan tempatan, dan kecerdasan yang terkandung.
Sebanyak 32 kertas kerja CCF-A diterbitkan berdasarkan pemahaman persepsi visual tanpa batasan, dan 31 karya diterbitkan sebagai pengarang pertama/padanan dalam jurnal dan persidangan berwibawa antarabangsa seperti T-PAMI dan CVPR, termasuk seorang pengarang T-PAMI× 2 ( JIKA: 24.314), IJCV×3 (JIKA: 13.369), dan pencipta pertama telah membenarkan 5 paten ciptaan kebangsaan. Pencapaian teknologi yang berkaitan telah digunakan oleh enam syarikat terkemuka dalam industri teknologi, termasuk Baidu, Ant Financial dan Qihoo 360, dan telah menghasilkan faedah yang ketara. Beliau telah dipilih ke dalam "Projek Promosi Bakat Muda" Persatuan Sains dan Teknologi China dan Persatuan Sains dan Teknologi Beijing, dan menjadi tuan rumah 6 projek termasuk Dana Sains Belia Asli Negara. Memenangi Anugerah Belia Cemerlang Kecerdasan Buatan Wu Wenjun (2023), hadiah pertama Anugerah Sains Semula Jadi Kecerdasan Buatan Wu Wenjun (2/5, 2022), Anugerah Lee Hwee Kuan Persatuan Pengiktirafan Pola dan Kepintaran Mesin (PREMIA), dan satu-satunya pelajar terbaik Anugerah Kertas Multimedia ACM (karya pertama, 1/208, persidangan CCF-A, 2018), memenangi kejohanan dalam acara saintifik dan teknologi antarabangsa yang penting sebanyak 7 kali.
Berkhidmat sebagai pengarah Persatuan Imej dan Grafik Beijing, ahli lembaga editorial jurnal terkenal antarabangsa "Kemajuan Kecerdasan Buatan" dan "IET Computer Vision", editor jemputan bagi terbitan khas "Surat Pengecaman Pola" dan "Elektronik ", pengerusi bidang kanan VALSE dan penjaring ACM Multimedia 2021. Pengerusi Forum, Pengerusi Kawasan CICAI 2022/2023, Pengerusi Forum CCBR 2024, ahli kanan Persatuan Kecerdasan Buatan China/Persatuan Imej dan Grafik China, hakim " Piala Cabaran" Pertandingan Kerja Sains dan Teknologi Pelajar Kolej, ahli Jawatankuasa Pakar Pertandingan Kepintaran Buatan China, dsb. .
https://github.com/xiajianqiang
Atas ialah kandungan terperinci Kaedah penjejakan sasaran tunggal RGB-T jangka pendek yang cekap berdasarkan Transformer. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!