Effiziente einstufige Kurzzeit-RGB-T-Einzelzielverfolgungsmethode basierend auf Transformer

PHPz
Freigeben: 2024-04-23 08:01:01
nach vorne
854 Leute haben es durchsucht

Einführung

Wie in Abbildung 1 dargestellt, verwendet das bestehende dreistufige RGB-T-Einzelzielverfolgungsnetzwerk normalerweise zwei unabhängige Merkmalsextraktionszweige, die jeweils für die Extraktion der Merkmale der beiden Modalitäten verantwortlich sind. Allerdings führen voneinander unabhängige Merkmalsextraktionszweige zu einem Mangel an effektiver Informationsinteraktion zwischen den beiden Modalitäten in der Merkmalsextraktionsphase. Sobald das Netzwerk das Offline-Training abgeschlossen hat, kann es daher nur feste Merkmale aus jedem Modalbild extrahieren und kann sich nicht dynamisch an den tatsächlichen Modalzustand anpassen, um gezieltere dynamische Merkmale zu extrahieren. Diese Einschränkung schränkt die Fähigkeit des Netzwerks ein, sich an verschiedene bimodale Zielerscheinungen und die dynamische Entsprechung zwischen modalen Erscheinungen anzupassen. Wie in Abbildung 2 dargestellt, eignet sich diese Methode zur Merkmalsextraktion nicht für praktische Anwendungsszenarien der RGB-T-Einzelzielverfolgung, insbesondere in komplexen Umgebungen, da die Beliebigkeit des verfolgten Ziels zu unterschiedlichen bimodalen Erscheinungsformen des Ziels und der Dynamik führt Die Beziehung zwischen den beiden Modalitäten ändert sich auch, wenn sich die Tracking-Umgebung ändert. Die dreistufige Fusionsverfolgung kann sich dieser Situation nicht gut anpassen, was zu einem offensichtlichen Geschwindigkeitsengpass führt.

Mit Ausnahme des auf Transformer basierenden RGB-T-Einzelzielverfolgungsnetzwerks werden die Funktionen der beiden modalen Suchbereiche durch direkte Addition oder Kaskade kombiniert und der Vorhersagekopf eingegeben, um das endgültige Vorhersageergebnis auszugeben. Die vom aktuellen RGB-T-Einzelzielverfolgungsdatensatz bereitgestellten Videobilder sind jedoch nicht vollständig ausgerichtet, und nicht jeder modale Suchbereich kann effektive Informationen bereitstellen, wie z. B. der modale RGB-Suchbereich in dunklen Nacht- und heißen Cross-Tracking-Szenarien. Und der äußere Infrarot-Suchbereich wird keine effektiven Informationen über das Erscheinungsbild des Ziels liefern können, und es wird viel Hintergrundrauschen geben. Daher berücksichtigt die direkte Zusammenführung von Features durch elementweise Addition oder Kaskadierung nicht das Problem der Zusammenführung von Features in verschiedenen Suchbereichen. Um dieses Problem zu lösen, schlägt dieses Papier eine neue Methode namens Fusion Feature Selection Module (FFSM) vor. Das FFSM-Modul wird hauptsächlich zur Auswahl von Suchbereichsmerkmalen mit Zielerscheinung und effektiven Informationen verwendet. Insbesondere lernt das FFSM-Modul zunächst über den Aufmerksamkeitsmechanismus das Gewicht jedes Suchbereichsmerkmals. Anschließend werden die Merkmale des Suchbereichs gewichtet und basierend auf diesen Gewichten summiert, um die endgültigen Fusionsmerkmale zu erhalten. Dieser Mechanismus kann ungültige Hintergrundgeräusche effektiv herausfiltern und wichtigere Informationen zum Erscheinungsbild des Ziels extrahieren, wodurch die Leistung der RGB-T-Einzelzielverfolgung verbessert wird. Um die Wirksamkeit des FFSM-Moduls zu überprüfen, führten wir Experimente bei starkem Hintergrundrauschen durch. Experimentelle Ergebnisse zeigen, dass das RGB-T-Einzelzielverfolgungsnetzwerk unter Verwendung des FFSM-Moduls eine bessere Leistung bei der Zielverfolgung im Vergleich zur direkten elementweisen Addition oder Kaskade erzielt. In dunklen Nacht- und heißen Cross-Tracking-Szenarien kann das FFSM-Modul effektive Zielerscheinungsinformationen präzise auswählen und so die Genauigkeit und Robustheit der Zielverfolgung verbessern. Kurz gesagt, die Einführung des FFSM-Moduls löst effektiv das Problem der direkten Merkmalsfusion und verbessert die Leistung des RGB-T-Einzelzielverfolgungsnetzwerks. Diese Methode kann häufig verwendet werden, wenn viel Hintergrundrauschen vorhanden ist Transformator. Sein Kern besteht darin, die drei Funktionsteile der dreistufigen Fusionsverfolgungsmethode direkt in einem ViT-Backbone-Netzwerk zur gleichzeitigen Ausführung durch gemeinsame Methoden zur Merkmalsextraktion, Fusion und Korrelationsmodellierung zu vereinen und so eine direkte Extraktion von Zielvorlagen und eine Suche unter modaler Interaktion zu erreichen. Die Fusionsmerkmale der Region und die Konstruktion der Assoziationsmodellierung zwischen den beiden Fusionsmerkmalen verbessern so die Verfolgungsgeschwindigkeit und -genauigkeit erheblich. Darüber hinaus hat USTrack auch einen Mechanismus zur Funktionsauswahl basierend auf der Modalzuverlässigkeit entwickelt, der die Interferenz ungültiger Modi reduzieren kann, indem die Erzeugung ungültiger Modi direkt unterdrückt wird, wodurch der Einfluss von Rauschinformationen auf die endgültigen Tracking-Ergebnisse verringert wird. Am Ende erzielte USTrack mit 84,2 Bildern pro Sekunde die höchste Geschwindigkeit bei der aktuellen RGB-T-Einzelzielverfolgung und reduzierte die Rauschinformationen erheblich, indem die Positionsabweichung des Ziels in den beiden Modalbildern minimiert und die Auswirkungen ungültiger Modalinformationen auf die Verfolgung abgeschwächt wurden Auswirkungen auf die endgültigen Prognoseergebnisse.

Die Beiträge dieses Artikels lauten wie folgt: Effiziente einstufige Kurzzeit-RGB-T-Einzelzielverfolgungsmethode basierend auf Transformer
Das aktuelle dreistufige Fusionsverfolgungsnetzwerk weist das Problem mangelnder modaler Interaktion in der Phase der modalen Merkmalsextraktion auf. In diesem Kapitel wird eine gemeinsame Methode zur Merkmalsextraktion, Fusion und Korrelationsmodellierung vorgeschlagen. Diese Methode kann die Fusionsmerkmale der Zielvorlage und des Suchbereichs unter der Interaktion von Modalitäten direkt extrahieren und gleichzeitig den Korrelationsmodellierungsvorgang zwischen den beiden Fusionsmerkmalen durchführen. Zum ersten Mal wird ein effizientes und prägnantes einstufiges Fusionsverfolgungsparadigma für den Entwurf eines kurzfristigen RGB-T-Einzelzielverfolgungsnetzwerks bereitgestellt.

Ändern Sie nicht die Bedeutung des Originaltextes, passen Sie die Satzstruktur an. „%EF%BC%882%EF%BC%89 schlug zunächst einen Mechanismus zur Merkmalsauswahl basierend auf der Modalzuverlässigkeit vor, mit dem die Zuverlässigkeit verschiedener Modalbilder bewertet werden kann auf den tatsächlichen Tracking-Umgebungseigenschaften und verwerfen Sie die durch ungültige Modalitäten generierten Fusionsfunktionen basierend auf der Zuverlässigkeit, wodurch der Einfluss von Rauschinformationen auf die endgültigen Vorhersageergebnisse verringert und dadurch die Tracking-Leistung weiter verbessert wird. "

In diesem Artikel werden drei gängige RGB-T-Singles vorgestellt Eine Vielzahl von Experimenten am Set zeigen, dass diese Methode nicht nur eine neue SoTA-Leistung erzielt, sondern auch die schnellste Tracking-Geschwindigkeit von bis zu 84,2 FPS schafft. Insbesondere beim VTUAV-Kurzzeit-Tracker-Datensatz und beim Langzeit-Tracking-Datensatz übertrifft USTrack die besten vorhandenen Methoden um 11,1 %/11,7 % und 11,3 %/9,7 % bei MPR/MSR-Metriken.

Methode

Wie in Abbildung 3 dargestellt, besteht die Gesamtarchitektur von USTrack aus drei Teilen: zwei Einbettungsschichten, einem ViT-Backbone-Netzwerk und einem Funktionsauswahlmechanismus basierend auf der Modalzuverlässigkeit. Dual eingebettete Schichten bestehen aus zwei unabhängigen eingebetteten Schichten. Dabei wird berücksichtigt, dass der Aufmerksamkeitsmechanismus globale Informationen basierend auf Ähnlichkeit erhält und die inhärente Leistung unterschiedlicher Modaldaten dazu führen kann, dass die beiden Modalitäten unterschiedliche Merkmalsdarstellungen für dasselbe Muster aufweisen. Wenn das Modell direkt durch Aufmerksamkeit abgebildet wird, kann diese Heterogenität eingeschränkt sein Die Fähigkeit des Netzwerks, gemeinsam genutzte Informationen über den Modalzustand zu modellieren, beeinflusst somit den nachfolgenden Feature-Fusion-Prozess. Daher verwendet USTrack zwei lernbare Einbettungsebenen, um die Eingaben, die unterschiedlichen Modalitäten entsprechen, in einem Raum abzubilden, der der Fusion förderlich ist, um die beiden Modalitäten bis zu einem gewissen Grad auszurichten und die Auswirkungen modaler Eigenheiten auf die Merkmalsfusion zu verringern. Anschließend werden alle Ausgänge der doppelten Einbettungsschicht gemeinsam als Eingänge des ViT-Backbone-Netzwerks verwendet und direkt durch die Aufmerksamkeitsschicht geleitet. Es vereint modale Informationen, Feature-Fusion und Zielvorlagen-Fusion durch Aufmerksamkeit, vereinheitlicht die drei Funktionsstufen des RGB-T-Trackings und bietet ein effizientes einstufiges Tracking-Paradigma für das RGB-T-Tracking.

Der auf der Musterzuverlässigkeit basierende Mechanismus zur Merkmalsauswahl besteht aus einem Vorhersagekopf und zwei Zuverlässigkeitsbewertungsmodulen. Es ermöglicht den beiden Vorhersageköpfen, unterschiedliche Ergebnisse auszugeben, und hilft dem Netzwerk basierend auf der Musterzuverlässigkeitsbewertung, den Suchbereich auszuwählen, der dem Muster entspricht, das für das aktuelle Tracking-Szenario besser geeignet ist. Der Merkmalsauswahlmechanismus kann in der endgültigen Vorhersage verwendet werden, um den Einfluss von Rauschinformationen, die durch ungültige Muster erzeugt werden, auf das endgültige Vorhersageergebnis zu reduzieren.

Effiziente einstufige Kurzzeit-RGB-T-Einzelzielverfolgungsmethode basierend auf Transformer
Abbildung 3

Experimentelle Ergebnisse

USVerfolgen Sie ausgewählte GTOT-, RGB234- und VTUAV-Datensätze als Testbenchmarks. Die Testergebnisse sind in Abbildung 4 dargestellt. Wir haben VTUAV auch als Benchmark verwendet, um die Leistung von USTrack in verschiedenen Herausforderungsszenarien zu analysieren. Wie in Abbildung 5 dargestellt, wurden in diesem Artikel die sechs herausfordernden Attribute mit den offensichtlichsten Leistungsverbesserungen herausgesucht. Dies sind: Verformung (DEF), Skalenänderung (SV), vollständige Okklusion (FO), teilweise Okklusion (PO), thermischer Übergang (TC) und extreme Beleuchtung (EI). Insbesondere die Herausforderungsattribute Verformung (DEF) und Maßstabsänderung (SV) können die Unterschiede im Erscheinungsbild des Ziels während des Verfolgungsprozesses effektiv demonstrieren. Die Herausforderungsattribute „Volle Okklusion“ (FO), „Teilliche Okklusion“ (PO), „Thermal Crossover“ (TC) und „Extreme Illumination“ (EI) können dazu führen, dass sich das Erscheinungsbild des entsprechenden modalen Zustands ändert oder verschwindet, wodurch die Dynamik des Ziels in verschiedenen Herausforderungsszenarien effektiv demonstriert wird Beziehung. USTrack erzielte mit diesen herausfordernden Attributen die bedeutendsten Leistungsverbesserungen in Tracking-Szenarien, und es kann bewertet werden, dass der gemeinsame Ansatz zur Merkmalsextraktion, -fusion und -korrelationsmodellierung das Problem der unzureichenden Interaktion von Modalmerkmalen in der Extraktionsphase in den drei Phasen wirksam lindern kann. Stage-Fusion-Tracking-Paradigma. Es kann sich besser an die dynamische Beziehung zwischen verschiedenen Erscheinungsbildern und Modalitäten des Ziels während der Verfolgung anpassen.

Effiziente einstufige Kurzzeit-RGB-T-Einzelzielverfolgungsmethode basierend auf Transformer
Abbildung 4
Effiziente einstufige Kurzzeit-RGB-T-Einzelzielverfolgungsmethode basierend auf Transformer
Abbildung 5

Wie in Abbildung 6 und gezeigt, haben wir das Modell um Vergleichsexperimente zwischen der dualen Vorhersage erweitert, um die Wirksamkeit des Merkmalsauswahlmechanismus basierend auf der Modalzuverlässigkeit zu überprüfen Die Kopfstruktur des Merkmalsauswahlmechanismus und mehrere gängige Vorhersagekopfstrukturen werden durchgeführt, und die visuellen Ergebnisse der guten Übereinstimmung zwischen der Modalzuverlässigkeit und der tatsächlichen Verfolgungsszene werden angegeben.

Effiziente einstufige Kurzzeit-RGB-T-Einzelzielverfolgungsmethode basierend auf Transformer
Abbildung 6
Effiziente einstufige Kurzzeit-RGB-T-Einzelzielverfolgungsmethode basierend auf Transformer
Abbildung 7

Zusammenfassung

In diesem Kapitel wird ein effizientes einstufiges kurzfristiges RGB-T-Einzelzielverfolgungsnetzwerk USTrack basierend auf Transformer vorgeschlagen. Der Kern von USTrack besteht darin, eine gemeinsame Methode zur Merkmalsextraktion, Fusion und Korrelationsmodellierung vorzuschlagen, um das Problem der fehlenden modalen Interaktion in der Merkmalsextraktionsphase des traditionellen dreistufigen Fusions-Tracking-Netzwerks zu lösen. Dies verbessert die Anpassungsfähigkeit des Tracking-Netzwerks an verschiedene bimodale Erscheinungsbilder des Ziels und die dynamische Entsprechung zwischen modalen Erscheinungsbildern. Auf dieser Grundlage wird weiterhin ein Merkmalsauswahlmechanismus vorgeschlagen, der auf der Modalzuverlässigkeit basiert. Dieser Mechanismus reduziert den Einfluss von Rauschinformationen auf das endgültige Vorhersageergebnis, indem die durch ungültige Modi generierten Fusionsmerkmale direkt verworfen werden, wodurch eine bessere Tracking-Leistung erzielt wird. USTrack erreicht SoTA-Leistung bei drei Mainstream-Datensätzen und stellt mit 84,2 FPS einen neuen Rekord für die schnellste RGB-T-Tracking-Inferenzgeschwindigkeit auf. Es ist erwähnenswert, dass diese Methode beim derzeit größten RGB-T-Einzelzielverfolgungs-Benchmark-Datensatz VTUAV die Bewertungsindikatoren MPR/MSR um 11,1 %/11,7 % bzw. 11,3 %/9,7 % im Vergleich zur bestehenden SoTA-Methode erhöht. erzielte einen großen Leistungsdurchbruch, indem es diesem Benchmark-Datensatz eine neue und leistungsstarke Basismethode hinzufügte.

Autoreninformationen

1. Xia Qiangqiang

Masterstudent, Institut für Nationale Verteidigungswissenschaft und Technologieinnovation, Akademie der Militärwissenschaften. Zu den Forschungsinteressen gehören visuelle Bildverarbeitung, Zielerkennung, Einzelzielverfolgung usw. Der Erstautor veröffentlichte einen Artikel auf der CCF-Klasse-A-Konferenz und gewann den ersten Preis für Huawei beim „Huawei Cup“, dem vierten chinesischen Innovationswettbewerb für Absolventen künstlicher Intelligenz.

2. Zhao Jian

Zhao Jian, Leiter des Multimedia Cognitive Learning Laboratory (EVOL Lab) des China Telecom Artificial Intelligence Research Institute, ein junger Wissenschaftler, ein Forscher am Institut für Optoelektronik und Intelligenz der Northwestern Polytechnical University, und ein Doktorand der National University of Singapore. Zu seinen Forschungsinteressen zählen Multimedia-Analyse, lokale Sicherheit und verkörperte Intelligenz.

Insgesamt wurden 32 CCF-A-Artikel zum uneingeschränkten visuellen Wahrnehmungsverständnis veröffentlicht, und 31 Artikel wurden als erster/korrespondierender Autor in maßgeblichen internationalen Fachzeitschriften und Konferenzen wie T-PAMI und CVPR veröffentlicht, darunter ein Autor, T-PAMI× 2 (IF: 24,314), IJCV×3 (IF: 13,369) und der erste Erfinder hat 5 nationale Erfindungspatente genehmigt. Relevante technologische Errungenschaften wurden von sechs führenden Unternehmen der Technologiebranche, darunter Baidu, Ant Financial und Qihoo 360, umgesetzt und haben zu erheblichen Vorteilen geführt. Er wurde in das „Young Talent Promotion Project“ der China Association for Science and Technology und der Beijing Association for Science and Technology aufgenommen und war Gastgeber von sechs Projekten, darunter dem National Natural Youth Science Fund. Gewann den Wu Wenjun Artificial Intelligence Outstanding Youth Award (2023), den ersten Preis des Wu Wenjun Artificial Intelligence Natural Science Award (2/5, 2022), den Lee Hwee Kuan Award der Singapore Pattern Recognition and Machine Intelligence Association (PREMIA) und den einziger bester Student des ACM Multimedia Paper Award (Erstarbeit, 1/208, CCF-A-Konferenz, 2018), gewann sieben Mal die Meisterschaft bei wichtigen internationalen wissenschaftlichen und technologischen Veranstaltungen.

Denkte als Direktor der Beijing Image and Graphics Society, als Redaktionsmitglied der international renommierten Fachzeitschriften „Artificial Intelligence Advances“ und „IET Computer Vision“ und als Gastredakteur der Sonderausgaben von „Pattern Recognition Letters“ und „Electronics“. ", ein leitender Field Chairman von VALSE und ein ACM Multimedia 2021-Scorer. Forumsvorsitzender, CICAI 2022/2023 Area Chairman, CCBR 2024 Forum Chairman, leitendes Mitglied der China Artificial Intelligence Society/China Image and Graphics Society, Juror der „Challenge“. Cup" College Student Science and Technology Works Competition, Mitglied des Expertenkomitees des China Artificial Intelligence Competition usw.

Homepage: https://zhaoj9014.github.io

Screenshot des Papiers

Effiziente einstufige Kurzzeit-RGB-T-Einzelzielverfolgungsmethode basierend auf Transformer

Papierlink

https://arxiv.org/abs/2308.13764

Code Link

https://github.com/xiajianqiang

Das obige ist der detaillierte Inhalt vonEffiziente einstufige Kurzzeit-RGB-T-Einzelzielverfolgungsmethode basierend auf Transformer. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:jiqizhixin.com
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage