Wie finde ich interessante Clips aus einem Video? Temporal Action Localization (TAL) ist eine gängige Methode.
Nachdem Sie den Videoinhalt zum Modellieren verwendet haben, können Sie das gesamte Video frei durchsuchen. Das gemeinsame Team der Huazhong University of Science and Technology und der University of Michigan hat kürzlich neue Fortschritte bei dieser Technologie erzielt – In der Vergangenheit erfolgte die Modellierung in TAL auf Segment- oder sogar Instanzebene, aber jetzt dauert es nur nochEin Bild im Video Es kann erreicht werden und der Effekt ist vergleichbar mit einer vollständigen Überwachung.
(Die linke Seite ist das Ergebnis vor dem Integritätslernen auf Instanzebene und die rechte Seite ist das Ergebnis nach dem Lernen. Die horizontale und vertikale Achse stellen jeweils Zeit- und Zuverlässigkeitswerte dar.)
Diskriminatives Lernen auf Fragmentebene und Integritätslernen auf Instanzebene.
Das Forschungsteam führt zuverlässigkeitsbewusstes diskriminierendes Lernen auf Segmentebene ein, schlägt vor, zuverlässige Prototypen für jede Kategorie zu speichern und ein hohes Vertrauen in diese Prototypen durch Intra-Video und Inter- zu kombinieren. Videomethoden Grad-Hinweise werden auf andere Fragmente übertragen.
Zuverlässige Prototypenkonstruktion auf Fragmentebene
Um einen zuverlässigen Prototyp auf Fragmentebene zu erstellen, erstellte das Team einen online aktualisierten Prototypenspeicher, um zuverlässige Prototypen mc verschiedener Verhaltensweisen zu speichern (wobei c = 1, 2, …, C ), um die Merkmalsinformationen des gesamten Datensatzes nutzen zu können.
Das Forschungsteam wählte Segmentmerkmale mit Punktanmerkungen aus, um den Prototyp zu initialisieren:
Als nächstes verwendeten die Forscher pseudo-beschriftete Verhaltenssegmentmerkmale, um die Prototypen jeder Kategorie zu aktualisieren, die konkret wie folgt ausgedrückt wurden:
Zuverlässigkeitsbewusste Optimierung auf Fragmentebene
Um die Funktionsinformationen zuverlässiger Prototypen auf Fragmentebene auf andere Fragmente zu übertragen, hat das Forschungsteam einen zuverlässigkeitsbewussten Aufmerksamkeitsblock (RAB) entworfen, um die Zuverlässigkeit im Prototyp durch Kreuz zu erreichen -Aufmerksamkeit Informationen werden in andere Segmente eingespeist, wodurch die Robustheit der Segmentmerkmale erhöht und die Aufmerksamkeit auf weniger diskriminierende Segmente erhöht wird.
Um mehr diskriminierende Segmentmerkmale zu lernen, hat das Team auch einen zuverlässigkeitsbewussten Segmentvergleichsverlust erstellt:
Um die Instanzebene vollständig zu erkunden Verhalten Um die vorgeschlagenen Bewertungsrankings zeitlich zu strukturieren und zu optimieren, führte das Team Aktionsintegritätslernen auf Instanzebene ein.
Dieser Ansatz zielt darauf ab, die Konfidenzwerte und -grenzen von Vorschlägen durch Feature-Learning auf Instanzebene zu verfeinern, geleitet von zuverlässigen Instanzprototypen.
Zuverlässige Prototypenkonstruktion auf Instanzebene
Um die vorherigen Informationen der Punktannotation auf Instanzebene während des Trainingsprozesses zu nutzen, schlug das Team eine auf Punktannotationen basierende Methode zur Angebotserstellung vor, um Vorschläge mit unterschiedlicher Zuverlässigkeit zu generieren.
Basierend auf ihren Zuverlässigkeitswerten und den relativen zeitlichen Positionen der Punktanmerkungen können diese Vorschläge in zwei Typen unterteilt werden:
Um die Vollständigkeitsbewertung jedes Vorschlags vorherzusagen, gibt das Forschungsteam die Vorschlagsmerkmale sensibler Grenzen in den Bewertungsvorhersagekopf φs:
ein und verwendet dann positiv/negativ Beispielvorschläge mit Die IoU zuverlässiger Vorschläge wird als Leitfaden zur Überwachung der Vorhersage der Vollständigkeitsbewertung des Vorschlags verwendet:
Um einen genaueren Vorschlag für das Grenzverhalten zu erhalten, gibt der Forscher die Merkmale der Startregion und die Merkmale der Endregion ein des Vorschlags in jedem PP in die Regression Versetzen Sie im Vorhersagekopf φr die Start- und Endzeit des vorhergesagten Vorschlags.
Berechnen Sie die verfeinerten Vorschläge weiter und hoffen Sie, dass die verfeinerten Vorschläge mit den zuverlässigen Vorschlägen übereinstimmen.
Kurz gesagt, HR-Pro kann mit nur wenigen Anmerkungen großartige Ergebnisse erzielen, wodurch die Kosten für die Beschaffung von Etiketten erheblich gesenkt werden, und verfügt gleichzeitig über starke Generalisierungsfähigkeiten, sodass es für den tatsächlichen Einsatz geeignet ist Bewerbungen Es werden günstige Konditionen angeboten. Dementsprechend prognostiziert der Autor, dass HR-Pro breite Anwendungsaussichten in den Bereichen Verhaltensanalyse, Mensch-Computer-Interaktion und Fahranalyse haben wird. Papieradresse: https://arxiv.org/abs/2308.12608
Das obige ist der detaillierte Inhalt vonSegmentfunktionen können durch die Kennzeichnung eines einzelnen Videobilds erlernt werden, wodurch eine vollständig überwachte Leistung erreicht wird! Huake gewinnt neues SOTA für sequentielle Verhaltenserkennung. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!