CVPR'24 Highlight |. Ein Framework zur Generierung von Charakterbewegungen bis hin zu Handbewegungen-KI-php.cn

Die AIxiv-Kolumne ist eine Kolumne, in der akademische und technische Inhalte auf dieser Website veröffentlicht werden. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. E-Mail für die Einreichung: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Der Autor dieses Artikels, Jiang Nan, ist ein Doktorand im zweiten Jahr an der School of Intelligence der Universität Peking, zusammen mit dem Dozenten Professor Zhu Yixin und Dr. Huang Siyuan vom Beijing Institute of General Artificial Intelligence führen gemeinsam Forschungsarbeiten durch. Seine Forschung konzentriert sich auf das Verständnis der Mensch-Objekt-Interaktion und die Generierung digitaler menschlicher Handlungen und er hat mehrere Artikel auf führenden Konferenzen wie ICCV, CVPR und ECCV veröffentlicht.

In den letzten Jahren hat die Forschung zur Charakteraktionsgenerierung erhebliche Fortschritte gemacht und in vielen Bereichen wie Computer Vision, Computergrafik, Robotik und Mensch-Computer-Interaktion große Aufmerksamkeit erhalten. Die meisten bestehenden Arbeiten konzentrieren sich jedoch nur auf die Handlung selbst, und die Forschung, die sowohl Szenen- als auch Handlungskategorien als Einschränkungen verwendet, steckt noch in den Kinderschuhen.

Um dieses Problem zu lösen, hat das Beijing Institute of General Artificial Intelligence zusammen mit Forschern der Peking University und des Beijing Institute of Technology ein Aktionsgenerierungs-Framework vorgeschlagen, das das autoregressive bedingte Diffusionsmodell verwendet, um reale, semantische und reale Ergebnisse zu erzielen Szenenkonforme Aktionen und Aktionsgenerierung ohne Längenbegrenzung. Darüber hinaus veröffentlichte der Artikel den umfangreichen Datensatz zur Charakter-Szenen-Interaktion TRUMANS, der genaue und umfangreiche Anmerkungsinformationen für Charakteraktionen und dreidimensionale Szenen enthält.

CVPR'24 Highlight｜一个框架搞定人物动作生成，精细到手部运动

Papierlink: https://arxiv.org/pdf/2403.08629
Projekthomepage: https://jnnan.github.io/trumans/
Code- und Datenlink: https ://github.com/jnnan/trumans_utils

Forschungsübersicht

CVPR'24 Highlight｜一个框架搞定人物动作生成，精细到手部运动

^{Aktivitäten wie das Sitzen auf einem Stuhl, das Aufheben einer Flasche oder das Öffnen einer Schublade. Heutzutage ist die Simulation menschlicher Körperbewegungen zu einer wichtigen Aufgabe in den Bereichen Computer Vision, Computergrafik, Robotik und Mensch-Computer-Interaktion geworden. Das Hauptziel der Erzeugung menschlicher Bewegung besteht darin, natürliche, realistische und vielfältige dynamische Muster zu erzeugen. Der Aufstieg der Deep-Learning-Technologie hat zu einer raschen Entwicklung von Methoden zur Generierung menschlicher Handlungen geführt. Große Durchbrüche in der Technologie zur Modellierung des menschlichen Körpers haben es auch einfacher gemacht, eine riesige Datenbank menschlicher Handlungen aufzubauen. Basierend auf diesen Entwicklungen hat die datengesteuerte Technologie zur Generierung menschlicher Handlungen in den letzten Jahren zunehmende Aufmerksamkeit in der Forschungsgemeinschaft erhalten.}

Derzeit verwenden die meisten Methoden zur Aktionsgenerierung Semantik als Kontrollvariable. Die Forschung zur Generierung von Aktionen unter bestimmten interaktiven Objekten [1] und Szenen [2] steckt noch in den Kinderschuhen, was hauptsächlich auf den Mangel an qualitativ hochwertigen Methoden zurückzuführen ist Bilder von menschlichen Körpern. Aktions- und Szeneninteraktionsdatensatz. Bestehende Datensätze aus realen Szenen sind in Bezug auf die Qualität der menschlichen Bewegungserfassung immer noch unzureichend. Obwohl mit Geräten wie VICON aufgezeichnete Motion-Capture-Datensätze zu Qualitätsverbesserungen führen können, fehlt diesen Datensätzen die Vielfalt der Mensch-Objekt-Interaktionen in 3D-Szenen. In jüngster Zeit haben synthetische Datensätze mithilfe virtueller Simulationstechnologie aufgrund ihrer geringen Kosten und hohen Anpassungsfähigkeit die Aufmerksamkeit von Forschern auf sich gezogen.

Um die Mängel bestehender Methoden zu beseitigen, schlägt dieses Papier ein Aktionsgenerierungs-Framework vor, das Szenen- und semantische Informationen zusammenführt. Es basiert auf einem autoregressiven Diffusionsmodell und kann Aktionen mit entsprechenden Aktionskategorien und Pfadpunkten generieren zu Szenenbeschränkungen. Um Aktionsdaten in der Szene zu erhalten, veröffentlicht diese Arbeit einen neuen Datensatz zur Charakter-Szenen-Interaktion von TRUMANS, der 15 Stunden Aktionsdaten enthält, die in der realen Welt erfasst und zu virtuellen 3D-Szenen synthetisiert wurden, die Schlafzimmer, Restaurants, Büros usw. abdecken . 100 Szenenkonfigurationen. TRUMANS umfasst ein umfassendes Spektrum alltäglicher Verhaltensweisen, einschließlich Wegfindung, Objektmanipulation und Interaktion mit starren und beweglichen Objekten.

Framework zur Aktionsgenerierung

^{Abbildung 2. Das in diesem Artikel vorgeschlagene Framework zur Aktionsgenerierung verwendet einen autoregressiven Mechanismus, um die Szene und die Aktionskategorie als Bedingungen zur Steuerung der Generierung von Aktionen zu verwenden.}

Die in dieser Studie vorgeschlagene Methode verwendet einen autoregressiven Ansatz, um Stück für Stück Aktionen zu generieren. Die anfängliche Aktion innerhalb eines Segments geht vom Ende des vorherigen Segments aus und nachfolgende Aktionen werden vom Diffusionsmodell generiert. Damit die generierten Aktionen den Szenenbeschränkungen entsprechen, schlägt der Autor ein lokales Szenenperzeptron basierend auf dem Raumbelegungsgitter vor, das die Merkmale der Umgebung am Ende jeder Aktion kodiert und sie in die Bedingungen des Aktionsgenerierungsmodells integriert . Um bildweise Aktionsbezeichnungen als kontrollierbare Bedingungen zu integrieren, integriert der Aktionsinformations-Encoder zeitliche Informationen in Aktionssegmente, sodass das Modell jederzeit Anweisungen annehmen und Bewegungen erzeugen kann, die den gegebenen Aktionsbezeichnungen entsprechen.

Die in diesem Artikel vorgeschlagene Methode kann Einschränkungen der Pfadbahn und eine präzise Steuerung der Gelenkposition unterstützen. Da die Methode in diesem Artikel einen autoregressiven, segmentweisen Generierungsmechanismus verwendet, können Pfad- und Gelenkbeschränkungen erreicht werden, indem für jedes Segment der Aktionsgenerierung Unterziele festgelegt werden. Für die Gehbewegungssteuerung beschreibt jedes Unterziel die voreingestellte Position des Beckens der Figur auf der horizontalen Ebene am Ende des aktuellen Segments. Basierend auf den Szeneninformationen zwischen der Start- und Endposition des aktuellen Segments generiert das Modell Ganzkörperbewegungen einschließlich Beckenbewegungsbahnen. Wenn sich das Unterziel beispielsweise auf einem Stuhl befindet, muss sich die Figur hinsetzen. Bei Aktionen, bei denen es um das Greifen von Objekten geht, wird die gleiche Technik zur Kontrolle der Handposition verwendet. Wenn beispielsweise Aktionen wie das Greifen einer Flasche oder das Schieben einer Tür generiert werden, wird die Position des Handgelenks als Unterziel festgelegt und der Benutzer stellt die gewünschte Position auf dem Objekt ein. Das Modell eliminiert die Geräusche an den Gelenken und füllt den Rest der menschlichen Bewegung aus. Ein weiterer feinkörnigerer Kontakt wird durch die Optimierung der relativen Position der Hand zum Objekt erreicht.

Das lokale Szenenperzeptron wird verwendet, um lokale Szenengeometrieinformationen zu erhalten und diese als Bedingung für die Bewegungserzeugung zu verwenden. Konkret wird für ein gegebenes Szenario zunächst ein globales Belegungsraster generiert, und jeder Zelle wird ein boolescher Wert zugewiesen, der angibt, ob sie erreichbar ist, wobei 1 für erreichbar und 0 für nicht erreichbar steht. Das lokale Belegungsgitter ist ein dreidimensionales Gitter, das auf dem Unterziel des aktuellen Schleifenabschnitts zentriert ist und vertikal von 0 bis 1,8 Metern reicht und so ausgerichtet ist, dass es mit der Gierrichtung des Beckens der Figur im ersten Bild übereinstimmt. Der Wert des lokalen Belegungsrasters wird durch Abfrage des globalen Belegungsrasters ermittelt. In diesem Artikel wird die Verwendung von Vision Transformer (ViT) zum Kodieren von Voxelgittern vorgeschlagen. Token werden erstellt, indem das lokale Belegungsgitter entlang der xy-Ebene geteilt wird, die z-Achse als Merkmalskanal behandelt wird und diese Token in das ViT-Modell eingegeben werden. Die ViT-codierte Ausgabe der Szene wird als Bedingung für das Aktionsgenerierungsmodell verwendet.

Im Gegensatz zu früheren Methoden, die vollständige Aktionssequenzen auf der Grundlage einer einzelnen Aktionsbeschreibung generieren, verwendet dieses Dokument Aktionsbezeichnungen Bild für Bild als Bedingungen bei der Generierung langfristiger Aktionen. In diesem Modell kann sich eine bestimmte Aktion über einen Zyklusabschnitt hinaus erstrecken und in mehreren Zyklusabschnitten fortgesetzt werden. Daher muss das Modell den Fortschritt der Aktionsausführung verstehen. Um dieses Problem anzugehen, führt diese Studie eine Fortschrittskennung ein, um die Kennzeichnung von Aktionskategorien für Einzelbilder zu unterstützen. Die spezifische Implementierungsmethode besteht darin, für jede vollständige Interaktion am ursprünglichen Multi-Hot-Action-Tag eine Zahl zwischen 0 und 1 hinzuzufügen, die linear mit der Zeit wächst. Solche Operationen ermöglichen es dem Modell, Aktionen zu bewältigen, die sich über mehrere Schleifenabschnitte erstrecken, und verbessern die semantische Integrität und Kontinuität der generierten Aktionssequenzen.

Datensatz

In Bezug auf Daten veröffentlicht dieser Artikel einen neuen Datensatz zur Charakter-Szene-Interaktion von TRUMANS, der synthetische 3D-Szenen in der physischen Umgebung genau nachbildet, sowohl mit Datenqualität als auch mit Datenumfang 15 Stunden lange Aufnahme menschlicher Bewegungen, unterstützt 100 Innenszenen, einschließlich Schlafzimmer, Wohnzimmer, Büros usw. Obwohl die Szenen synthetisch sind, sorgt der Autor durch die sorgfältige Restaurierung jeder synthetischen Szene dafür, dass die Interaktionen zwischen Menschen und Objekten natürlich und präzise bleiben. TRUMANS Aktionen umfassen alltägliches menschliches Verhalten, einschließlich Wegfindung, Greifen und Interaktion mit starren und beweglichen Objekten. Um die Skalierbarkeit von Daten weiter zu verbessern, wendet dieser Artikel eine Datenverbesserungsmethode an, die auf vorhandenen Daten basiert, sodass Objekte im Datensatz ihre Position und Größe innerhalb eines bestimmten Bereichs ändern können und die Aktionen des Charakters automatisch entsprechend aktualisiert werden Änderungen. Abbildung 3. TRUMANS Motion-Capture-Datensatz的 Abbildung 4. Passen Sie die Aktion automatisch an die Größe der sich ändernden Objekte an und erweitern Sie die Datenskala effizient in diesem Artikel vorgeschlagen.

(1) Basierend auf den vorgegebenen Pfadschlüsselpunkten kann diese Methode Laufaktionen in einer Vielzahl von Szenen generieren, und die Charaktere erhalten ein natürliches Feedback zu Hindernissen in der Szene.

(2) Die Methode in diesem Artikel eignet sich zum Erfassen und zur interaktiven Aktionsgenerierung handgehaltener kleiner Objekte. Gehen Sie zum Beispiel auf eine Wasserflasche zu, die auf dem Tisch steht, und machen Sie die Geste, Wasser zu trinken. Während des Fertigstellungsprozesses müssen die Aktionen entsprechend dem Szenenlayout angepasst werden.

(3) Generieren Sie basierend auf der vorgegebenen Handbewegungsbahn eine Ganzkörperaktion, die der Flugbahn entspricht und nicht mit Objekten in der Szene in Konflikt gerät. Abbildung 5. Diversitätsdarstellung der Aktionsgenerierung using using through through out’s ’ through out’s ‐ ‐ out ‐ out‐set

7. Interaktive Aktionsgenerierung von Handgehaltene kleine Objekte

CVPR'24 Highlight｜一个框架搞定人物动作生成，精细到手部运动

Um die Leistung dieser Methode zu quantifizieren, hat der Autor zwei Sätze von Bewertungssystemen erstellt, die darauf basieren, ob die interaktiven Objekte beweglich sind oder nicht. Bei statischen interaktiven Objekten umfassen die in diesem Artikel bewerteten Aktionen das Sitzen, Liegen und Gehen in der Szene. Die Bewertungsindikatoren konzentrieren sich hauptsächlich darauf, ob die Aktion die Szene überschreitet und der Fuß gleitet, sowie auf die subjektive Bewertung der Generationsqualität durch den Probanden. Bei dynamischen interaktiven Objekten konzentriert sich dieser Artikel auf den Greifvorgang und die anschließenden interaktiven Aktionen. Der Bewertungsindex quantifiziert, ob die Aktion einer bestimmten Kategorie entspricht, die Vielfalt der Aktionen, den Grad des Schimmelverschleißes und die subjektive Bewertung des Probanden. Darüber hinaus vergleicht die Studie die Qualität der Aktionsgenerierung, die durch das Training mit TRUMANS und den vorhandenen PROX- und GRAB-Datensätzen erzielt wird. Die experimentellen Ergebnisse bestätigen die Überlegenheit der in diesem Artikel vorgeschlagenen Methode und die allgemeine Qualitätsverbesserung, die TRUMANS-Daten für die Aufgabe der Generierung von Charakter-Szenen-Interaktionen mit sich bringen.

CVPR'24 Highlight｜一个框架搞定人物动作生成，精细到手部运动

Das obige ist der detaillierte Inhalt vonCVPR'24 Highlight |. Ein Framework zur Generierung von Charakterbewegungen bis hin zu Handbewegungen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!