Die Erzeugung natürlicher und kontrollierbarer Human Scene Interaction (HSI) spielt in vielen Bereichen wie der Erstellung von Virtual Reality/Augmented Reality (VR/AR)-Inhalten und der auf den Menschen ausgerichteten künstlichen Intelligenz eine wichtige Rolle.
Bestehende Methoden weisen jedoch eine begrenzte Steuerbarkeit, begrenzte Interaktionstypen und unnatürlich erzeugte Ergebnisse auf, was ihre Anwendungsszenarien im wirklichen Leben erheblich einschränkt.
In der Forschung von ICCV 2023 haben die Universitäten Tianjin und Tsinghua ein Team gebildet mit einer Lösung namens Narrator, um dieses Problem zu untersuchen. Diese Lösung konzentriert sich auf die herausfordernde Aufgabe, auf natürliche und kontrollierte Weise realistische und vielfältige Interaktionen zwischen Mensch und Szene aus Textbeschreibungen zu generieren. likun/projects/Narrator
Der umgeschriebene Inhalt lautet: Code-Link: https://github.com/HaibiaoXuan/Narrator
Aus der Perspektive der menschlichen Kognition sollte das generative Modell idealerweise in der Lage sein, räumliche Beziehungen richtig zu beurteilen und erkunden Sie die Freiheitsgrade von Interaktionen.
Daher schlägt der Autor ein generatives Modell vor, das auf relationalem Denken basiert. Dieses Modell modelliert die räumlichen Beziehungen in Szenen und Beschreibungen durch Szenendiagramme und führt einen Interaktionsmechanismus auf Teilebene ein, der interaktive Aktionen als atomare Körperteilzustände darstellt Insbesondere schlägt der Autor eine einfache, aber effektive Mehrpersonengeneration vor Strategie, dies ist die erste Erkundung der kontrollierbaren interaktiven Generierung von Mehrpersonenszenen bestehende Arbeit Methodenmotivation Bestehende Methoden zur Generierung von Mensch-Szene-Interaktionen konzentrieren sich hauptsächlich auf die physikalisch-geometrische Beziehung der Interaktion, es fehlt ihnen jedoch die semantische Kontrolle über die Generierung, und sie sind auch auf die Einzelspieler-Generierung beschränkt. Daher konzentrieren sich die Autoren auf die anspruchsvolle Aufgabe, aus Beschreibungen in natürlicher Sprache realistische und vielfältige Interaktionen zwischen Mensch und Szene kontrollierbar zu generieren. Die Autoren stellten fest, dass Menschen typischerweise räumliche Wahrnehmung und Handlungserkennung nutzen, um Menschen, die an verschiedenen Orten an verschiedenen Interaktionen teilnehmen, auf natürliche Weise zu beschreiben. BildDer umgeschriebene Inhalt lautet wie folgt: Gemäß Abbildung 1 kann der Erzähler auf natürliche und kontrollierte Weise semantisch konsistente und physikalisch sinnvolle Mensch-Szenen-Interaktionen erzeugen, die auf die folgenden Situationen anwendbar sind: (a) durch Raumbeziehung -Geführte Interaktion, (b) Interaktion, die durch mehrere Aktionen gesteuert wird, (c) Interaktion zwischen mehreren Personen und (d) Interaktion zwischen Person und Szene, die die oben genannten Interaktionstypen kombiniert
Konkret können räumliche Beziehungen verwendet werden, um die Wechselbeziehungen zwischen zu beschreiben verschiedene Objekte in einer Szene oder einem lokalen Bereich. Interaktive Aktionen werden durch den Zustand atomarer Körperteile spezifiziert, wie z. B. die Füße einer Person auf dem Boden, sich auf den Oberkörper stützen, mit der rechten Hand klopfen, den Kopf senken usw.
Mit diesem Ausgangspunkt wird die Der Autor verwendet Szenendiagramme, um räumliche Beziehungen darzustellen, und schlägt vor, dass er einen JGLSG-Mechanismus (Joint Global and Local Scene Graph) verwendet, um eine globale Positionserkennung für die nachfolgende Generation bereitzustellen.
Angesichts der Tatsache, dass der Zustand von Körperteilen der Schlüssel zur Simulation realistischer Interaktionen im Einklang mit dem Text ist, führte der Autor gleichzeitig einen Part-Level-Action-Mechanismus (PLA) ein, um die Entsprechung zwischen menschlichen Körperteilen und Aktionen herzustellen. Der Autor profitiert von der effektiven Beobachtungserkennung und der Flexibilität und Wiederverwendbarkeit des vorgeschlagenen relationalen Denkens und schlägt außerdem eine einfache und effektive Strategie zur Generierung mehrerer Personen vor, die damals die erste natürlich kontrollierbare und benutzergenerierte Strategie war. Freundliche Lösung zur Generierung von Multi-Human Scene Interaction (MHSI). Methodenideen Überblick über das Narrator-Framework Das Ziel von Narrator besteht darin, Interaktionen zwischen Charakteren und Szenen auf natürliche und kontrollierbare Weise zu erzeugen, die semantisch mit Textbeschreibungen übereinstimmen und die drei physisch zusammenbringen -dimensionale Szene BildWie in Abbildung 2 gezeigt, verwendet diese Methode einen auf Transformer basierenden Conditional Variational Autoencoder (cVAE), der hauptsächlich die folgenden Mehrere umfasst Teile:
Im Vergleich zu bestehenden Forschungsergebnissen entwerfen wir einen gemeinsamen Mechanismus für globale und lokale Szenendiagramme, um über komplexe räumliche Beziehungen nachzudenken und ein globales Positionierungsbewusstsein zu erreichen.
2) Ausrichtung auf Personen, die gleichzeitig vorbeikommen. Beobachtung von interaktive Aktionen, die von verschiedenen Körperteilen ausgeführt werden, wodurch ein Aktionsmechanismus auf Komponentenebene eingeführt wird, um realistische und vielfältige Interaktionen zu erzielen. Während des Prozesses zur Optimierung der Szenenwahrnehmung haben wir zusätzlich den interaktiven zweiteiligen Verlust eingeführt, um bessere Ergebnisse zu erzielen4) Erweitert sich weiter auf die Generierung von Mehrpersonen-Interaktionen und fördert letztendlich den ersten Schritt in der Mehrpersonen-Szeneninteraktion.
Die Begründung räumlicher Beziehungen kann dem Modell szenenspezifische Hinweise liefern, was eine wichtige Rolle bei der Erzielung einer natürlichen Steuerbarkeit der Interaktion zwischen Mensch und Szene spielt.
Um dieses Ziel zu erreichen, schlägt der Autor einen gemeinsamen Mechanismus für globale und lokale Szenendiagramme vor, der durch die folgenden drei Schritte implementiert wird:
1. Globale Szenendiagrammgenerierung: Verwenden Sie bei gegebener Szene vorab das Training Das Szenendiagrammmodell generiert ein globales Szenendiagramm, d. h. , wobei , Objekte mit Kategoriebezeichnungen sind, die Beziehung zwischen und ist, n die Anzahl der Objekte ist, m die Anzahl der Beziehungen ist;
2. Generierung lokaler Szenendiagramme: Verwenden Sie semantische Parsing-Tools, um die beschriebene Satzstruktur zu identifizieren und lokale Szenen zu extrahieren und zu generieren, wobei
das Triplett von Subjekt-Prädikat-Objekt definiert; Szenendiagramm-Übereinstimmung: durch dasselbe Objekt Mit semantischen Tags entspricht das Modell den Knoten im globalen Szenendiagramm und im lokalen Szenendiagramm und fügt einen virtuellen menschlichen Knoten hinzu, indem die Kantenbeziehung erweitert wird, um Positionsinformationen bereitzustellen Der Autor schlägt einen feinkörnigen Aktionsmechanismus auf Teilebene vor, durch den das Modell in der Lage ist, wichtige Zustände von Körperteilen zu erkennen und irrelevante Teile einer bestimmten Interaktion zu ignorieren Konkret untersucht der Autor umfangreiche und vielfältige interaktive Aktionen und kartiert diese Mögliche Aktionen auf die fünf Hauptteile des menschlichen Körpers: Kopf, Rumpf, linker/rechter Arm, linke/rechte Hand und linker/rechter Unterkörper. In der nachfolgenden Codierung können wir One-Hot verwenden, um diese Aktionen und Körperteile gleichzeitig darzustellen und sie entsprechend der entsprechenden Beziehung zu verbinden Der Autor ist in der interaktiven Generierung von Multi-Aktionen An Der Aufmerksamkeitsmechanismus wird eingesetzt, um den Status verschiedener Teile der Körperstruktur zu erfahren. Bei einer bestimmten Kombination interaktiver Aktionen wird die Aufmerksamkeit zwischen dem Körperteil, der jeder Aktion entspricht, und allen anderen Aktionen automatisch abgeschirmt. Nehmen Sie als Beispiel „eine Person, die mit einem Schrank auf dem Boden hockt“. Das Hocken entspricht dem Zustand des Unterkörpers, sodass die Aufmerksamkeit, die auf andere Teile gerichtet ist, auf Null blockiert wird. Umgeschriebener Inhalt: Nehmen Sie als Beispiel „eine Person, die mit einem Schrank auf dem Boden hockt“. Das Hocken entspricht dem Zustand des Unterkörpers, sodass die Aufmerksamkeit anderer Körperteile vollständig blockiert wird. Optimierung der SzenenwahrnehmungDer Autor nutzt geometrische und physikalische Einschränkungen für die szenenbezogene Optimierung, um die Generierungsergebnisse zu verbessern. Während des gesamten Optimierungsprozesses stellt diese Methode sicher, dass die generierte Pose nicht abweicht, während sie gleichzeitig den Kontakt mit der Szene fördert und den Körper einschränkt, um eine gegenseitige Durchdringung mit der Szene zu vermeiden
Angesichts der dreidimensionalen Szene S und der generierten SMPL-X-Parameter , der Optimierungsverlust beträgt:
Dazu gehört , dass Körperscheitelpunkte mit der Szene in Kontakt kommen; ist ein Kollisionsbegriff, der auf der vorzeichenbehafteten Distanz basiert; Szene und abgetasteter menschlicher Körper. ist ein Regularisierungsfaktor, der verwendet wird, um Parameter zu bestrafen, die von der Initialisierung abweichen.
Multiplayer Scene Interaction (MHSI) In realen Szenen interagiert in vielen Fällen nicht nur eine Person mit der Szene, sondern mehrere Personen interagieren unabhängig oder verbunden. Allerdings erfordern bestehende Methoden aufgrund fehlender MHSI-Datensätze meist zusätzlichen manuellen Aufwand und können diese Aufgabe nicht kontrollierbar und automatisch bewältigen. Zu diesem Zweck nutzt der Autor nur vorhandene Einzelpersonendatensätze und schlägt eine einfache und effektive Strategie für die Richtung der Mehrpersonengenerierung vor. Anhand einer Textbeschreibung, die sich auf mehrere Personen bezieht, analysiert der Autor diese zunächst in mehrere lokale Szenendiagrammeund interaktive Aktionen und definiert den Kandidatensatz als , wobei l die Anzahl der Personen ist.
Für jedes Element im Kandidatensatz wird es zunächst zusammen mit der Szeneund dem entsprechenden globalen Szenendiagramm in Narrator eingegeben und dann der Optimierungsprozess durchgeführt.
Um Kollisionen zwischen Personen zu bewältigen, wird im Optimierungsprozess ein zusätzlicher Verlusteingeführt, wobei der vorzeichenbehaftete Abstand zwischen Personen ist.
Wenn der Optimierungsverlust dann niedriger ist als der auf der Grundlage experimenteller Erfahrungen ermittelte Schwellenwert, wird dieses generierte Ergebnis akzeptiert und aktualisiertdurch Hinzufügen menschlicher Knoten; andernfalls wird das generierte Ergebnis als nicht vertrauenswürdig betrachtet und aktualisiert durch Abschirmung des entsprechenden Objektknotens.
Es ist erwähnenswert, dass diese Aktualisierungsmethode die Beziehung zwischen den Ergebnissen jeder Generation und den Ergebnissen der vorherigen Generation herstellt, ein gewisses Maß an Überfüllung vermeidet und eine vernünftigere räumliche Verteilung und interaktiver als die einfache Mehrfachgenerierung aufweist .lebensecht. Der obige Prozess kann wie folgt ausgedrückt werden: 1], POSA [2], COINS [3] werden sinnvoll erweitert, um mit Textbeschreibungen zu arbeiten und dieselben Datensätze zum Trainieren ihrer offiziellen Modelle zu verwenden. Nach der Änderung haben wir diese Methoden PiGraph-Text, POSA-Text und COINS-Text genanntBilder
Abbildung 3 Qualitative Vergleichsergebnisse verschiedener Methoden
Abbildung 3 zeigt die qualitativen Vergleichsergebnisse von Narrator und drei Basislinien. Aufgrund der Darstellungsbeschränkungen von PiGraph-Text treten schwerwiegendere Penetrationsprobleme auf.
POSA-Text fällt während des Optimierungsprozesses häufig in lokale Minima, was zu schlechten interaktiven Kontakten führt. COINS-Text bindet Aktionen an bestimmte Objekte, es mangelt ihm an globalem Bewusstsein für die Szene, er führt zu einer Durchdringung mit nicht spezifizierten Objekten und es ist schwierig, mit komplexen räumlichen Beziehungen umzugehen.
Im Gegensatz dazu kann der Erzähler auf der Grundlage verschiedener Ebenen von Textbeschreibungen korrekte Überlegungen zu räumlichen Beziehungen anstellen und Körperzustände bei mehreren Aktionen analysieren, wodurch bessere Generierungsergebnisse erzielt werden.
In Bezug auf den quantitativen Vergleich übertrifft Narrator, wie in Tabelle 1 gezeigt, andere Methoden in fünf Indikatoren, was zeigt, dass die mit dieser Methode generierten Ergebnisse eine genauere Textkonsistenz und eine bessere physische Plausibilität aufweisen.
Tabelle 1 Quantitative Vergleichsergebnisse verschiedener Methoden
Darüber hinaus bietet der Autor detaillierte Vergleiche und Analysen, um die Wirksamkeit der vorgeschlagenen MHSI-Strategie besser zu verstehen.
Angesichts der Tatsache, dass es derzeit keine Arbeit an MHSI gibt, wählten sie einen unkomplizierten Ansatz als Basis, nämlich sequentielle Generierung und Optimierung mit COINS.
Um einen fairen Vergleich zu ermöglichen, wird auch ein künstlicher Kollisionsverlust eingeführt. Abbildung 4 und Tabelle 2 zeigen die qualitativen bzw. quantitativen Ergebnisse, die beide deutlich beweisen, dass die vom Autor vorgeschlagene Strategie auf MHSI semantisch konsistent und physikalisch sinnvoll ist.
Abbildung 4 Qualitativer Vergleich mit MHSI unter Verwendung der sequentiellen Generierungs- und Optimierungsmethode von COINS
Die Hauptrichtungen der Forschung umfassen drei -dimensionales Sehen, Computer Vision und Erzeugung von Interaktionen zwischen Mensch und Szene
Hauptforschungsrichtungen: dreidimensionales Sehen, Computer Vision, Rekonstruktion des menschlichen Körpers und der Kleidung
Die Forschungsrichtungen umfassen hauptsächlich dreidimensionales Sehen Vision, Computer Vision und Bilderzeugung. Die Forschungsrichtung konzentriert sich hauptsächlich auf menschzentrierte Computer Vision und Grafik. Hauptforschungsrichtungen: Computergrafik, dreidimensionales Sehen und Computerfotografie
Persönlicher Homepage-Link: https://liuyebin.com/
[ 1] Savva M, Chang A M, Ghosh P, Tesch J, et al. 14718.
[3] Zhao K, Wang S, Zhang Y, et al. Kompositionelle Mensch-Szenen-Interaktionssynthese mit semantischer Kontrolle[C].
Das obige ist der detaillierte Inhalt vonNeuer Durchbruch in der „interaktiven Generierung von Personen und Szenen'! Tianda University und Tsinghua University veröffentlichen Narrator: textgesteuert, natürlich kontrollierbar |. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!