Öffnen Sie einen digitalen Menschen, der voller generativer KI ist.
Am Abend des 23. Septembers, bei der Eröffnungszeremonie der Asienspiele in Hangzhou, zeigte das Anzünden der Hauptfackel die „kleinen Flammen“ von Hunderten Millionen Online-Fackelträgern, die sich auf dem Qiantang-Fluss versammelten und ein digitales Bild bildeten Menschenbild. Dann gingen der digitale menschliche Fackelträger und der sechste Fackelträger vor Ort gemeinsam zur Fackelbühne und zündeten gemeinsam die Hauptfackel an wurde zu einem heißen Suchthema und erregte die Aufmerksamkeit der Menschen. Umgeschriebener Inhalt: Als Kernidee der Eröffnungsfeier hat die Fackelbeleuchtungsmethode des Digital Reality Internet hitzige Diskussionen ausgelöst und die Aufmerksamkeit der Menschen auf sich gezogen. Die Beleuchtung digitaler Menschen ist eine beispiellose Initiative, an der Hunderte Millionen Menschen teilgenommen haben , an dem eine große Anzahl von Menschen beteiligt ist. Eine der wichtigsten Fragen ist, wie man den digitalen Menschen „in Bewegung“ bringt. Es ist deutlich zu erkennen, dass mit der rasanten Entwicklung generativer künstlicher Intelligenz und groß angelegter Modelle auch die digitale Humanforschung weitere neue Veränderungen erfahren hat Die Konferenz umfasste Forschungsarbeiten zur Erzeugung digitaler dreidimensionaler menschlicher Bewegungen. Das entsprechende Papier trägt den Titel „Hierarchical Generation of Human-Object Interactions with Diffusion Probabilistic Models“ und wurde gemeinsam von der Zhejiang University und der Ant Group veröffentlicht.
Der Einleitung zufolge löst diese Forschung bis zu einem gewissen Grad das Problem digitaler Menschen, komplexe Bewegungen über große Entfernungen zu synthetisieren, und kann Effekte erzielen, die mit Originalmodellen oder Pfadplanung nicht erreicht werden können. Technologie im Zusammenhang mit dem digitalen menschlichen Fahren wurde auch bei der Online-Bereitstellung von 100 Millionen digitalen Menschen bei den Asienspielen eingesetzt.
Generativer KI-Treiber, um digitale Menschen in Bewegung zu setzen. Oft müssen wir 3D in einem bestimmten 3D synthetisieren Szene Durch menschliche Bewegung können virtuelle Menschen auf natürliche Weise durch eine Szene laufen und mit Objekten interagieren, ein Effekt, der vielfältige Anwendungen in AR/VR, Filmproduktion und Videospielen hat. Herkömmliche Methoden zur Bewegungsgenerierung zur Zeichensteuerung zielen darauf ab, kurzfristige oder sich wiederholende Bewegungen zu erzeugen, die von den Steuersignalen des Benutzers gesteuert werden, während sich neue Forschungen auf die Erzeugung längerfristiger Bewegungen bei gegebener Startposition und einem Zielobjektmodell konzentrieren Inhalt.Obwohl diese Idee effektiver ist, ist sie natürlich auch anspruchsvoller. Erstens sollten Mensch-Objekt-Interaktionen kohärent sein, was die Fähigkeit erfordert, weitreichende Interaktionen zwischen Menschen und Objekten zu modellieren. Zweitens sollten generative Modelle im Kontext der Inhaltsgenerierung in der Lage sein, Bewegungen unterschiedlicher Größe zu synthetisieren, da es für reale Menschen mehrere Möglichkeiten gibt, sich Zielobjekten zu nähern und mit ihnen zu interagieren.
Abbildung 1. Erzeugung interaktiver Bilder von Personen und Objekten. Bei einem gegebenen Objekt sagt die neue Methode zunächst eine Reihe von Meilensteinereignissen voraus, wobei der Ring die Position und die Person in Rosa die ursprüngliche Pose darstellt. Der Algorithmus füllt Aktionen zwischen Meilensteinen aus. Das Diagramm zeigt die neue Methode, die dasselbe Objekt verwendet, um verschiedene Meilensteine und Aktionen zu generieren. Der Zeitablauf wird mit einem Farbcode dargestellt, wobei dunkleres Blau weitere Frames darstellt.
In Bezug auf Methoden zur Generierung digitaler menschlicher Handlungen lassen sich bestehende Synthesemethoden grob in Online-Generierung und Offline-Generierung unterteilen. Die meisten Online-Methoden konzentrieren sich auf die Echtzeitsteuerung des Charakters. Bei einem gegebenen Zielobjekt verwenden sie typischerweise autoregressive Modelle, um durch Feedback-Vorhersagen zyklisch zukünftige Bewegungen zu generieren. Obwohl diese Methode in interaktiven Szenarien wie Videospielen weit verbreitet ist, ist ihre Qualität für die Langzeitgenerierung immer noch unbefriedigend. Um die Bewegungsqualität zu verbessern, haben einige neuere Offline-Methoden damit begonnen, mehrstufige Frameworks zu übernehmen, bei denen zunächst Trajektorien generiert und dann Bewegungen synthetisiert werden. Obwohl diese Strategie vernünftige Pfade hervorbringen kann, ist die Vielfalt der Pfade begrenzt
Konkret haben die Autoren unter Berücksichtigung einer Startposition und eines Zielobjekts ein Modul zur Meilensteingenerierung entworfen, um eine Reihe von Knoten entlang der Bewegungsbahn zu synthetisieren, wobei jeder Meilenstein die lokale Pose kodiert und den Übergangspunkt während der menschlichen Bewegung angibt. Basierend auf diesen Meilensteinen generiert der Algorithmus mithilfe eines Bewegungsgenerierungsmoduls vollständige Bewegungsabläufe. Dank der Existenz dieser Meilensteine können wir die Generierung langer Sequenzen auf die Synthese mehrerer kurzer Bewegungssequenzen vereinfachen.
Die lokale Lage jedes Meilensteins wird durch ein Transformatormodell generiert, das globale Abhängigkeiten berücksichtigt, um zeitkonsistente Ergebnisse zu erzielen und so eine kohärente Bewegung weiter zu erleichtern.
Zusätzlich zum hierarchischen Generierungsrahmen verwendeten die Forscher außerdem Diffusionsmodelle zur Synthese von Mensch und Objekt Interaktionen. Einige frühere Bewegungs-Synthetik-Diffusionsmodelle kombinierten Transformatoren und Rauschunterdrückungs-Diffusions-Wahrscheinlichkeitsmodelle (DDPM).
Es ist erwähnenswert, dass aufgrund der langen Bewegungssequenzen deren direkte Anwendung auf ein neues Setup viele Berechnungen erfordert und zu einer Explosion des GPU-Speichers führen kann. Da das neue hierarchische Generierungsframework die langfristige Generierung in die Synthese mehrerer kurzer Sequenzen umwandelt, wird der erforderliche GPU-Speicher auf das gleiche Niveau wie bei der kurzfristigen Bewegungsgenerierung reduziert.
Daher können Forscher Transformer DDPM effektiv nutzen, um langfristige Bewegungssequenzen zu synthetisieren und so die Generierungsqualität zu verbessern
Um diesen Zweck zu erreichen, haben Forscher ein hierarchisches Generierungsframework entworfen, wie in der Abbildung unten dargestellt
Erstens: Sie verwenden GoalNet, um Interaktionsziele an Objekten vorherzusagen und dann Zielposen zu generieren, um Mensch-Objekt-Interaktionen explizit zu modellieren. Als nächstes verwenden sie das Modul zur Meilensteingenerierung, um die Länge des Meilensteins zu schätzen, wodurch die Meilenstein-Trajektorie vom Startpunkt zum Ziel generiert und die Meilenstein-Pose platziert wird Kombination mehrerer Kurzstrecken-Bewegungserzeugung. Schließlich entwarfen die Autoren ein Bewegungsgenerierungsmodul, um Trajektorien zwischen Meilensteinen zu synthetisieren und Aktionen auszufüllen.
Künstliche Intelligenz (KI) PosengenerierungForscher bezeichnen die Haltung, in der eine Person mit einem Objekt interagiert und stationär bleibt, als Zielhaltung. Früher nutzten die meisten Methoden cVAE-Modelle, um menschliche Posen zu erzeugen, aber die Forscher stellten in ihren eigenen Studien fest, dass diese Methode eine schlechte Leistung erbrachte.
Um dieser Herausforderung zu begegnen, haben sie das VQ-VAE-Modell zur Modellierung der Datenverteilung übernommen. Dieses Modell nutzt die diskrete Darstellung, um Daten in einer begrenzten Menge von Punkten zu gruppieren. Darüber hinaus können Beobachtungen zufolge verschiedene menschliche Posen ähnliche Eigenschaften haben. Wenn eine Person beispielsweise sitzt, können die Handbewegungen unterschiedlich sein, aber die Beinposition kann gleich sein. Daher teilten sie die Gelenke in L (L = 5) verschiedene, sich nicht überlappende Gruppen ein. Wir können den Algorithmus Meilenstein-Trajektorien generieren lassen und lokale Posen an Meilensteinen synthetisieren. Da die Länge der Bewegungsdaten unbekannt ist und willkürlich sein kann (z. B. kann eine Person schnell zum Stuhl gehen und sich hinsetzen, oder sie kann langsam um den Stuhl herumgehen und sich dann hinsetzen), ist es notwendig, die Länge vorherzusagen des Meilensteins, dargestellt durch N . Anschließend werden N Orientierungspunkte synthetisiert und lokale Posen auf diesen Punkten platziert.
Der letzte Schritt ist die Aktionsgenerierung. Die von den Forschern verwendete Methode besteht nicht darin, Aktionen Frame für Frame vorherzusagen, sondern die gesamte Sequenz auf der Grundlage der generierten Meilensteine hierarchisch zu synthetisieren. Sie generieren zunächst Flugbahnen und synthetisieren dann Aktionen. Insbesondere schließen sie innerhalb von zwei aufeinanderfolgenden Meilensteinen die Flugbahn zuerst ab. Füllen Sie dann die Bewegung aus, die von aufeinanderfolgenden Meilensteingesten geleitet wird. Diese beiden Schritte werden jeweils mit zwei Transformer DDPM ausgeführt.Diese neue Methode kann in komplexen Szenen zu zufriedenstellenden Ergebnissen führen. Der Prozentsatz der mit dieser Methode generierten Penetrationsrahmen beträgt 3,8 % und der von SAMP 4,9 %
Bei SAMP, COUCH und anderen Datensätzen haben die in der Studie genannten Methoden bessere Ergebnisse erzielt als die BasismethodeVervollständigen Sie das vollständige Link-Layout
Der digitale Mensch ist ein Komplex, der multimodale Technologien wie Stimme, Semantik und Vision integriert. Während die generative KI in letzter Zeit Durchbrüche erzielt hat, erlebt der Bereich des digitalen Menschen eine sprunghafte Entwicklung. Modellierung, generative Interaktion, Rendering und andere Verknüpfungen, die früher manuelle Arbeit erforderten, werden jetzt vollständig künstlichisiert. Da Ingenieure weiterhin optimieren, ist dies die Erfahrung von Auch die Technik auf der mobilen Seite wird immer besser. Der gerade zu Ende gegangene Online-Fackellauf der Asienspiele ist ein gutes Beispiel: Wenn wir Fackelträger werden wollen, müssen wir nur auf das Miniprogramm der Alipay-App klicken.
Es heißt, dass die Ingenieure der Ant Group mehr als 100.000 Tests an Hunderten verschiedener Mobiltelefonmodelle durchgeführt, mehr als 200.000 Codezeilen eingegeben und selbst entwickelte Codes verwendet haben, um den reibungslosen Ablauf des Eröffnungsfeierprojekts sicherzustellen Die interaktive Web3D-Engine Galacean, digitale KI, Cloud-Dienste, Blockchain und andere Technologien werden kombiniert, um sicherzustellen, dass jeder ein digitaler Fackelträger werden und am Fackellauf teilnehmen kann. Die Asian Games Digital Torchbearer Platform kann Hunderte Millionen Benutzer erreichen und unterstützt 97 % der gängigen Smartphone-Geräte.
Um digitalen Fackelträgern eine realistische Teilnahme zu ermöglichen, hat das technische Team von Ant 58 Face-Pinching-Controller entwickelt. Mithilfe von Gesichtserkennungs- und KI-Algorithmen können sie das Gesicht eines digitalen Fackelträgers anhand der Gesichtszüge jeder Person abbilden. Gleichzeitig können Benutzer auch Gesichtsform, Frisur, Nase, Mund, Augenbrauen und andere Merkmale frei anpassen, um ein freies Ankleiden zu erreichen. Diese Technologie kann 2 Billionen verschiedene digitale Bildoptionen bieten
Darüber hinaus kann jeder digitale Fackelträger nach der Beleuchtungszeremonie der Eröffnungszeremonie ein exklusives digitales Zündzertifikat erhalten, das mit dem einzigartigen Bild jedes digitalen Fackelträgers bemalt ist. Dieses Zertifikat wird gespeichert auf der Blockchain durch verteilte Technologie.
Aus dem Inhalt der Forschungsarbeit und des Asian Games-Projekts ist nicht schwer zu erkennen, dass dahinter ein vollständiges digitales menschliches Technologiesystem steckt. Es wird davon ausgegangen, dass die Ant Group aktiv die digitale Mensch-Technologie erforscht und das Selbstforschungslayout der Full-Link-Kerntechnologie des digitalen Menschen abgeschlossen hat.
Im Gegensatz zu den meisten Unternehmen auf dem Markt entwickelt die Ant Group ihre digitale menschliche Technologie im eigenen Haus und wählt eine Entwicklungsrichtung, die mit generativer KI kombiniert wird. Im Hinblick auf die technische Bereitstellung deckt es den gesamten Lebenszyklus der digitalen menschlichen Modellierung, des Renderings, des Fahrens und der Interaktion ab. Durch die Kombination von AIGC und großen Modellen werden die Produktionskosten für die vollständige Verbindung digitaler Menschen erheblich gesenkt. Derzeit kann es 2D- und 3D-Digital-Personen unterstützen und bietet eine Vielzahl von Lösungen wie Broadcast-Typ und interaktiven Typ.
Zusätzlich zu den Asienspielen unterstützt die Ant Digital People Platform auch Alipay, digitale Finanzen, Regierungsangelegenheiten, Wufu und andere Unternehmen der Ant Group und wird seit diesem Jahr in Kurzvideos, Live-Übertragungen, Miniprogrammen und anderen Trägern eingesetzt Bereitstellung grundlegender Dienstleistungen für Partner.
Es lässt sich vorhersagen, dass wir in naher Zukunft, wenn der digitale Mensch mit generativer KI weiter weiterentwickelt wird, auch in mehr Szenarien bessere Interaktionen erleben und wirklich in ein intelligentes Leben eintreten werden, das digitale und reale Dinge integriert.
Das obige ist der detaillierte Inhalt vonDigitale Menschen zünden die Hauptfackel der Asienspiele, und dieser ICCV-Artikel enthüllt Ants generative KI-Schwarztechnologie. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!