Haben Sie den neuen Trailer zum GTA-Spiel gesehen? Es heißt, dass dieser Trailer drei Guinness-Weltrekorde gebrochen und über 100 Millionen Mal angesehen wurde.
Wenn ich dir sage, dass drei KI-Giganten auch im Spiel „Grand Theft Auto“ eine Rolle spielen können, kannst du sie dann noch unterscheiden?
Die großen Drei der KI: Yann LeCun, Geoffrey Hinton und Yoshua Bengio.
Dieses Foto wurde mit dem FaceStudio AI-Modell von Tencent synthetisiert und zeigt einen GTA-ähnlichen Effekt. Die Einzigartigkeit dieses KI-Modells liegt in seiner hervorragenden Zeichenerkennung, die die weit verbreitete „KI-Foto“-Technologie auf ein höheres Niveau hebt
In der heutigen rasanten Entwicklung der Technologie der künstlichen Intelligenz sind KI-Fotoshootings zu einer beliebten KI-Technologierichtung geworden Anwendungen. Im Bereich KI + Bildanwendungen haben KI-Fotoprodukte wie Miaoya Camera großes Potenzial und große Popularität bewiesen. Die Miaoya-Kamera hat bereits wenige Wochen nach ihrer Einführung in den sozialen Medien große Aufmerksamkeit erregt und ihr schnelles Wachstum unterstreicht das enorme Potenzial dieses Marktes. Dennoch weisen viele KI-Fotoprodukte immer noch bestimmte technische Einschränkungen auf. Beispielsweise müssen Benutzer mehrere Fotos mit großen Unterschieden hochladen und lange warten, bis der zusammengesetzte Effekt erzielt wird, was sich zweifellos auf das Benutzererlebnis auswirkt.
In dieser von künstlicher Intelligenz angeführten Welle der Bildinnovation zeigt Tencents neuestes Forschungsergebnis FaceStudio einen weiteren technologischen Durchbruch. Diese Forschung konzentriert sich nicht nur auf die schnelle Synthese von Porträts, sondern konzentriert sich auch stärker auf die Beibehaltung der Identitätsinformationen des Porträts, um ästhetischen Anforderungen gerecht zu werden und gleichzeitig die Einzigartigkeit und Wiedererkennung des Charakters zu bewahren. Es übernimmt nicht nur die Kernvorteile des Open-Source-Algorithmus StableDiffusion, sondern führt auch innovative Verbesserungen bei mehreren Schlüsselfunktionen durch. Am auffälligsten ist die Möglichkeit, hybride Anleitungen für die Bilderzeugung zu verwenden, insbesondere bei der Verarbeitung von Mehrpersonenfotos und stilisierten Bildern. Die Kerntechnologie von FaceStudio liegt in der Fähigkeit, Bilder zu erstellen, ohne die persönliche Identität zu opfern Charakterbildsynthese wird erreicht. Traditionelle KI-Bildsynthesetechnologie opfert oft die Einzigartigkeit und Wiedererkennung von Charakteren und strebt gleichzeitig nach visueller Schönheit. Durch einen fortschrittlichen hybriden Führungsmechanismus ist FaceStudio jedoch in der Lage, beim Generieren von Bildern gleichzeitig Texthinweise, Stilbilder und Identitätsbilder zu berücksichtigen und so eine vielfältige Stilübertragung unter Beibehaltung individueller Merkmale zu erreichen. Dies ist nicht nur ein großer technologischer Durchbruch, sondern bietet Benutzern auch umfangreichere und personalisiertere Bildsyntheseoptionen.
Darüber hinaus eignet sich FaceStudio dank seines einzigartigen Multi-Identity-Cross-Attention-Mechanismus besonders gut für die Verarbeitung von Bildern mit mehreren Personen. Herkömmliche Methoden stoßen bei der Verarbeitung solcher Bilder häufig auf Probleme bei der genauen Unterscheidung und Beibehaltung der Merkmale jeder Person. Dieser Mechanismus von FaceStudio kann jedoch die charakteristischen Informationen verschiedener Identitäten genau den entsprechenden Teilen des Bildes zuordnen, was hervorragend dazu beiträgt, die Einzigartigkeit jedes Charakters und die Koordination des Gesamtstils beizubehalten.
FaceStudio unterstützt eine Vielzahl interessanter gesichtsbezogener Anwendungen
Papieradresse: https://arxiv.org/abs/2312.02663
Eine der Kernfunktionen von FaceStudio ist das Hybrid-Bootstrap-Design. Das Team verwendete einen einzigartigen Ansatz, der es dem Modell ermöglicht, gleichzeitig Bild- und Texthinweise zu empfangen und so Bilder mit spezifischen Identitätsmerkmalen zu erzeugen. Das auf Bildaufforderungen basierende Führungsmodul enthält zwei Untermodule:
Nachdem die visuellen Merkmale des stilisierten Bildes und die Identitätsmerkmale des Gesichtsbildes extrahiert wurden, werden diese beiden Merkmalssätze miteinander verschmolzen. Dieser Schritt wird durch eine lineare Ebene erreicht, die beide Merkmale zu einer umfassenden Leitfunktion kombiniert. Der Vorteil dieser Methode besteht darin, dass nicht nur die Identität des Charakters erhalten bleibt, sondern auch spezifische Stile und Inhalte in den Bildgenerierungsprozess einbezogen werden
FaceStudio verfügt nicht nur über eine Bildführungsfunktion, sondern integriert auch eine Textführungsfunktion. Diese Funktion wird durch die Verwendung eines vorab trainierten PriorTransformer-Modells erreicht. Das Modell ist in der Lage, CLIP-Textmerkmale den entsprechenden visuellen CLIP-Merkmalen zuzuordnen. Anschließend werden diese visuellen Merkmale, ähnlich wie beim Bildaufforderungsführungsmodul, mit den Funktionen des Identitätserkennungsmoduls kombiniert, um eine umfassende Führungsfunktion zu bilden, die auf Textaufforderungen reagieren kann. Schließlich werden die beiden Eingabeaufforderungsfunktionen gewichtet und zusammengeführt, um eine hybride Führung zu erreichen. Der Inhalt, der neu geschrieben werden muss, ist: das Architekturdiagramm von Facebook Studio. Bildsynthese für mehrere Personen Im vom Tencent-Team entwickelten FaceStudio-Framework gibt es eine zentrale Neuerung, nämlich den Teil „Verarbeitung von Mehrpersonenbildern“. Dieser Abschnitt konzentriert sich auf die Zusammenstellung von Porträts mehrerer Personen in einem einzigen Bild, um sicherzustellen, dass jede Person im endgültigen Bild ihre einzigartige Identität behält. Bei einem Bild mit mehreren Personen nutzt FaceStudio einen besonderen Aufmerksamkeitsmechanismus. Dieser Mechanismus stellt sicher, dass während des Bildsyntheseprozesses die Merkmale jedes Zeichenbereichs nur auf die entsprechenden Identitätsinformationen zugreifen. Dies bedeutet, dass das Modell die Identität jedes Charakters präzise steuern kann, um sicherzustellen, dass er im endgültigen Bild korrekt erscheint. Um diese präzise Kontrolle zu erreichen, verwendete das Tencent-Team ein Segmentierungsmodell für Zeicheninstanzen. Das Modell ist in der Lage, verschiedene Personen im Bild zu identifizieren und die Region jeder Person mit den entsprechenden Identitätsmerkmalen zu verknüpfen. Auf diese Weise kann das Modell sicherstellen, dass die Identitätsinformationen jedes Charakters beim Synthetisieren von Bildern korrekt gesteuert werden.
Vergleich der Auswirkungen von FaceStudio und Basisalgorithmen auf die Bilderzeugung für mehrere Personen
Das Tencent-Team hat eine Trainingsstrategie für FaceStudio entwickelt, die auf die Rekonstruktion menschlicher Bilder abzielt. Bei diesem Ansatz verwenden sie das Originalbild mit maskierten Gesichtsbereichen als Eingabe für ein stilisiertes menschliches Bild und verwenden gleichzeitig das zugeschnittene Gesicht aus demselben Bild als Eingabe für die Identität. Auf diese Weise kann das Modell die Identität der Person bei der Generierung des Leitbilds genauer bewahren. Im Gegensatz zu bestehenden Trainingsmethoden für generative Modelle basiert diese Methode nur auf Porträts als Trainingsdaten und erfordert keine Textanmerkungen, wodurch die Abhängigkeit von annotierten Daten erheblich verringert wird. Es kann sich besser an verschiedene Porträtstile anpassenErgebnisanzeige
FaceStudio zeigt seine einzigartigen Vorteile durch die Auswertung der Gesichtsähnlichkeit und der Porträterstellungszeit. Experimentelle Ergebnisse zeigen, dass FaceStudio weniger als 4 Sekunden benötigt, um ein einzelnes Porträt zu erstellen, während der beliebte, auf Optimierung basierende Algorithmus DreamBooth bis zu 6 Minuten benötigt. Gleichzeitig behält FaceStudio Porträtmerkmale besser bei und weist eine bessere Gesichtsähnlichkeit auf. Die experimentellen Ergebnisse werden wie folgt verglichen:
Die Forscher verglichen FaceStudio mit dem aktuell besten Modellalgorithmus für die Porträtgenerierung und verwendeten dabei dieselben Bilder als Proben. Die Vergleichsergebnisse zeigen, dass FaceStudio bei fast allen Proben bessere oder gleiche Ergebnisse erzielt. Dies beweist weiter, dass FaceStudio über eine starke Robustheit und Generalisierungsleistung verfügt. Die spezifischen Vergleichsergebnisse lauten wie folgt:
Darüber hinaus wurden in den FaceStudo-Experimenten eine Vielzahl einzigartiger Anwendungen zur Generierung von Gesichtsbildern demonstriert, einschließlich der geführten Generierung von Identity Blending und Text Image Blending Experiment zur gemischten geführten Bildgenerierung mit Text und Bildern Die von FaceStudio generierten Porträtbeispiele weisen verschiedene Stile auf Zusammenfassung Zusammenfassend stellt die Entstehung des FaceStudio-Logos einen bedeutenden Fortschritt dar im Bereich der personalisierten Bilderzeugung. Es bietet umfangreiche Stilisierungs- und textgesteuerte Bildgenerierungsoptionen unter Beibehaltung der Charakteridentität. Diese Fähigkeit ist nicht nur für die künstlerische Schaffens- und Unterhaltungsbranche von großem Wert, sondern kann auch in Bereichen wie Werbung, Produktion digitaler Medien und Erstellung personalisierter Inhalte eine wichtige Rolle spielen. Durch die präzise Kontrolle von Identität und Stil in Bildern eröffnet FaceStudio einen neuen Weg für die zukünftige Entwicklung der Bilderzeugungstechnologie und läutet Innovation und Wandel in diesem Bereich ein
Das obige ist der detaillierte Inhalt vonDer GTA6-Trailer wurde mehr als 1 Milliarde Mal gespielt und der KI-Gigant kann schnell in die Rolle des GTA-Gangsters schlüpfen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!