Heim Technologie-Peripheriegeräte KI Der GTA6-Trailer wurde mehr als 1 Milliarde Mal gespielt und der KI-Gigant kann schnell in die Rolle des GTA-Gangsters schlüpfen

Der GTA6-Trailer wurde mehr als 1 Milliarde Mal gespielt und der KI-Gigant kann schnell in die Rolle des GTA-Gangsters schlüpfen

Dec 14, 2023 pm 10:45 PM
数据 训练

Haben Sie den neuen Trailer zum GTA-Spiel gesehen? Es heißt, dass dieser Trailer drei Guinness-Weltrekorde gebrochen und über 100 Millionen Mal angesehen wurde.

Der GTA6-Trailer wurde mehr als 1 Milliarde Mal gespielt und der KI-Gigant kann schnell in die Rolle des GTA-Gangsters schlüpfen

Wenn ich dir sage, dass drei KI-Giganten auch im Spiel „Grand Theft Auto“ eine Rolle spielen können, kannst du sie dann noch unterscheiden?

Der GTA6-Trailer wurde mehr als 1 Milliarde Mal gespielt und der KI-Gigant kann schnell in die Rolle des GTA-Gangsters schlüpfen

Die großen Drei der KI: Yann LeCun, Geoffrey Hinton und Yoshua Bengio.

Dieses Foto wurde mit dem FaceStudio AI-Modell von Tencent synthetisiert und zeigt einen GTA-ähnlichen Effekt. Die Einzigartigkeit dieses KI-Modells liegt in seiner hervorragenden Zeichenerkennung, die die weit verbreitete „KI-Foto“-Technologie auf ein höheres Niveau hebt

In der heutigen rasanten Entwicklung der Technologie der künstlichen Intelligenz sind KI-Fotoshootings zu einer beliebten KI-Technologierichtung geworden Anwendungen. Im Bereich KI + Bildanwendungen haben KI-Fotoprodukte wie Miaoya Camera großes Potenzial und große Popularität bewiesen. Die Miaoya-Kamera hat bereits wenige Wochen nach ihrer Einführung in den sozialen Medien große Aufmerksamkeit erregt und ihr schnelles Wachstum unterstreicht das enorme Potenzial dieses Marktes. Dennoch weisen viele KI-Fotoprodukte immer noch bestimmte technische Einschränkungen auf. Beispielsweise müssen Benutzer mehrere Fotos mit großen Unterschieden hochladen und lange warten, bis der zusammengesetzte Effekt erzielt wird, was sich zweifellos auf das Benutzererlebnis auswirkt.

In dieser von künstlicher Intelligenz angeführten Welle der Bildinnovation zeigt Tencents neuestes Forschungsergebnis FaceStudio einen weiteren technologischen Durchbruch. Diese Forschung konzentriert sich nicht nur auf die schnelle Synthese von Porträts, sondern konzentriert sich auch stärker auf die Beibehaltung der Identitätsinformationen des Porträts, um ästhetischen Anforderungen gerecht zu werden und gleichzeitig die Einzigartigkeit und Wiedererkennung des Charakters zu bewahren. Es übernimmt nicht nur die Kernvorteile des Open-Source-Algorithmus StableDiffusion, sondern führt auch innovative Verbesserungen bei mehreren Schlüsselfunktionen durch. Am auffälligsten ist die Möglichkeit, hybride Anleitungen für die Bilderzeugung zu verwenden, insbesondere bei der Verarbeitung von Mehrpersonenfotos und stilisierten Bildern. Die Kerntechnologie von FaceStudio liegt in der Fähigkeit, Bilder zu erstellen, ohne die persönliche Identität zu opfern Charakterbildsynthese wird erreicht. Traditionelle KI-Bildsynthesetechnologie opfert oft die Einzigartigkeit und Wiedererkennung von Charakteren und strebt gleichzeitig nach visueller Schönheit. Durch einen fortschrittlichen hybriden Führungsmechanismus ist FaceStudio jedoch in der Lage, beim Generieren von Bildern gleichzeitig Texthinweise, Stilbilder und Identitätsbilder zu berücksichtigen und so eine vielfältige Stilübertragung unter Beibehaltung individueller Merkmale zu erreichen. Dies ist nicht nur ein großer technologischer Durchbruch, sondern bietet Benutzern auch umfangreichere und personalisiertere Bildsyntheseoptionen.

Darüber hinaus eignet sich FaceStudio dank seines einzigartigen Multi-Identity-Cross-Attention-Mechanismus besonders gut für die Verarbeitung von Bildern mit mehreren Personen. Herkömmliche Methoden stoßen bei der Verarbeitung solcher Bilder häufig auf Probleme bei der genauen Unterscheidung und Beibehaltung der Merkmale jeder Person. Dieser Mechanismus von FaceStudio kann jedoch die charakteristischen Informationen verschiedener Identitäten genau den entsprechenden Teilen des Bildes zuordnen, was hervorragend dazu beiträgt, die Einzigartigkeit jedes Charakters und die Koordination des Gesamtstils beizubehalten.

FaceStudio unterstützt eine Vielzahl interessanter gesichtsbezogener AnwendungenDer GTA6-Trailer wurde mehr als 1 Milliarde Mal gespielt und der KI-Gigant kann schnell in die Rolle des GTA-Gangsters schlüpfen

Der GTA6-Trailer wurde mehr als 1 Milliarde Mal gespielt und der KI-Gigant kann schnell in die Rolle des GTA-Gangsters schlüpfen

Papieradresse: https://arxiv.org/abs/2312.02663
  • Homepage-Adresse: https ://icoz69.github.io/facestudio/
  • Methodenübersicht

Hybrid-Bootstrap-Design

Eine der Kernfunktionen von FaceStudio ist das Hybrid-Bootstrap-Design. Das Team verwendete einen einzigartigen Ansatz, der es dem Modell ermöglicht, gleichzeitig Bild- und Texthinweise zu empfangen und so Bilder mit spezifischen Identitätsmerkmalen zu erzeugen. Das auf Bildaufforderungen basierende Führungsmodul enthält zwei Untermodule:

  • Bildgeführtes Modul: In diesem Teil verwendet FaceStudio den visuellen Encoder CLIP, um menschliche Bilder zu verarbeiten. Diese Bilder sind oft stilisiert und enthalten umfangreiche visuelle Informationen wie Farbe, Textur und Komposition. Der CLIP-Encoder ist in der Lage, komplexe Stilmerkmale aus diesen Bildern zu extrahieren.
  • Identitätserkennungsmodul: Parallel zum Bildführungsmodul hat das Tencent-Team auch ein Identitätserkennungsmodul entwickelt, das das Arcface-Modell zur Verarbeitung einzelner Gesichtsbilder verwendet. Sein Hauptzweck besteht darin, wichtige Identitätsmerkmale wie Gesichtsstruktur, Gesichtsausdruck und andere einzigartige biometrische Informationen aus Gesichtsbildern zu extrahieren.

Nachdem die visuellen Merkmale des stilisierten Bildes und die Identitätsmerkmale des Gesichtsbildes extrahiert wurden, werden diese beiden Merkmalssätze miteinander verschmolzen. Dieser Schritt wird durch eine lineare Ebene erreicht, die beide Merkmale zu einer umfassenden Leitfunktion kombiniert. Der Vorteil dieser Methode besteht darin, dass nicht nur die Identität des Charakters erhalten bleibt, sondern auch spezifische Stile und Inhalte in den Bildgenerierungsprozess einbezogen werden

FaceStudio verfügt nicht nur über eine Bildführungsfunktion, sondern integriert auch eine Textführungsfunktion. Diese Funktion wird durch die Verwendung eines vorab trainierten PriorTransformer-Modells erreicht. Das Modell ist in der Lage, CLIP-Textmerkmale den entsprechenden visuellen CLIP-Merkmalen zuzuordnen. Anschließend werden diese visuellen Merkmale, ähnlich wie beim Bildaufforderungsführungsmodul, mit den Funktionen des Identitätserkennungsmoduls kombiniert, um eine umfassende Führungsfunktion zu bilden, die auf Textaufforderungen reagieren kann. Schließlich werden die beiden Eingabeaufforderungsfunktionen gewichtet und zusammengeführt, um eine hybride Führung zu erreichen. Der Inhalt, der neu geschrieben werden muss, ist: das Architekturdiagramm von Facebook Studio. Bildsynthese für mehrere Personen Im vom Tencent-Team entwickelten FaceStudio-Framework gibt es eine zentrale Neuerung, nämlich den Teil „Verarbeitung von Mehrpersonenbildern“. Dieser Abschnitt konzentriert sich auf die Zusammenstellung von Porträts mehrerer Personen in einem einzigen Bild, um sicherzustellen, dass jede Person im endgültigen Bild ihre einzigartige Identität behält. Bei einem Bild mit mehreren Personen nutzt FaceStudio einen besonderen Aufmerksamkeitsmechanismus. Dieser Mechanismus stellt sicher, dass während des Bildsyntheseprozesses die Merkmale jedes Zeichenbereichs nur auf die entsprechenden Identitätsinformationen zugreifen. Dies bedeutet, dass das Modell die Identität jedes Charakters präzise steuern kann, um sicherzustellen, dass er im endgültigen Bild korrekt erscheint. Um diese präzise Kontrolle zu erreichen, verwendete das Tencent-Team ein Segmentierungsmodell für Zeicheninstanzen. Das Modell ist in der Lage, verschiedene Personen im Bild zu identifizieren und die Region jeder Person mit den entsprechenden Identitätsmerkmalen zu verknüpfen. Auf diese Weise kann das Modell sicherstellen, dass die Identitätsinformationen jedes Charakters beim Synthetisieren von Bildern korrekt gesteuert werden.

Der GTA6-Trailer wurde mehr als 1 Milliarde Mal gespielt und der KI-Gigant kann schnell in die Rolle des GTA-Gangsters schlüpfen

Vergleich der Auswirkungen von FaceStudio und Basisalgorithmen auf die Bilderzeugung für mehrere Personen

Das Tencent-Team hat eine Trainingsstrategie für FaceStudio entwickelt, die auf die Rekonstruktion menschlicher Bilder abzielt. Bei diesem Ansatz verwenden sie das Originalbild mit maskierten Gesichtsbereichen als Eingabe für ein stilisiertes menschliches Bild und verwenden gleichzeitig das zugeschnittene Gesicht aus demselben Bild als Eingabe für die Identität. Auf diese Weise kann das Modell die Identität der Person bei der Generierung des Leitbilds genauer bewahren. Im Gegensatz zu bestehenden Trainingsmethoden für generative Modelle basiert diese Methode nur auf Porträts als Trainingsdaten und erfordert keine Textanmerkungen, wodurch die Abhängigkeit von annotierten Daten erheblich verringert wird. Es kann sich besser an verschiedene Porträtstile anpassenErgebnisanzeige

FaceStudio zeigt seine einzigartigen Vorteile durch die Auswertung der Gesichtsähnlichkeit und der Porträterstellungszeit. Experimentelle Ergebnisse zeigen, dass FaceStudio weniger als 4 Sekunden benötigt, um ein einzelnes Porträt zu erstellen, während der beliebte, auf Optimierung basierende Algorithmus DreamBooth bis zu 6 Minuten benötigt. Gleichzeitig behält FaceStudio Porträtmerkmale besser bei und weist eine bessere Gesichtsähnlichkeit auf. Die experimentellen Ergebnisse werden wie folgt verglichen:

Der GTA6-Trailer wurde mehr als 1 Milliarde Mal gespielt und der KI-Gigant kann schnell in die Rolle des GTA-Gangsters schlüpfen

Die Forscher verglichen FaceStudio mit dem aktuell besten Modellalgorithmus für die Porträtgenerierung und verwendeten dabei dieselben Bilder als Proben. Die Vergleichsergebnisse zeigen, dass FaceStudio bei fast allen Proben bessere oder gleiche Ergebnisse erzielt. Dies beweist weiter, dass FaceStudio über eine starke Robustheit und Generalisierungsleistung verfügt. Die spezifischen Vergleichsergebnisse lauten wie folgt:

Der GTA6-Trailer wurde mehr als 1 Milliarde Mal gespielt und der KI-Gigant kann schnell in die Rolle des GTA-Gangsters schlüpfen

Darüber hinaus wurden in den FaceStudo-Experimenten eine Vielzahl einzigartiger Anwendungen zur Generierung von Gesichtsbildern demonstriert, einschließlich der geführten Generierung von Identity Blending und Text Image Blending

Der GTA6-Trailer wurde mehr als 1 Milliarde Mal gespielt und der KI-Gigant kann schnell in die Rolle des GTA-Gangsters schlüpfenExperiment zur gemischten geführten Bildgenerierung mit Text und Bildern

Die von FaceStudio generierten Porträtbeispiele weisen verschiedene Stile auf

Der GTA6-Trailer wurde mehr als 1 Milliarde Mal gespielt und der KI-Gigant kann schnell in die Rolle des GTA-Gangsters schlüpfenZusammenfassung

Zusammenfassend stellt die Entstehung des FaceStudio-Logos einen bedeutenden Fortschritt dar im Bereich der personalisierten Bilderzeugung. Es bietet umfangreiche Stilisierungs- und textgesteuerte Bildgenerierungsoptionen unter Beibehaltung der Charakteridentität. Diese Fähigkeit ist nicht nur für die künstlerische Schaffens- und Unterhaltungsbranche von großem Wert, sondern kann auch in Bereichen wie Werbung, Produktion digitaler Medien und Erstellung personalisierter Inhalte eine wichtige Rolle spielen. Durch die präzise Kontrolle von Identität und Stil in Bildern eröffnet FaceStudio einen neuen Weg für die zukünftige Entwicklung der Bilderzeugungstechnologie und läutet Innovation und Wandel in diesem Bereich ein

Das obige ist der detaillierte Inhalt vonDer GTA6-Trailer wurde mehr als 1 Milliarde Mal gespielt und der KI-Gigant kann schnell in die Rolle des GTA-Gangsters schlüpfen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Verwenden Sie ddrescue, um Daten unter Linux wiederherzustellen Verwenden Sie ddrescue, um Daten unter Linux wiederherzustellen Mar 20, 2024 pm 01:37 PM

DDREASE ist ein Tool zum Wiederherstellen von Daten von Datei- oder Blockgeräten wie Festplatten, SSDs, RAM-Disks, CDs, DVDs und USB-Speichergeräten. Es kopiert Daten von einem Blockgerät auf ein anderes, wobei beschädigte Blöcke zurückbleiben und nur gute Blöcke verschoben werden. ddreasue ist ein leistungsstarkes Wiederherstellungstool, das vollständig automatisiert ist, da es während der Wiederherstellungsvorgänge keine Unterbrechungen erfordert. Darüber hinaus kann es dank der ddasue-Map-Datei jederzeit gestoppt und fortgesetzt werden. Weitere wichtige Funktionen von DDREASE sind: Es überschreibt die wiederhergestellten Daten nicht, füllt aber die Lücken im Falle einer iterativen Wiederherstellung. Es kann jedoch gekürzt werden, wenn das Tool explizit dazu aufgefordert wird. Stellen Sie Daten aus mehreren Dateien oder Blöcken in einer einzigen wieder her

Open Source! Jenseits von ZoeDepth! DepthFM: Schnelle und genaue monokulare Tiefenschätzung! Open Source! Jenseits von ZoeDepth! DepthFM: Schnelle und genaue monokulare Tiefenschätzung! Apr 03, 2024 pm 12:04 PM

0.Was bewirkt dieser Artikel? Wir schlagen DepthFM vor: ein vielseitiges und schnelles generatives monokulares Tiefenschätzungsmodell auf dem neuesten Stand der Technik. Zusätzlich zu herkömmlichen Tiefenschätzungsaufgaben demonstriert DepthFM auch hochmoderne Fähigkeiten bei nachgelagerten Aufgaben wie dem Tiefen-Inpainting. DepthFM ist effizient und kann Tiefenkarten innerhalb weniger Inferenzschritte synthetisieren. Lassen Sie uns diese Arbeit gemeinsam lesen ~ 1. Titel der Papierinformationen: DepthFM: FastMonocularDepthEstimationwithFlowMatching Autor: MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

Google ist begeistert: JAX-Leistung übertrifft Pytorch und TensorFlow! Es könnte die schnellste Wahl für das GPU-Inferenztraining werden Google ist begeistert: JAX-Leistung übertrifft Pytorch und TensorFlow! Es könnte die schnellste Wahl für das GPU-Inferenztraining werden Apr 01, 2024 pm 07:46 PM

Die von Google geförderte Leistung von JAX hat in jüngsten Benchmark-Tests die von Pytorch und TensorFlow übertroffen und belegt bei 7 Indikatoren den ersten Platz. Und der Test wurde nicht auf der TPU mit der besten JAX-Leistung durchgeführt. Obwohl unter Entwicklern Pytorch immer noch beliebter ist als Tensorflow. Aber in Zukunft werden möglicherweise mehr große Modelle auf Basis der JAX-Plattform trainiert und ausgeführt. Modelle Kürzlich hat das Keras-Team drei Backends (TensorFlow, JAX, PyTorch) mit der nativen PyTorch-Implementierung und Keras2 mit TensorFlow verglichen. Zunächst wählen sie eine Reihe von Mainstream-Inhalten aus

Hallo, elektrischer Atlas! Der Boston Dynamics-Roboter erwacht wieder zum Leben, seltsame 180-Grad-Bewegungen machen Musk Angst Hallo, elektrischer Atlas! Der Boston Dynamics-Roboter erwacht wieder zum Leben, seltsame 180-Grad-Bewegungen machen Musk Angst Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas tritt offiziell in die Ära der Elektroroboter ein! Gestern hat sich der hydraulische Atlas einfach „unter Tränen“ von der Bühne der Geschichte zurückgezogen. Heute gab Boston Dynamics bekannt, dass der elektrische Atlas im Einsatz ist. Es scheint, dass Boston Dynamics im Bereich kommerzieller humanoider Roboter entschlossen ist, mit Tesla zu konkurrieren. Nach der Veröffentlichung des neuen Videos wurde es innerhalb von nur zehn Stunden bereits von mehr als einer Million Menschen angesehen. Die alten Leute gehen und neue Rollen entstehen. Das ist eine historische Notwendigkeit. Es besteht kein Zweifel, dass dieses Jahr das explosive Jahr der humanoiden Roboter ist. Netizens kommentierten: Die Weiterentwicklung der Roboter hat dazu geführt, dass die diesjährige Eröffnungsfeier wie Menschen aussieht, und der Freiheitsgrad ist weitaus größer als der von Menschen. Aber ist das wirklich kein Horrorfilm? Zu Beginn des Videos liegt Atlas ruhig auf dem Boden, scheinbar auf dem Rücken. Was folgt, ist atemberaubend

Langsame Internetgeschwindigkeiten für Mobilfunkdaten auf dem iPhone: Korrekturen Langsame Internetgeschwindigkeiten für Mobilfunkdaten auf dem iPhone: Korrekturen May 03, 2024 pm 09:01 PM

Stehen Sie vor einer Verzögerung oder einer langsamen mobilen Datenverbindung auf dem iPhone? Normalerweise hängt die Stärke des Mobilfunk-Internets auf Ihrem Telefon von mehreren Faktoren ab, wie z. B. der Region, dem Mobilfunknetztyp, dem Roaming-Typ usw. Es gibt einige Dinge, die Sie tun können, um eine schnellere und zuverlässigere Mobilfunk-Internetverbindung zu erhalten. Fix 1 – Neustart des iPhone erzwingen Manchmal werden durch einen erzwungenen Neustart Ihres Geräts viele Dinge zurückgesetzt, einschließlich der Mobilfunkverbindung. Schritt 1 – Drücken Sie einfach einmal die Lauter-Taste und lassen Sie sie los. Drücken Sie anschließend die Leiser-Taste und lassen Sie sie wieder los. Schritt 2 – Der nächste Teil des Prozesses besteht darin, die Taste auf der rechten Seite gedrückt zu halten. Lassen Sie das iPhone den Neustart abschließen. Aktivieren Sie Mobilfunkdaten und überprüfen Sie die Netzwerkgeschwindigkeit. Überprüfen Sie es erneut. Fix 2 – Datenmodus ändern 5G bietet zwar bessere Netzwerkgeschwindigkeiten, funktioniert jedoch besser, wenn das Signal schwächer ist

Die Vitalität der Superintelligenz erwacht! Aber mit der Einführung der sich selbst aktualisierenden KI müssen sich Mütter keine Sorgen mehr über Datenengpässe machen Die Vitalität der Superintelligenz erwacht! Aber mit der Einführung der sich selbst aktualisierenden KI müssen sich Mütter keine Sorgen mehr über Datenengpässe machen Apr 29, 2024 pm 06:55 PM

Ich weine zu Tode. Die Daten im Internet reichen überhaupt nicht aus. Das Trainingsmodell sieht aus wie „Die Tribute von Panem“, und KI-Forscher auf der ganzen Welt machen sich Gedanken darüber, wie sie diese datenhungrigen Esser ernähren sollen. Dieses Problem tritt insbesondere bei multimodalen Aufgaben auf. Zu einer Zeit, als sie ratlos waren, nutzte ein Start-up-Team der Abteilung der Renmin-Universität von China sein eigenes neues Modell, um als erstes in China einen „modellgenerierten Datenfeed selbst“ in die Realität umzusetzen. Darüber hinaus handelt es sich um einen zweigleisigen Ansatz auf der Verständnisseite und der Generierungsseite. Beide Seiten können hochwertige, multimodale neue Daten generieren und Datenrückmeldungen an das Modell selbst liefern. Was ist ein Modell? Awaker 1.0, ein großes multimodales Modell, das gerade im Zhongguancun-Forum erschienen ist. Wer ist das Team? Sophon-Motor. Gegründet von Gao Yizhao, einem Doktoranden an der Hillhouse School of Artificial Intelligence der Renmin University.

Tesla-Roboter arbeiten in Fabriken, Musk: Der Freiheitsgrad der Hände wird dieses Jahr 22 erreichen! Tesla-Roboter arbeiten in Fabriken, Musk: Der Freiheitsgrad der Hände wird dieses Jahr 22 erreichen! May 06, 2024 pm 04:13 PM

Das neueste Video von Teslas Roboter Optimus ist veröffentlicht und er kann bereits in der Fabrik arbeiten. Bei normaler Geschwindigkeit sortiert es Batterien (Teslas 4680-Batterien) so: Der Beamte hat auch veröffentlicht, wie es bei 20-facher Geschwindigkeit aussieht – auf einer kleinen „Workstation“, pflücken und pflücken und pflücken: Dieses Mal wird es freigegeben. Eines der Highlights Der Vorteil des Videos besteht darin, dass Optimus diese Arbeit in der Fabrik völlig autonom und ohne menschliches Eingreifen während des gesamten Prozesses erledigt. Und aus Sicht von Optimus kann es auch die krumme Batterie aufnehmen und platzieren, wobei der Schwerpunkt auf der automatischen Fehlerkorrektur liegt: In Bezug auf die Hand von Optimus gab der NVIDIA-Wissenschaftler Jim Fan eine hohe Bewertung ab: Die Hand von Optimus ist der fünffingrige Roboter der Welt am geschicktesten. Seine Hände sind nicht nur taktil

Die Kuaishou-Version von Sora „Ke Ling' steht zum Testen offen: Sie generiert über 120 Sekunden Videos, versteht die Physik besser und kann komplexe Bewegungen genau modellieren Die Kuaishou-Version von Sora „Ke Ling' steht zum Testen offen: Sie generiert über 120 Sekunden Videos, versteht die Physik besser und kann komplexe Bewegungen genau modellieren Jun 11, 2024 am 09:51 AM

Was? Wird Zootopia durch heimische KI in die Realität umgesetzt? Zusammen mit dem Video wird ein neues groß angelegtes inländisches Videogenerationsmodell namens „Keling“ vorgestellt. Sora geht einen ähnlichen technischen Weg und kombiniert eine Reihe selbst entwickelter technologischer Innovationen, um Videos zu produzieren, die nicht nur große und vernünftige Bewegungen aufweisen, sondern auch die Eigenschaften der physischen Welt simulieren und über starke konzeptionelle Kombinationsfähigkeiten und Vorstellungskraft verfügen. Den Daten zufolge unterstützt Keling die Erstellung ultralanger Videos von bis zu 2 Minuten mit 30 Bildern pro Sekunde, mit Auflösungen von bis zu 1080p und unterstützt mehrere Seitenverhältnisse. Ein weiterer wichtiger Punkt ist, dass es sich bei Keling nicht um eine vom Labor veröffentlichte Demo oder Video-Ergebnisdemonstration handelt, sondern um eine Anwendung auf Produktebene, die von Kuaishou, einem führenden Anbieter im Bereich Kurzvideos, gestartet wurde. Darüber hinaus liegt das Hauptaugenmerk darauf, pragmatisch zu sein, keine Blankoschecks auszustellen und sofort nach der Veröffentlichung online zu gehen. Das große Modell von Ke Ling wurde bereits in Kuaiying veröffentlicht.

See all articles