Freund, weißt du, was dieses englische Wort ist?
Pneumonoultramicroscopicsilicovolcanoconiosis.
Dies gilt als das längste Wort der Welt – bestehend aus 45 Buchstaben, was „Krankheit, die durch die Ablagerung von vulkanischen Kieselsäurepartikeln in der Lunge verursacht wird“ bedeutet. (Allgemein bekannt als vulkanische Silikose).
Aber was wäre, wenn Sie dieses Wort nicht buchstabieren, sondern ... zeichnen würden?
(Du kannst nicht einmal lesen, aber du zeichnest trotzdem???)
Googles neueste KI, Parti, kann das problemlos halten.
Nachdem dieses Wort an Parti „gefüttert“ wurde, können mehrere vernünftige Bilder von Lungenerkrankungen generiert werden:
Aber Dies ist nur ein kleiner Test der Fähigkeiten von Parti. Laut Google handelt es sich um die derzeit fortschrittlichste „Text-zu-Bild“-KI.
Wenn Sie zum Beispiel sagen: „Kombinieren Sie das Sydney Opera House mit dem Eiffelturm“, sieht die Ausgabe so aus:
#🎜🎜 #
(Für diejenigen, die es nicht wissen, ich dachte wirklich, es sei ein Bild) Darüber hinaus unterscheidet es sich auch in Bezug auf den Algorithmus von Googles eigenem Imagen „KI-Malerei“ zu neuen Höhen geführt zu haben. Sogar Jeff Dean, der Chef von Google AI, hat mehrmals getwittert und hatte eine tolle Zeit:#🎜🎜 ##🎜🎜 #
Erweiterbar auf 20 Milliarden Parameter: realistischer und „intelligenter“
Tatsächlich hören die Fähigkeiten von Parti hier nicht auf. Dank der Skalierbarkeit des Modells auf 20 Milliarden Parameter sind die erzeugten Bilder einerseits detaillierter und realistischer. Ob es sich nur um ein paar Wörter oder einen kurzen Absatz mit mehr als fünfzig Wörtern handelt, es kann klar dargestellt werden. Zum Beispiel: Der Rücken einer Geige, die Rückseite der Geige.Oder es kann als Nachtszene basierend auf Van Goghs „Sternennacht“ beschrieben werden. PS: Dieser Absatz besteht aus 67 Wörtern.
Daher ist Parti kein Problem und ich habe alle Bilder verschiedener Stilrichtungen für Sie in einem Paket gezeichnet~# 🎜🎜## 🎜🎜#
Dies ist auch Partis zweitgrößte Fähigkeit. Nicht nur die Details sind vorhanden, auch der Stil kann variiert werden.
Es gibt auch seltsame Beschreibungen wie „Ein Waschbär trägt einen formellen Anzug, einen Zylinder, einen Gehstock und einen Müllsack“. Es kann auch ein blumiges Werk entstehen, ohne dass Details fehlen.
In Bezug auf den Stil gibt es Van-Gogh-Stil, ägyptischen Pharaonenstil, Pixelstil, traditionellen chinesischen Malstil, abstrakten Stil ...#🎜 🎜#
Manchmal werden sogar Wortspielwitze erzählt. (Toad'ay,癞蟆)Insbesondere in den Testergebnissen, MS-COCO, Localized Narrative (LN , 4-mal längere Beschreibung) auf FID-Scores erzielt Parti Ergebnisse auf dem neuesten Stand der Technik. Insbesondere der FID-Score der MS-COCO-Nullprobe beträgt nur 7,23, und der fein abgestimmte FID-Score beträgt 3,22 und übertrifft damit die vorherigen Imagen und DALL -E 2 . Alle Komponenten sind TransformerNach einem Monat hat Google die KI-Malerei auf ein neues Niveau gehoben, aber der Autor sagte: Das Geheimnis ist einfach.
Parti behandelt hauptsächlich textgenerierte Bilder als Sequenz-zu-Sequenz-Modellierung. Dies ähnelt in gewisser Weise der maschinellen Übersetzung, bei der Text-Tokens als Eingabe an den Encoder übergeben werden und sich die Zielausgabe von Text in ein Bild ändert.
Strukturell bestehen alle seine Komponenten nur aus drei Teilen: Encoder, Decoder und Bild-Tagger, und alle basieren auf dem Standard-Transformer.
Zuerst wird das Bild mithilfe des Transformer-basierten Bild-Taggers ViT-VQGAN in eine diskrete Folge von Tags codiert.
Dann werden die Parameter durch die Codierungs-Decodierungsstruktur von Transformer auf 20 Milliarden erweitert.
Frühere Forschungen zur Bilderzeugung aus Text, mit Ausnahme des frühesten GAN, lassen sich grob in zwei Ideen unterteilen.
Eines basiert auf dem autoregressiven Modell. Zuerst werden Textmerkmale auf Bildmerkmale abgebildet, und dann wird eine Sequenzarchitektur ähnlich der von Transformer verwendet, um die Beziehung zwischen Spracheingabe und Bildausgabe zu lernen.
Eine Schlüsselkomponente dieses Ansatzes ist der Bild-Tagger, der jedes Bild in eine Folge diskreter Einheiten umwandelt. Beispielsweise übernehmen DALL-E und CogView diese Idee.
Der andere Weg hat in dieser Zeit häufig Fortschritte gemacht – Text-zu-Bild-Modelle, die auf Diffusion basieren, wie DALL-E 2 und Imagen.
Sie haben den Bild-Tagger aufgegeben und stattdessen ein Diffusionsmodell verwendet, um Bilder direkt zu generieren. Es ist zu erkennen, dass diese Modelle qualitativ hochwertigere Bilder erzeugen und beim MS-COCO-Zero-Shot-FID besser abschneiden.
Der Erfolg des Parti-Modells beweist, dass das autoregressive Modell verwendet werden kann, um die Wirkung von textgenerierten Bildern zu verbessern.
Gleichzeitig hat Parti auch einen neuen Benchmark-Test eingeführt und veröffentlicht – PartiPrompts, mit dem die Fähigkeiten des Modells in 12 Kategorien und 11 Herausforderungen gemessen werden.
Aber Parti hat immer noch gewisse Einschränkungen, und die Forscher zeigten auch einige Fehler:
Zum Beispiel ist die negative Beschreibung nutzlos~
Ein Teller ohne Bananen und daneben ein Glas ohne Orangensaft und eine Tasse.
Machen Sie auch einige vernünftige Fehler, wie zum Beispiel eine unangemessene Skalierung. Auf diesem Bild ist der Roboter beispielsweise um ein Vielfaches größer als ein Rennwagen.
Ein glänzender Roboter im Rennanzug und schwarzem Visier steht stolz vor einem F1-Auto. Die Sonne geht über dem Stadtbild unter. Comic-Illustration.
Diese Studie stammt von Google Research und die meisten Teammitglieder sind Chinesen.
Zu den Kernforschungsmitarbeitern gehören Yuanzhong Xu, Thang Luong usw., die derzeit bei Google in der KI-bezogenen Forschung arbeiten.
(Thang Luong wurde bis zu 20.000 Mal auf Google Scholar zitiert)
△Links: Yuanzhong Xu; Rechts: Thang Luong
Aber das Interessante ist, dass beide „ein Wort sagen, um die KI zeichnen zu lassen“ , und das gleiche Imagen wird von Google erstellt und hat viel mit Parti zu tun.
Es wird in der GitHub-Projektdokumentation von Parti erwähnt:
Vielen Dank an das Imagen-Team, das uns seine aktuellen vollständigen Ergebnisse vor der Veröffentlichung von Imagen mitgeteilt hat.
Ihre wichtigen Entdeckungen in der CF-Anleitung waren besonders hilfreich für das endgültige Parti-Modell.
Und Burcu Karagol Ayan, einer der Autoren von Imagen, beteiligte sich ebenfalls am Parti-Projekt.
(Es ist wie bei Google „roll it yourself“)
Nicht nur das, auch Aditya Ramesh, der Autor des „von nebenan“ DALL-E 2, diskutierte auch die MS-COCO-Bewertung für Parti.
und die Autoren von DALL-Eval leisteten auch Hilfe bei der Parti-Datenarbeit.
Eines lässt sich sagen: „Textgeneriertes Bild“ ist nicht nur der Liebling der Forscher.
Internetnutzer werden nie müde, damit zu „spielen“ (seien Sie nicht zu einfallsreich).
Vor einiger Zeit habe ich Imagen gebeten, einen „Tiger in VR“ aus der Song-Dynastie zu zeichnen, der sich direkt zu einem KI-Malkampf entwickelte.
△Bild: Kunst von Imagen
DALL·E, MidJourney und andere „kamen, nachdem sie die Neuigkeiten gehört hatten“, um teilzunehmen.
△ Zeichnung von DALL·E
Es gibt sogar eine Kombination aus Wordle und DALL-E 2:
...
Aber diesmal zurück nach Parti, es macht Spaß, aber immer noch Einige Internetnutzer stellte eine Frage, die „direkt in die Seele schneidet“:
Wann wird es kommerzialisiert? Es wäre sinnlos, alleine „hinter verschlossenen Türen zu spielen“.
Parti-Paper-Adresse:
https://parti.research.google/
GitHub-Projektadresse:
https://github.com/google-research/parti
Referenzlink :
[1]https://twitter.com/lmthang/status/1539664610596225024[2]https://gizmodo.com/new-browser-game-combines-dall-e-mini-and-wordle-1849105289 [3]https://imagen.research.google/
Das obige ist der detaillierte Inhalt vonGoogles neue KI ist heiß! Sie können das längste Wort der Welt zeichnen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!