Apple stellt das neue KI-Modell MGIE vor, das Bilder in einem Satz verfeinern kann

PHPz
Freigeben: 2024-02-08 11:33:25
nach vorne
1170 Leute haben es durchsucht

苹果展示 AI 新模型 MGIE,可一句话精修图片

Nachrichten vom 8. Februar Im Vergleich zum Erfolg von Microsoft ist Apples Layout im Bereich KI viel zurückhaltender, aber das bedeutet nicht, dass Apple in diesem Bereich keine Erfolge erzielt hat. Apple hat kürzlich ein neues Open-Source-Modell für künstliche Intelligenz namens „MGIE“ veröffentlicht, das Bilder basierend auf Anweisungen in natürlicher Sprache bearbeiten kann.

苹果展示 AI 新模型 MGIE,可一句话精修图片

Bildquelle: VentureBeat in Zusammenarbeit mit Midjourney

MGIE (MLLM-Guided Image Editing) ist eine Technologie, die multimodale große Sprachmodelle (MLLM) verwendet, um Benutzeranweisungen zu interpretieren und Operationen auf Pixelebene durchzuführen. Es kann die Befehle des Benutzers in natürlicher Sprache verstehen und Photoshop-ähnliche Änderungen, globale Fotooptimierung und lokale Bearbeitung durchführen. Mit MGIE können Benutzer problemlos verschiedene Bearbeitungen an Bildern vornehmen, ohne mit komplexer Bildverarbeitungssoftware vertraut zu sein. Diese Technologie vereinfacht den Bildbearbeitungsprozess und bietet gleichzeitig eine intuitivere und effizientere Bearbeitungsmethode.

苹果展示 AI 新模型 MGIE,可一句话精修图片

Apple hat mit Forschern der University of California, Santa Barbara zusammengearbeitet, um Forschungsergebnisse im Zusammenhang mit MGIE auf der International Conference on Learning Representations (ICLR) 2024 bekannt zu geben. ICLR ist eine der wichtigsten Konferenzen im Bereich der Forschung im Bereich der künstlichen Intelligenz.

Bevor MGIE vorgestellt wird, wird auf dieser Website kurz MLLM (Multimodal Language Learning Model) vorgestellt. MLLM ist ein leistungsstarkes Modell der künstlichen Intelligenz, das insofern einzigartig ist, als es Text und Bilder gleichzeitig verarbeiten kann und dadurch die anweisungsbasierten Bildbearbeitungsmöglichkeiten verbessert. MLLM hat hervorragende Fähigkeiten beim modalübergreifenden Verständnis und der Generierung visueller Wahrnehmungsreaktionen gezeigt, wurde jedoch bei Bildbearbeitungsaufgaben noch nicht weit verbreitet eingesetzt.

苹果展示 AI 新模型 MGIE,可一句话精修图片

MGIE integriert MLLMs auf zwei Arten in den Bildbearbeitungsprozess: Erstens nutzt es MLLMs, um präzise und ausdrucksstarke Anweisungen aus Benutzereingaben abzuleiten. Diese Anweisungen sind prägnant und klar und bieten eine klare Anleitung für den Bearbeitungsprozess.

Wenn Sie beispielsweise „Machen Sie den Himmel blauer“ eingeben, kann MGIE den Befehl „Erhöhen Sie die Sättigung des Himmelsbereichs um 20 %“ generieren.

Zweitens nutzt es MLLM, um visuelle Vorstellungen zu erzeugen, also latente Darstellungen der gewünschten Bearbeitungen. Diese Darstellung erfasst das Wesentliche der Bearbeitung und kann zur Steuerung von Vorgängen auf Pixelebene verwendet werden. MGIE verwendet ein neuartiges End-to-End-Trainingsschema, das die Ableitung von Anweisungen, die visuelle Vorstellungskraft und die Bildbearbeitungsmodule gemeinsam optimiert.

苹果展示 AI 新模型 MGIE,可一句话精修图片

MGIE kann eine Vielzahl von Bearbeitungssituationen bewältigen, von einfachen Farbanpassungen bis hin zu komplexen Objektmanipulationen. Das Modell kann auch globale und lokale Bearbeitungen basierend auf den Präferenzen des Benutzers durchführen. Zu den Merkmalen und Funktionen von MGIE gehören:

  • Befehlsbasierte Ausdrucksbearbeitung: MGIE kann präzise und klare Anweisungen generieren, um den Bearbeitungsprozess effektiv zu steuern. Dies verbessert nicht nur die Bearbeitungsqualität, sondern verbessert auch das gesamte Benutzererlebnis.
  • Photoshop-Stilbearbeitung: MGIE kann gängige Photoshop-Stilbearbeitungen wie Zuschneiden, Größenänderung, Drehen, Spiegeln und Hinzufügen von Filtern durchführen. Das Modell kann auch erweiterte Bearbeitungen vornehmen, z. B. das Ändern des Hintergrunds, das Hinzufügen oder Entfernen von Objekten und das Überblenden von Bildern.
  • Globale Fotooptimierung: MGIE kann die Gesamtqualität Ihrer Fotos wie Helligkeit, Kontrast, Schärfe und Farbbalance optimieren. Das Modell kann auch künstlerische Effekte wie Skizzieren, Malen und Karikaturen anwenden.
  • Teilbearbeitung: MGIE kann bestimmte Bereiche oder Objekte in einem Bild bearbeiten, z. B. Gesicht, Augen, Haare, Kleidung und Accessoires. Das Modell kann auch die Eigenschaften dieser Bereiche oder Objekte ändern, z. B. Form, Größe, Farbe, Textur und Stil.

苹果展示 AI 新模型 MGIE,可一句话精修图片

MGIE ist ein Open-Source-Projekt auf GitHub. Benutzer können hier klicken, um den Code, die Daten und vorab trainierte Modelle zu finden. Das Projekt stellt außerdem ein Demo-Notizbuch bereit, das zeigt, wie man mit MGIE verschiedene Bearbeitungsaufgaben erledigt.

Das obige ist der detaillierte Inhalt vonApple stellt das neue KI-Modell MGIE vor, das Bilder in einem Satz verfeinern kann. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:51cto.com
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage
Über uns Haftungsausschluss Sitemap
Chinesische PHP-Website:Online-PHP-Schulung für das Gemeinwohl,Helfen Sie PHP-Lernenden, sich schnell weiterzuentwickeln!