Apple présente le nouveau modèle d'IA MGIE, capable d'affiner les images en une seule phrase-IA-php.cn

Apple présente le nouveau modèle d'IA MGIE, capable d'affiner les images en une seule phrase

PHPz

Libérer： 2024-02-08 11:33:25

avant

1333 Les gens l'ont consulté

苹果展示 AI 新模型 MGIE，可一句话精修图片

Nouvelles du 8 février Par rapport à la prospérité de Microsoft, la configuration d'Apple dans le domaine de l'IA est beaucoup plus discrète, mais cela ne veut pas dire qu'Apple n'a réalisé aucune réussite dans ce domaine. Apple a récemment publié un nouveau modèle d'intelligence artificielle open source appelé « MGIE », qui peut éditer des images en fonction d'instructions en langage naturel.

苹果展示 AI 新模型 MGIE，可一句话精修图片

Source de l'image : VentureBeat en collaboration avec Midjourney

MGIE (MLLM-Guided Image Editing) est une technologie qui utilise des modèles multimodaux de grand langage (MLLM) pour interpréter les instructions de l'utilisateur et effectuer des opérations au niveau des pixels. Il peut comprendre les commandes en langage naturel de l'utilisateur et effectuer des modifications de type Photoshop, une optimisation globale des photos et une édition locale. Grâce à MGIE, les utilisateurs peuvent facilement effectuer diverses modifications sur des images sans être familiers avec un logiciel de traitement d'image complexe. Cette technologie simplifie le processus d'édition d'image tout en offrant une méthode d'édition plus intuitive et efficace.

苹果展示 AI 新模型 MGIE，可一句话精修图片

Apple, en collaboration avec des chercheurs de l'Université de Californie à Santa Barbara, a annoncé les résultats de recherches liées au MGIE lors de la Conférence internationale 2024 sur les représentations d'apprentissage (ICLR). L'ICLR est l'une des conférences les plus importantes dans le domaine de la recherche sur l'intelligence artificielle.

Avant de présenter MGIE, ce site présentera brièvement le MLLM (Multimodal Language Learning Model). MLLM est un puissant modèle d'intelligence artificielle unique en ce sens qu'il peut traiter simultanément du texte et des images, améliorant ainsi les capacités d'édition d'images basées sur des instructions. MLLM a montré d'excellentes capacités en matière de compréhension intermodale et de génération de réponses perceptuelles visuelles, cependant, il n'a pas encore été largement utilisé dans les tâches d'édition d'images.

苹果展示 AI 新模型 MGIE，可一句话精修图片

MGIE intègre les MLLM dans le processus d'édition d'images de deux manières : premièrement, il exploite les MLLM pour dériver des instructions précises et expressives à partir des entrées de l'utilisateur. Ces instructions sont concises et claires, fournissant des conseils clairs pour le processus d’édition.

Par exemple, en tapant "Rendre le ciel plus bleu", MGIE peut générer la commande "Augmenter la saturation de la zone du ciel de 20%".

Deuxièmement, il utilise MLLM pour générer des imaginations visuelles, c'est-à-dire des représentations latentes des modifications souhaitées. Cette représentation capture l’essence de l’édition et peut être utilisée pour guider les opérations au niveau des pixels. MGIE utilise un nouveau programme de formation de bout en bout qui optimise conjointement les modules de dérivation d'instructions, d'imagination visuelle et d'édition d'images.

苹果展示 AI 新模型 MGIE，可一句话精修图片

MGIE peut gérer une variété de situations d'édition, depuis de simples ajustements de couleurs jusqu'à la manipulation d'objets complexes. Le modèle peut également effectuer des modifications globales et locales en fonction des préférences de l'utilisateur. Certaines des caractéristiques et fonctions de MGIE incluent :

Édition d'expressions basées sur des commandes : MGIE peut générer des instructions concises et claires pour guider efficacement le processus d'édition. Cela améliore non seulement la qualité de l’édition, mais améliore également l’expérience utilisateur globale.
Édition de style Photoshop : MGIE peut effectuer des modifications de style Photoshop courantes telles que le recadrage, le redimensionnement, la rotation, le retournement et l'ajout de filtres. La maquette peut également appliquer des modifications plus avancées, telles que la modification de l'arrière-plan, l'ajout ou la suppression d'objets et le mélange d'images.
Optimisation globale des photos : MGIE peut optimiser la qualité globale de vos photos telles que la luminosité, le contraste, la netteté et la balance des couleurs. Le modèle peut également appliquer des effets artistiques tels que le dessin, la peinture et la caricature.
Édition partielle : MGIE peut modifier des zones ou des objets spécifiques dans une image, tels que le visage, les yeux, les cheveux, les vêtements et les accessoires. Le modèle peut également modifier les propriétés de ces zones ou objets, telles que la forme, la taille, la couleur, la texture et le style.

苹果展示 AI 新模型 MGIE，可一句话精修图片

MGIE est un projet open source sur GitHub. Les utilisateurs peuvent cliquer ici pour trouver le code, les données et les modèles pré-entraînés. Le projet fournit également un cahier de démonstration montrant comment utiliser MGIE pour effectuer diverses tâches d'édition.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!