Table des matières
MiniGPT-4 Il est facile de parler rien qu'en regardant les images
Introduction à la méthode
Maison Périphériques technologiques IA 'MiniGPT-4 prouve ses étonnantes capacités de reconnaissance d'images et ses multiples fonctions : discuter avec des images, créer des sites Web avec des croquis, etc.'

'MiniGPT-4 prouve ses étonnantes capacités de reconnaissance d'images et ses multiples fonctions : discuter avec des images, créer des sites Web avec des croquis, etc.'

Apr 24, 2023 am 11:16 AM
ai gpt

Pour les humains, comprendre les informations d'une image n'est rien d'autre qu'une affaire triviale. Les humains peuvent donner la signification d'une image avec désinvolture sans réfléchir. Tout comme l'image ci-dessous, le chargeur sur lequel le téléphone est branché est quelque peu inapproprié. Les humains peuvent voir le problème d’un seul coup d’œil, mais pour l’IA, cela reste très difficile.

MiniGPT-4 prouve ses étonnantes capacités de reconnaissance dimages et ses multiples fonctions : discuter avec des images, créer des sites Web avec des croquis, etc.

L'émergence de GPT-4 a commencé à simplifier ces problèmes. Il peut rapidement signaler le problème de l'image : la ligne VGA chargeant l'iPhone.

En fait, le charme de GPT-4 est bien moindre que cela. Ce qui est encore plus excitant, c'est d'utiliser des croquis dessinés à la main pour générer directement le site Web, dessiner un schéma griffonné sur du papier brouillon, prendre une photo, puis envoyez-le à GPT-4 pour le laisser suivre. Le diagramme schématique est utilisé pour écrire le code du site Web, et whoosh, GPT-4 a écrit le code de la page Web.

Mais malheureusement, cette fonction de GPT-4 n'est pas encore ouverte au public, et il est impossible de s'y lancer et d'en faire l'expérience. Cependant, certaines personnes ne peuvent plus attendre et une équipe de l'Université des sciences et technologies du Roi Abdallah (KAUST) a développé un produit similaire au GPT-4 - MiniGPT-4. Les chercheurs de l'équipe comprennent Zhu Deyao, Chen Jun, Shen Xiaoqian, Li Xiang et Mohamed H. Elhoseiny, tous issus du groupe de recherche Vision-CAIR de KAUST.

MiniGPT-4 prouve ses étonnantes capacités de reconnaissance dimages et ses multiples fonctions : discuter avec des images, créer des sites Web avec des croquis, etc.

  • Adresse papier : https://github.com/Vision-CAIR/MiniGPT-4/blob/main/MiniGPT_4.pdf
  • Page d'accueil du papier : https:// minigpt-4.github.io/
  • Adresse du code : https://github.com/Vision-CAIR/MiniGPT-4

MiniGPT-4 montre de nombreuses capacités similaires à GPT-4 telles que comme la génération de descriptions d'images détaillées et la création de sites Web à partir de brouillons manuscrits. De plus, les auteurs ont observé d'autres capacités émergentes de MiniGPT-4, notamment la création d'histoires et de poèmes basés sur des images données, la fourniture de solutions aux problèmes montrés dans les images, l'enseignement aux utilisateurs sur la façon de cuisiner à partir de photos de plats, etc.

MiniGPT-4 Il est facile de parler rien qu'en regardant les images

Quelle est l'efficacité du MiniGPT-4 ? Commençons par quelques exemples. De plus, afin d'avoir une meilleure expérience avec MiniGPT-4, il est recommandé d'utiliser la saisie en anglais pour les tests.

Tout d’abord, examinons la capacité du MiniGPT-4 à décrire des images. Pour l'image de gauche, la réponse donnée par MiniGPT-4 est à peu près « L'image représente un cactus poussant sur un lac gelé. Il y a d'énormes cristaux de glace autour du cactus, et il y a des sommets enneigés au loin... " Si vous demandez alors, ce scénario pourrait-il se produire dans le monde réel ? La réponse donnée par MiniGPT-4 est que cette image n’est pas courante dans le monde réel et c’est pour cette raison.

MiniGPT-4 prouve ses étonnantes capacités de reconnaissance dimages et ses multiples fonctions : discuter avec des images, créer des sites Web avec des croquis, etc.

Ensuite, jetons un coup d'œil à la capacité de questions et réponses d'image MiniGPT-4. Question : "Qu'est-ce qui ne va pas avec cette plante ? Que dois-je faire ?" MiniGPT-4 a non seulement souligné le problème, mais a également déclaré que les feuilles avec des taches brunes peuvent être causées par une infection fongique et a donné les étapes de traitement :

MiniGPT-4 prouve ses étonnantes capacités de reconnaissance dimages et ses multiples fonctions : discuter avec des images, créer des sites Web avec des croquis, etc.

En regardant quelques exemples, la fonction de visualisation d'images et de discussion de MiniGPT-4 est déjà très puissante. De plus, MiniGPT-4 peut créer des sites Web à partir de croquis. Par exemple, laissez MiniGPT-4 dessiner une page Web selon le brouillon d'image à gauche. Après avoir reçu l'instruction, MiniGPT-4 donne le code HTML correspondant et le site Web correspondant comme requis :

MiniGPT-4 prouve ses étonnantes capacités de reconnaissance dimages et ses multiples fonctions : discuter avec des images, créer des sites Web avec des croquis, etc.

.

Avec MiniGPT-4, rédiger des slogans publicitaires pour les images est devenu très simple. Demandez à MiniGPT-4 de rédiger un texte publicitaire pour la tasse de gauche. MiniGPT-4 a souligné avec précision le motif de chat endormi sur la tasse, ce qui convient très bien aux amateurs de café et aux amoureux des chats. Il a également souligné le matériau de la tasse, etc. :

MiniGPT-4 prouve ses étonnantes capacités de reconnaissance dimages et ses multiples fonctions : discuter avec des images, créer des sites Web avec des croquis, etc.

MiniGPT-4. peut également faire face Générer une recette à partir d'une image et devenir un expert en cuisine :

MiniGPT-4 prouve ses étonnantes capacités de reconnaissance dimages et ses multiples fonctions : discuter avec des images, créer des sites Web avec des croquis, etc.

Expliquez le mème largement diffusé :

MiniGPT-4 prouve ses étonnantes capacités de reconnaissance dimages et ses multiples fonctions : discuter avec des images, créer des sites Web avec des croquis, etc.

Écrivez un poème basé sur l'image :

MiniGPT-4 prouve ses étonnantes capacités de reconnaissance dimages et ses multiples fonctions : discuter avec des images, créer des sites Web avec des croquis, etc.

De plus, il convient de mentionner que la démo MiniGPT-4 est désormais ouverte et peut être jouée en ligne. Vous pouvez en faire l'expérience vous-même (il est recommandé de tester en anglais) :

MiniGPT-4 prouve ses étonnantes capacités de reconnaissance dimages et ses multiples fonctions : discuter avec des images, créer des sites Web avec des croquis, etc.

.

Adresse de démonstration : https://0810e8582bcad31944.gradio.live/

Une fois le projet publié, il a attiré l'attention des internautes. Par exemple, laissez MiniGPT-4 expliquer les objets dans l'image :

MiniGPT-4 prouve ses étonnantes capacités de reconnaissance dimages et ses multiples fonctions : discuter avec des images, créer des sites Web avec des croquis, etc.

Il y a d'autres expériences de test d'internautes ci-dessous :

MiniGPT-4 prouve ses étonnantes capacités de reconnaissance dimages et ses multiples fonctions : discuter avec des images, créer des sites Web avec des croquis, etc.

MiniGPT-4 prouve ses étonnantes capacités de reconnaissance dimages et ses multiples fonctions : discuter avec des images, créer des sites Web avec des croquis, etc.

Introduction à la méthode

Auteur On pense que le modèle de langage étendu (LLM) avancé de GPT-4 est la principale raison de ses capacités avancées de génération multimodale. Pour étudier ce phénomène, les auteurs proposent MiniGPT-4, qui utilise une couche de projection pour aligner un encodeur visuel gelé et un LLM gelé (Vicuna).

MiniGPT-4 se compose d'un encodeur visuel ViT et Q-Former pré-entraîné, d'une couche de projection linéaire séparée et d'un modèle de langage avancé à grande échelle Vicuna. MiniGPT-4 ne nécessite que des couches linéaires de formation pour aligner les caractéristiques visuelles avec Vicuna.

MiniGPT-4 prouve ses étonnantes capacités de reconnaissance dimages et ses multiples fonctions : discuter avec des images, créer des sites Web avec des croquis, etc.

MiniGPT-4 a subi deux étapes de formation. La première étape de pré-formation traditionnelle a duré 10 heures pour s'entraîner sur 4 GPU A100 en utilisant environ 5 millions de paires image-texte alignées. Après la première étape, Vicuna était capable de comprendre les images. Mais les capacités de génération de texte de Vicuna ont été grandement affectées.

Pour résoudre ce problème et améliorer la convivialité, les chercheurs ont proposé une nouvelle façon de créer des paires image-texte de haute qualité via le modèle lui-même et ChatGPT. Sur cette base, l’étude a créé un ensemble de données restreint mais de haute qualité (3 500 paires au total).

La deuxième étape de réglage fin est formée sur cet ensemble de données à l'aide de modèles de conversation pour améliorer considérablement sa fiabilité de génération et sa convivialité globale. Cette étape est efficace sur le plan informatique et ne nécessite qu’un A100GPU en 7 minutes environ.

Autres travaux connexes :

  • VisualGPT : https://github.com/Vision-CAIR/VisualGPT
  • ChatCaptioner : https://github.com/Vision-CAIR/ChatCaptioner

De plus, des bibliothèques de code open source, notamment BLIP2, Lavis et Vicuna, sont également utilisées dans le projet.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Comment réparer l'audio si vous n'entendez personne
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Comment déverrouiller tout dans Myrise
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Comment résoudre MySQL ne peut pas être démarré Comment résoudre MySQL ne peut pas être démarré Apr 08, 2025 pm 02:21 PM

Il existe de nombreuses raisons pour lesquelles la startup MySQL échoue, et elle peut être diagnostiquée en vérifiant le journal des erreurs. Les causes courantes incluent les conflits de port (vérifier l'occupation du port et la configuration de modification), les problèmes d'autorisation (vérifier le service exécutant les autorisations des utilisateurs), les erreurs de fichier de configuration (vérifier les paramètres des paramètres), la corruption du répertoire de données (restaurer les données ou reconstruire l'espace de la table), les problèmes d'espace de la table InNODB (vérifier les fichiers IBDATA1), la défaillance du chargement du plug-in (vérification du journal des erreurs). Lors de la résolution de problèmes, vous devez les analyser en fonction du journal d'erreur, trouver la cause profonde du problème et développer l'habitude de sauvegarder régulièrement les données pour prévenir et résoudre des problèmes.

Mysql peut-il renvoyer JSON Mysql peut-il renvoyer JSON Apr 08, 2025 pm 03:09 PM

MySQL peut renvoyer les données JSON. La fonction JSON_Extract extrait les valeurs de champ. Pour les requêtes complexes, envisagez d'utiliser la clause pour filtrer les données JSON, mais faites attention à son impact sur les performances. Le support de MySQL pour JSON augmente constamment, et il est recommandé de faire attention aux dernières versions et fonctionnalités.

Comprendre les propriétés acides: les piliers d'une base de données fiable Comprendre les propriétés acides: les piliers d'une base de données fiable Apr 08, 2025 pm 06:33 PM

Une explication détaillée des attributs d'acide de base de données Les attributs acides sont un ensemble de règles pour garantir la fiabilité et la cohérence des transactions de base de données. Ils définissent comment les systèmes de bases de données gérent les transactions et garantissent l'intégrité et la précision des données même en cas de plantages système, d'interruptions d'alimentation ou de plusieurs utilisateurs d'accès simultanément. Présentation de l'attribut acide Atomicité: une transaction est considérée comme une unité indivisible. Toute pièce échoue, la transaction entière est reculée et la base de données ne conserve aucune modification. Par exemple, si un transfert bancaire est déduit d'un compte mais pas augmenté à un autre, toute l'opération est révoquée. BeginTransaction; UpdateAccountSsetBalance = Balance-100Wh

Master SQL Limit Clause: Contrôlez le nombre de lignes dans une requête Master SQL Limit Clause: Contrôlez le nombre de lignes dans une requête Apr 08, 2025 pm 07:00 PM

Clause SQLLIMIT: Contrôlez le nombre de lignes dans les résultats de la requête. La clause limite dans SQL est utilisée pour limiter le nombre de lignes renvoyées par la requête. Ceci est très utile lors du traitement de grands ensembles de données, des affichages paginés et des données de test, et peut améliorer efficacement l'efficacité de la requête. Syntaxe de base de la syntaxe: selectColumn1, Column2, ... FromTable_NamelimitNumber_Of_Rows; Number_OF_ROWS: Spécifiez le nombre de lignes renvoyées. Syntaxe avec décalage: selectColumn1, Column2, ... FromTable_Namelimitoffset, numéro_of_rows; décalage: sauter

Laravel Eloquent Orm dans Bangla Partial Model Search) Laravel Eloquent Orm dans Bangla Partial Model Search) Apr 08, 2025 pm 02:06 PM

Laravelelognent Model Retrieval: Faconttement l'obtention de données de base de données Eloquentorm fournit un moyen concis et facile à comprendre pour faire fonctionner la base de données. Cet article présentera en détail diverses techniques de recherche de modèles éloquentes pour vous aider à obtenir efficacement les données de la base de données. 1. Obtenez tous les enregistrements. Utilisez la méthode All () pour obtenir tous les enregistrements dans la table de base de données: usApp \ Modèles \ Post; $ poters = post :: all (); Cela rendra une collection. Vous pouvez accéder aux données à l'aide de Foreach Loop ou d'autres méthodes de collecte: ForEach ($ PostsAs $ POST) {echo $ post->

Comment optimiser les performances MySQL pour les applications de haute charge? Comment optimiser les performances MySQL pour les applications de haute charge? Apr 08, 2025 pm 06:03 PM

Guide d'optimisation des performances de la base de données MySQL dans les applications à forte intensité de ressources, la base de données MySQL joue un rôle crucial et est responsable de la gestion des transactions massives. Cependant, à mesure que l'échelle de l'application se développe, les goulots d'étranglement des performances de la base de données deviennent souvent une contrainte. Cet article explorera une série de stratégies efficaces d'optimisation des performances MySQL pour garantir que votre application reste efficace et réactive dans des charges élevées. Nous combinerons des cas réels pour expliquer les technologies clés approfondies telles que l'indexation, l'optimisation des requêtes, la conception de la base de données et la mise en cache. 1. La conception de l'architecture de la base de données et l'architecture optimisée de la base de données sont la pierre angulaire de l'optimisation des performances MySQL. Voici quelques principes de base: sélectionner le bon type de données et sélectionner le plus petit type de données qui répond aux besoins peut non seulement économiser un espace de stockage, mais également améliorer la vitesse de traitement des données.

La clé principale de MySQL peut être nul La clé principale de MySQL peut être nul Apr 08, 2025 pm 03:03 PM

La clé primaire MySQL ne peut pas être vide car la clé principale est un attribut de clé qui identifie de manière unique chaque ligne dans la base de données. Si la clé primaire peut être vide, l'enregistrement ne peut pas être identifié de manière unique, ce qui entraînera une confusion des données. Lorsque vous utilisez des colonnes entières ou des UUIdes auto-incrémentales comme clés principales, vous devez considérer des facteurs tels que l'efficacité et l'occupation de l'espace et choisir une solution appropriée.

Méthode de Navicat pour afficher le mot de passe de la base de données MongoDB Méthode de Navicat pour afficher le mot de passe de la base de données MongoDB Apr 08, 2025 pm 09:39 PM

Il est impossible de visualiser le mot de passe MongoDB directement via NAVICAT car il est stocké sous forme de valeurs de hachage. Comment récupérer les mots de passe perdus: 1. Réinitialiser les mots de passe; 2. Vérifiez les fichiers de configuration (peut contenir des valeurs de hachage); 3. Vérifiez les codes (May Code Hardcode).

See all articles