DetGPT, qui peut lire des images, discuter et effectuer un raisonnement et un positionnement intermodaux, est là pour mettre en œuvre des scénarios complexes.-IA-php.cn

Table des matières

Quelles sont les fonctionnalités de DetGPT ?

Maison

DetGPT, qui peut lire des images, discuter et effectuer un raisonnement et un positionnement intermodaux, est là pour mettre en œuvre des scénarios complexes.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

May 11, 2023 pm 11:28 PM

ai 模型

Les êtres humains ont toujours rêvé que les robots puissent les aider à gérer les questions de vie et de travail. « S'il vous plaît, aidez-moi à baisser la température du climatiseur » et même « S'il vous plaît, aidez-moi à écrire un site Web de centre commercial » ont tous été réalisés ces dernières années avec les assistants à domicile et Copilot publiés par OpenAI.

L'émergence de GPT-4 nous montre en outre le potentiel des grands modèles multimodaux dans la compréhension visuelle. En termes de modèles open source de petite et moyenne taille, LLAVA et minigpt-4 fonctionnent bien. Ils peuvent regarder des images et discuter, et peuvent également deviner des recettes dans des images de nourriture pour les humains. Cependant, ces modèles sont encore confrontés à des défis importants lors de leur mise en œuvre réelle : ils n'ont pas de capacités de positionnement précises, ne peuvent pas donner l'emplacement spécifique d'un objet dans l'image et ne peuvent pas comprendre les instructions humaines complexes pour détecter des objets spécifiques. exécuter des tâches humaines spécifiques. Dans des scénarios réels, les gens rencontrent des problèmes complexes : s'ils peuvent demander à l'assistant intelligent d'obtenir la bonne réponse en prenant une photo, une telle fonction « photo et demander » est tout simplement cool.

Pour réaliser la fonction « photo et demander », le robot doit avoir de multiples capacités :

1. Capacité de compréhension du langage : capable d'écouter et de comprendre les intentions humaines

2. Capable de comprendre les objets dans l'image que vous voyez

3. Capacité de raisonnement de bon sens : Capable de convertir des intentions humaines complexes en cibles précises qui peuvent être localisées

4. Capacité de positionnement d'objets : Capable de localiser et de détecter à partir de. la photo Actuellement, seuls quelques grands modèles (comme le PaLM-E de Google) disposent de ces quatre capacités correspondant aux objets

. Cependant, des chercheurs de l'Université des sciences et technologies de Hong Kong et de l'Université de Hong Kong ont proposé un modèle entièrement open source DetGPT (nom complet DetectionGPT), qui n'a besoin que d'affiner trois millions de paramètres, permettant au modèle de posséder facilement un raisonnement complexe et local. capacités de positionnement d'objets, et peut être généralisé à la plupart des scènes à grande échelle. Cela signifie que le modèle peut comprendre les instructions abstraites humaines en raisonnant à partir de ses propres connaissances et identifier facilement les objets d'intérêt humain dans les images ! Ils ont transformé le modèle en une démo « photo et demande », et vous êtes invités à en faire l'expérience en ligne : https://detgpt.github.io/

DetGPT permet aux utilisateurs de tout faire fonctionner en langage naturel, sans avoir besoin pour les commandes ou interfaces encombrantes. Dans le même temps, DetGPT dispose également de capacités de raisonnement intelligent et de détection de cibles, qui peuvent comprendre avec précision les besoins et les intentions de l'utilisateur. Par exemple, lorsqu'un humain envoie une commande verbale « Je veux boire une boisson fraîche », le robot recherche d'abord une boisson fraîche dans la scène, mais ne la trouve pas. Alors j'ai commencé à penser : « Il n'y a pas de boisson fraîche dans la scène, où dois-je la trouver ? Grâce au puissant modèle de raisonnement du bon sens, j'ai pensé au réfrigérateur, j'ai donc scanné la scène et trouvé le réfrigérateur, et j'ai réussi à verrouiller l'emplacement de la boisson !

DetGPT, qui peut lire des images, discuter et effectuer un raisonnement et un positionnement intermodaux, est là pour mettre en œuvre des scénarios complexes.

Code source ouvert https://www.php.cn/link/10eb6500bd1e4a3704818012a1593cc3
Essai de démonstration en ligne : https://detgpt.github. io/

J'ai soif en été, où est la boisson glacée sur la photo ? DetGPT Facile à comprendre Trouver le réfrigérateur :

DetGPT, qui peut lire des images, discuter et effectuer un raisonnement et un positionnement intermodaux, est là pour mettre en œuvre des scénarios complexes.

Tu veux te lever tôt demain ? Réveil électronique DetGPT easy pick :

DetGPT, qui peut lire des images, discuter et effectuer un raisonnement et un positionnement intermodaux, est là pour mettre en œuvre des scénarios complexes.

hypertension artérielle et fatigue facilement ? Vous allez au marché aux fruits et vous ne savez pas quel fruit acheter peut soulager l’hypertension artérielle ? DetGPT fait office de professeur de nutrition :

DetGPT, qui peut lire des images, discuter et effectuer un raisonnement et un positionnement intermodaux, est là pour mettre en œuvre des scénarios complexes.

Vous n'arrivez pas à terminer le jeu Zelda ? DetGPT vous aide à passer le niveau Daughter Kingdom déguisé :

DetGPT, qui peut lire des images, discuter et effectuer un raisonnement et un positionnement intermodaux, est là pour mettre en œuvre des scénarios complexes.

Quelles choses dangereuses se trouvent dans le champ de vision de l'image ? DetGPT devient votre agent de sécurité :

DetGPT, qui peut lire des images, discuter et effectuer un raisonnement et un positionnement intermodaux, est là pour mettre en œuvre des scénarios complexes.

Quels éléments sur la photo sont dangereux pour les enfants ? DetGPT est toujours OK :

Quelles sont les fonctionnalités de DetGPT ?

La capacité à comprendre des objets spécifiques dans les images a été grandement améliorée. Par rapport aux précédents modèles de dialogue image-texte multimodaux, nous pouvons récupérer et localiser des objets cibles à partir d'images en comprenant les instructions de l'utilisateur, plutôt qu'en décrivant simplement l'image dans son ensemble.
Peut comprendre des instructions humaines complexes et abaisser le seuil de l'utilisateur pour poser des questions. Par exemple, le modèle peut comprendre le problème « Trouver les aliments sur l'image qui peuvent soulager l'hypertension artérielle ». La détection de cible traditionnelle nécessite des réponses connues des humains, et la catégorie de détection « banane » est prédéfinie à l'avance.
DetGPT peut raisonner sur la base des connaissances LLM existantes pour localiser avec précision les objets correspondants dans l'image qui peuvent résoudre des tâches complexes. Pour des tâches complexes comme « les aliments pour soulager l’hypertension artérielle ». DetGPT peut raisonner étape par étape pour cette tâche complexe : Soulager l'hypertension artérielle -> Le potassium peut soulager l'hypertension artérielle -> Les bananes sont riches en potassium -> Les bananes peuvent soulager l'hypertension artérielle ->
a fourni des réponses qui dépassent la portée du bon sens humain. Pour certains problèmes rares, comme le fait que les humains ne savent pas quels fruits sont riches en potassium, le modèle peut y répondre sur la base des connaissances existantes.

Une nouvelle direction digne d'attention : utiliser un raisonnement de bon sens pour obtenir une détection de cible ouverte plus précise

DetGPT, qui peut lire des images, discuter et effectuer un raisonnement et un positionnement intermodaux, est là pour mettre en œuvre des scénarios complexes.

Les tâches de détection traditionnelles nécessitent de prérégler les catégories d'objets possibles pour la détection. Mais décrire de manière précise et complète les objets à détecter est peu convivial, voire irréaliste pour l'homme. Plus précisément, (1) Limités par une mémoire/des connaissances limitées, les gens ne peuvent pas toujours exprimer avec précision les objets cibles qu'ils souhaitent détecter. Par exemple, les médecins recommandent aux personnes souffrant d'hypertension de manger plus de fruits pour compléter le potassium, mais sans savoir quels fruits sont riches en potassium, ils ne peuvent pas donner de noms de fruits spécifiques pour que le modèle puisse détecter ; Les humains n'ont qu'à prendre une photo, et le modèle lui-même pensera, raisonnera et détectera les fruits riches en potassium. Ce problème est beaucoup plus simple. (2) Les catégories d’objets que les humains peuvent illustrer ne sont pas exhaustives. Par exemple, si nous surveillons les comportements incompatibles avec l'ordre public dans les lieux publics, les humains peuvent simplement énumérer quelques scénarios tels que tenir des couteaux et fumer ; "ordre public" au modèle de détection. Si le modèle pense par lui-même et fait des déductions basées sur ses propres connaissances, il peut capturer davantage de mauvais comportements et les généraliser à des catégories plus connexes qui doivent être détectées. Après tout, les connaissances que les humains ordinaires comprennent sont limitées, et les types d'objets qui peuvent être cités sont également limités. Mais s'il existe un cerveau comme ChatGPT pour l'assistance et le raisonnement, les instructions que les humains doivent donner seront beaucoup plus simples et. les réponses obtenues peuvent également être beaucoup plus précises et complètes.

Sur la base de l'abstraction et des limites des instructions humaines, des chercheurs de l'Université des sciences et technologies de Hong Kong et de l'Université de Hong Kong ont proposé une nouvelle direction de « détection de cible inférentielle ». Pour faire simple, les humains confient des tâches abstraites, et le modèle peut comprendre et raisonner par lui-même quels objets dans l'image peuvent accomplir cette tâche, et les détecter. Pour donner un exemple simple, lorsqu'un humain décrit « Je veux une boisson fraîche, où puis-je la trouver », le modèle voit une photo d'une cuisine, et il peut détecter le « réfrigérateur ». Ce sujet nécessite la combinaison parfaite des capacités de compréhension d'images des modèles multimodaux et des riches connaissances stockées dans de grands modèles de langage, et de les utiliser dans des scénarios de tâches de détection à granularité fine : utiliser le cerveau des modèles de langage pour comprendre les instructions abstraites humaines et avec précision. localiser des images Objets d'intérêt humain sans catégories d'objets prédéfinies.

Introduction à la méthode

La "détection inférentielle de cible" est un problème difficile, car le détecteur doit non seulement comprendre et raisonner sur les instructions grossières/abstraites de l'utilisateur, mais doit également analyser les informations visuelles actuellement vues pour localiser la cible. .hors de l'objet cible. Dans cette direction, des chercheurs de HKUST et HKU ont mené quelques explorations préliminaires. Plus précisément, ils utilisent un encodeur visuel pré-entraîné (BLIP-2) pour obtenir des caractéristiques visuelles de l'image et aligner les caractéristiques visuelles sur l'espace de texte via une fonction d'alignement. Utilisez un modèle de langage à grande échelle (Robin/Vicuna) pour comprendre les questions des utilisateurs et combiner les informations visuelles vues pour raisonner sur les objets qui intéressent réellement l'utilisateur. Les noms d'objets sont ensuite transmis à un détecteur pré-entraîné (Grouding-DINO) pour la prédiction d'emplacements spécifiques. De cette manière, le modèle peut analyser l'image selon toutes les instructions de l'utilisateur et prédire avec précision l'emplacement de l'objet qui intéresse l'utilisateur.

Il convient de noter que la difficulté ici réside principalement dans le fait que le modèle doit être capable d'obtenir un résultat spécifique à une tâche pour différentes tâches spécifiques sans endommager autant que possible les capacités d'origine du modèle. Afin de guider le modèle de langage pour qu'il suive un modèle spécifique, effectue un raisonnement et génère une sortie conforme au format de détection cible dans le cadre de la compréhension des images et des instructions utilisateur, l'équipe de recherche a utilisé ChatGPT pour générer des données d'instructions intermodales afin d'affiner. régler le modèle. Plus précisément, sur la base de 5 000 images coco, ils ont utilisé ChatGPT pour créer 30 000 ensembles de données de réglage fin image-texte multimodaux. Afin d'améliorer l'efficacité de la formation, ils ont corrigé d'autres paramètres du modèle et appris uniquement la cartographie linéaire intermodale. Les résultats expérimentaux prouvent que même si seule la couche linéaire est affinée, le modèle de langage peut comprendre les caractéristiques fines de l'image et suivre des modèles spécifiques pour effectuer des tâches de détection d'image basées sur l'inférence, affichant d'excellentes performances.

Ce sujet de recherche a un grand potentiel. Grâce à cette technologie, le domaine des robots domestiques va encore briller : les personnes à la maison peuvent utiliser des instructions vocales abstraites ou grossières pour permettre aux robots de comprendre, d'identifier et de localiser les éléments nécessaires et de fournir les services associés. Dans le domaine des robots industriels, cette technologie aura une vitalité sans fin : les robots industriels pourront collaborer plus naturellement avec les travailleurs humains, comprendre avec précision leurs instructions et leurs besoins, et prendre des décisions et effectuer des opérations intelligentes. Sur la chaîne de production, les travailleurs humains peuvent utiliser des instructions vocales grossières ou la saisie de texte pour permettre au robot de comprendre, d'identifier et de localiser automatiquement les éléments à traiter, améliorant ainsi l'efficacité et la qualité de la production.

Sur la base du modèle de détection de cible doté de ses propres capacités de raisonnement, nous pouvons développer des robots plus intelligents, naturels et efficaces pour fournir aux humains des services plus pratiques, efficaces et humains. C'est un domaine avec de larges perspectives. Il mérite également davantage d’attention et d’exploration de la part des chercheurs.

Il convient de mentionner que DetGPT prend en charge plusieurs modèles de langage et a été vérifié sur la base de deux modèles de langage : Robin-13B et Vicuna-13B. Le modèle linguistique de la série Robin est un modèle de dialogue formé par l'équipe LMFlow de l'Université des sciences et technologies de Hong Kong (https://github.com/OptimalScale/LMFlow). Il a obtenu des résultats équivalents à ceux de Vicuna sur plusieurs critères d'évaluation des compétences linguistiques. (téléchargement du modèle : https:// github.com/OptimalScale/LMFlow#model-zoo). Heart of the Machine a précédemment signalé que l'équipe LMFlow pouvait entraîner ChatGPT exclusif en seulement 5 heures sur la carte graphique grand public 3090. Aujourd'hui, cette équipe et le laboratoire HKU NLP nous ont apporté une autre surprise multimodale.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

2 Il y a quelques semaines By DDD

R.E.P.O. Comment réparer l'audio si vous n'entendez personne

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Commandes de chat et comment les utiliser

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7529

Tutoriel CakePHP

1378

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

Afficher plus

Related knowledge

Comment définir le niveau de journal Debian Apache Apr 13, 2025 am 08:33 AM

Cet article décrit comment ajuster le niveau de journalisation du serveur Apacheweb dans le système Debian. En modifiant le fichier de configuration, vous pouvez contrôler le niveau verbeux des informations de journal enregistrées par Apache. Méthode 1: Modifiez le fichier de configuration principal pour localiser le fichier de configuration: le fichier de configuration d'Apache2.x est généralement situé dans le répertoire / etc / apache2 /. Le nom de fichier peut être apache2.conf ou httpd.conf, selon votre méthode d'installation. Modifier le fichier de configuration: Ouvrez le fichier de configuration avec les autorisations racine à l'aide d'un éditeur de texte (comme Nano): Sutonano / etc / apache2 / apache2.conf

Comment implémenter le tri des fichiers par Debian Readdir Apr 13, 2025 am 09:06 AM

Dans Debian Systems, la fonction ReadDir est utilisée pour lire le contenu du répertoire, mais l'ordre dans lequel il revient n'est pas prédéfini. Pour trier les fichiers dans un répertoire, vous devez d'abord lire tous les fichiers, puis les trier à l'aide de la fonction QSORT. Le code suivant montre comment trier les fichiers de répertoire à l'aide de ReadDir et QSort dans Debian System: # include # include # include # include # include // Fonction de comparaison personnalisée, utilisée pour qsortintCompare (constvoid * a, constvoid * b) {returnstrcmp (* (

Comment optimiser les performances de Debian Readdir Apr 13, 2025 am 08:48 AM

Dans Debian Systems, les appels du système ReadDir sont utilisés pour lire le contenu des répertoires. Si ses performances ne sont pas bonnes, essayez la stratégie d'optimisation suivante: simplifiez le nombre de fichiers d'annuaire: divisez les grands répertoires en plusieurs petits répertoires autant que possible, en réduisant le nombre d'éléments traités par appel ReadDir. Activer la mise en cache de contenu du répertoire: construire un mécanisme de cache, mettre à jour le cache régulièrement ou lorsque le contenu du répertoire change et réduire les appels fréquents à Readdir. Les caches de mémoire (telles que Memcached ou Redis) ou les caches locales (telles que les fichiers ou les bases de données) peuvent être prises en compte. Adoptez une structure de données efficace: si vous implémentez vous-même la traversée du répertoire, sélectionnez des structures de données plus efficaces (telles que les tables de hachage au lieu de la recherche linéaire) pour stocker et accéder aux informations du répertoire

Conseils de configuration du pare-feu Debian Mail Server Apr 13, 2025 am 11:42 AM

La configuration du pare-feu d'un serveur de courrier Debian est une étape importante pour assurer la sécurité du serveur. Voici plusieurs méthodes de configuration de pare-feu couramment utilisées, y compris l'utilisation d'iptables et de pare-feu. Utilisez les iptables pour configurer le pare-feu pour installer iptables (sinon déjà installé): Sudoapt-getUpDaSuDoapt-getinstalliptableView Règles actuelles iptables: Sudoiptable-L Configuration

Méthode d'installation du certificat de Debian Mail Server SSL Apr 13, 2025 am 11:39 AM

Les étapes pour installer un certificat SSL sur le serveur de messagerie Debian sont les suivantes: 1. Installez d'abord la boîte à outils OpenSSL, assurez-vous que la boîte à outils OpenSSL est déjà installée sur votre système. Si ce n'est pas installé, vous pouvez utiliser la commande suivante pour installer: Sudoapt-getUpDaSuDoapt-getInstallOpenSSL2. Générer la clé privée et la demande de certificat Suivant, utilisez OpenSSL pour générer une clé privée RSA 2048 bits et une demande de certificat (RSE): OpenSS

Comment Debian Readdir s'intègre à d'autres outils Apr 13, 2025 am 09:42 AM

La fonction ReadDir dans le système Debian est un appel système utilisé pour lire le contenu des répertoires et est souvent utilisé dans la programmation C. Cet article expliquera comment intégrer ReadDir avec d'autres outils pour améliorer sa fonctionnalité. Méthode 1: combinant d'abord le programme de langue C et le pipeline, écrivez un programme C pour appeler la fonction readdir et sortir le résultat: # include # include # include # includeIntmain (intargc, char * argv []) {dir * dir; structDirent * entrée; if (argc! = 2) {

Comment Debian OpenSSL empêche les attaques de l'homme au milieu Apr 13, 2025 am 10:30 AM

Dans Debian Systems, OpenSSL est une bibliothèque importante pour le chiffrement, le décryptage et la gestion des certificats. Pour empêcher une attaque d'homme dans le milieu (MITM), les mesures suivantes peuvent être prises: utilisez HTTPS: assurez-vous que toutes les demandes de réseau utilisent le protocole HTTPS au lieu de HTTP. HTTPS utilise TLS (Protocole de sécurité de la couche de transport) pour chiffrer les données de communication pour garantir que les données ne sont pas volées ou falsifiées pendant la transmission. Vérifiez le certificat de serveur: vérifiez manuellement le certificat de serveur sur le client pour vous assurer qu'il est digne de confiance. Le serveur peut être vérifié manuellement via la méthode du délégué d'URLSession

Comment faire Debian Hadoop Log Management Apr 13, 2025 am 10:45 AM

Gérer les journaux Hadoop sur Debian, vous pouvez suivre les étapes et les meilleures pratiques suivantes: l'agrégation de journal Activer l'agrégation de journaux: définir yarn.log-aggregation-inable à true dans le fichier yarn-site.xml pour activer l'agrégation de journaux. Configurer la stratégie de rétention du journal: Définissez Yarn.log-agregation.retain-secondes pour définir le temps de rétention du journal, tel que 172800 secondes (2 jours). Spécifiez le chemin de stockage des journaux: via yarn.n

See all articles