La combinaison la plus forte : HuggingFace+ChatGPT——
HuggingGPT, c'est ici !
Donnez simplement une tâche d'IA, telle que "Quels sont les animaux dans l'image ci-dessous et combien y en a-t-il de chaque type ?"
Il peut vous aider à analyser automatiquement quels modèles d'IA sont nécessaires, puis à appeler directement le modèle correspondant sur HuggingFace pour vous aider à l'exécuter et à le compléter.
Dans tout le processus, tout ce que vous avez à faire est d'exprimer vos exigences en langage naturel.
Ce résultat de la coopération entre l'Université du Zhejiang et Microsoft Research Asia est rapidement devenu populaire dès sa publication.
Jim Fan, chercheur chez NVIDIA AI, a déclaré directement :
C'est l'article le plus intéressant que j'ai lu cette semaine. Son idée est très proche de « Everything App » (tout est une App, et les informations sont lues directement par l’IA).
Et un internaute « se frappe directement la cuisse » :
N'est-ce pas « l'homme du transfert de paquets » de ChatGPT ?
L'IA évolue à un rythme rapide, nous laissant de quoi manger...
Alors, que se passe-t-il exactement ?
En fait, si vous dites que cette combinaison n'est qu'un "Hugging Man", alors le motif est trop petit.
Sa véritable signification est AGI.
Comme l'auteur l'a dit, une étape clé vers l'AGI est la capacité à résoudre des tâches d'IA complexes avec différents domaines et modes.
Nos résultats actuels sont encore loin de cela : un grand nombre de modèles ne peuvent bien accomplir qu'une tâche spécifique.
Cependant, les performances des grands modèles de langage LLM en matière de compréhension, de génération, d'interaction et de raisonnement du langage ont fait réfléchir l'auteur :
Ils peuvent être utilisés comme contrôleurs intermédiaires pour gérer tous les modèles d'IA existants, en « mobilisant et combinant tout le monde » Le pouvoir de l'IA" pour résoudre des tâches complexes d'IA.
Dans ce système, la langue est l'interface universelle.
C'est ainsi que HuggingGPT est né.
Son processus d'ingénierie est divisé en quatre étapes :
Premièrement, la planification des tâches. ChatGPT analyse les besoins de l'utilisateur dans une liste de tâches et détermine la séquence d'exécution et les dépendances de ressources entre les tâches.
Deuxièmement, la sélection du modèle. ChatGPT attribue des modèles appropriés aux tâches en fonction des descriptions de chaque modèle expert hébergé sur HuggingFace.
Ensuite, la tâche est exécutée. Le modèle expert sélectionné sur le point de terminaison hybride (y compris l'inférence locale et l'inférence HuggingFace) exécute les tâches assignées en fonction de la séquence de tâches et des dépendances, et fournit les informations d'exécution et les résultats à ChatGPT.
Enfin, affichez les résultats. ChatGPT résume les journaux du processus d'exécution et les résultats d'inférence de chaque modèle et donne le résultat final.
Comme le montre l'image ci-dessous.
Supposons que nous fassions une telle demande :
Veuillez générer une image d'une fille lisant un livre, sa posture est la même que celle du garçon dans example.jpg. Utilisez ensuite votre voix pour décrire la nouvelle image.
Vous pouvez voir comment HuggingGPT le décompose en 6 sous-tâches et sélectionne respectivement le modèle à exécuter pour obtenir le résultat final.
Quel est l'effet spécifique ?
L'auteur a effectué des mesures réelles en utilisant gpt-3.5-turbo et text-davinci-003, deux variantes accessibles publiquement via l'API OpenAI.
Comme le montre la figure ci-dessous :
Lorsqu'il existe des dépendances de ressources entre les tâches, HuggingGPT peut analyser correctement les tâches spécifiques en fonction de la demande abstraite de l'utilisateur et terminer la conversion de l'image.
Dans les tâches audio et vidéo, il a également démontré la capacité d'organiser la coopération entre les modèles en exécutant les deux modèles en parallèle et en série, respectivement, une vidéo des "Astronautes marchant dans l'espace" et des travaux de doublage.
De plus, il peut intégrer des ressources d'entrée de plusieurs utilisateurs pour effectuer un raisonnement simple, comme compter le nombre de zèbres dans les trois images suivantes.
Résumé en une phrase : HuggingGPT peut montrer de bonnes performances sur diverses formes de tâches complexes.
Actuellement, l'article de HuggingGPT a été publié et le projet est en construction. Seule une partie du code a été open source et il a reçu 1,4k étoiles.
Nous avons remarqué que le nom de son projet est très intéressant. Il ne s'appelle pas HuggingGPT, mais le majordome IA JARVIS dans Iron Man.
Certaines personnes ont trouvé que l'idée est très similaire à celle du Visual ChatGPT qui vient de sortir en mars : ce dernier HuggingGPT, principalement la portée des modèles appelables a été élargie à davantage, y compris la quantité et le type.
Oui, en fait, ils ont tous un auteur commun : Microsoft Asia Research Institute.
Plus précisément, le premier auteur de Visual ChatGPT est le chercheur principal de la MSRA, Wu Chenfei, et l'auteur correspondant est le chercheur en chef de la MSRA, Duan Nan.
HuggingGPT comprend deux co-auteurs :
Shen Yongliang, qui est de l'Université du Zhejiang et a réalisé ce travail lors de son stage à la MSRA ;
Song Kaitao, chercheur à la MSRA ;
L'auteur correspondant est Zhuang Yueting, professeur du Département d'informatique de l'Université du Zhejiang.
Enfin, les internautes sont très enthousiasmés par la naissance de ce nouvel outil puissant. Certains ont dit :
ChatGPT est devenu le commandant en chef de toutes les IA créées par les humains.
Certaines personnes pensent également que
AGI n'est peut-être pas un LLM, mais plusieurs modèles interdépendants reliés par un LLM « intermédiaire ».
Alors, avons-nous commencé l'ère du « semi-AGI » ?
Adresse papier :https://www.php.cn/link/1ecdec353419f6d7e30857d00d0312d1
Lien du projet :https://www.php.cn/link/859555c74e9afd45 ab 771c615c1e49a6
Lien de référence :https://www.php.cn/link/62d2b7ba91f34c0ac08aa11c359a8d2c
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!