Table des matières
Réalisation d'un nouveau SOTA dans les tâches multimodales
Petit modèle + grand modèle
Équipe de recherche
Maison Périphériques technologiques IA Le gars de Hangzhou Electronics est le premier à bénéficier de la fonction de lecture d'images GPT. Une seule carte peut réaliser le nouveau SOTA. Le code est open source.

Le gars de Hangzhou Electronics est le premier à bénéficier de la fonction de lecture d'images GPT. Une seule carte peut réaliser le nouveau SOTA. Le code est open source.

Mar 31, 2023 pm 10:42 PM
ai 论文

Cet article a été accepté par CVPR2023.

GPT-4, capable de lire les images, est sorti ! Mais il faut faire la queue pour l'utiliser. . .

Pourquoi ne pas essayer ceci d'abord~

Ajoutez un petit modèle, vous pouvez créer de grands modèles de langage tels que ChatGPT et GPT-3 qui ne peuvent comprendre facilement que le texte lire les images, et toutes sortes de détails délicats peuvent être résolus Capable de pincer d'une seule main.

Et l'entraînement de ce petit modèlepeut se faire avec une seule carte (une RTX 3090).

Pour l'effet, il suffit de regarder la photo.

Par exemple, saisissez une image d'une « scène musicale » dans le GPT-3 formé et demandez-lui : Quelles activités ont lieu sur la scène ?

Le gars de Hangzhou Electronics est le premier à bénéficier de la fonction de lecture dimages GPT. Une seule carte peut réaliser le nouveau SOTA. Le code est open source.

Sans aucune hésitation, GPT-3 a donné la réponse à Concert.

Pour rendre les choses un peu plus difficiles, donnez à GPT-3 une photo de Jiang Zi et laissez-le identifier de quel type de matériau est le rideau sur la photo.

Le gars de Hangzhou Electronics est le premier à bénéficier de la fonction de lecture dimages GPT. Une seule carte peut réaliser le nouveau SOTA. Le code est open source.

GPT-3 : Dentelle.

Bingo ! (On dirait qu'il y a quelque chose sur lui)

Cette méthode est la dernière réalisation d'une équipe de l'Université des sciences et technologies électroniques de Hangzhou et de l'Université de technologie de Hefei : Prophet Ils ont commencé ce travail il y a six mois.

Le premier auteur de l'article est Shao Zhenwei, un étudiant diplômé de l'Université Dianzi de Hangzhou. On lui a diagnostiqué une « atrophie musculaire spinale progressive » à l'âge d'un an. Il a malheureusement raté l'Université du Zhejiang lors de l'examen d'entrée à l'université et a choisi Hangzhou. Université des sciences et technologies électroniques, proche de chez moi.

Cet article a été accepté par CVPR2023.

Le gars de Hangzhou Electronics est le premier à bénéficier de la fonction de lecture dimages GPT. Une seule carte peut réaliser le nouveau SOTA. Le code est open source.

Réalisation d'un nouveau SOTA dans les tâches multimodales

Sans plus tarder, examinons directement les capacités de lecture d'images de GPT-3 avec le support de la méthode Prophet.

Jetons d’abord un coup d’œil à ses résultats de tests sur l’ensemble de données.

L'équipe de recherche a testé Prophet sur deux ensembles de données visuelles de questions et réponses basées sur des connaissances externes, OK-VQA et A-OKVQA, et tous deux ont créé un nouveau SOTA.

Le gars de Hangzhou Electronics est le premier à bénéficier de la fonction de lecture dimages GPT. Une seule carte peut réaliser le nouveau SOTA. Le code est open source.

Le gars de Hangzhou Electronics est le premier à bénéficier de la fonction de lecture dimages GPT. Une seule carte peut réaliser le nouveau SOTA. Le code est open source.

Plus précisément, sur l'ensemble de données OK-VQA, comparé au grand modèle Flamingo de Deepmind avec des paramètres 80B, Prophet a atteint une précision de 61,1 %, battant avec succès Flamingo (57,8 %).

Et en termes de ressources de puissance de calcul requises, Prophet « bat » également Flamingo.

Flamingo-80B doit être formé 15 jours sur des 1536 cartes graphiques TPUv4, tandis que Prophet n'a besoin que de une carte graphique RTX-3090 pour entraîner le modèle VQA 4 jours, puis appeler l'API OpenAI un un certain nombre de fois.

Le gars de Hangzhou Electronics est le premier à bénéficier de la fonction de lecture dimages GPT. Une seule carte peut réaliser le nouveau SOTA. Le code est open source.

En fait, des méthodes comme Prophet ont déjà été utilisées pour aider GPT-3 à gérer des tâches intermodales, telles que PICa, et plus tard KAT et REVIVE.

Cependant, ils peuvent ne pas être satisfaisants dans la gestion de certains détails.

Donnez-moi une châtaigne, laissez-les lire ensemble l'image ci-dessous, puis répondez à la question : Quel genre de fruit l'arbre sur l'image portera-t-il ?

Le gars de Hangzhou Electronics est le premier à bénéficier de la fonction de lecture dimages GPT. Une seule carte peut réaliser le nouveau SOTA. Le code est open source.

La seule information extraite de la photo par PICa, KAT et REVIVE est : un groupe de personnes marchant sur la place, ignorant complètement qu'il y a un cocotier derrière. La réponse finale ne peut être que devinée.

Avec Prophet, cette situation ne se produira pas. Cela résout le problème de l'insuffisance des informations d'image extraites par la méthode ci-dessus et stimule davantage le potentiel de GPT-3.

Le gars de Hangzhou Electronics est le premier à bénéficier de la fonction de lecture dimages GPT. Une seule carte peut réaliser le nouveau SOTA. Le code est open source.

Alors, comment le Prophète fait-il ?

Petit modèle + grand modèle

Extraire efficacement les informations et répondre aux questions avec précision s'appuie sur son cadre unique unique pour pouvoir le faire.

Ces deux étapes ont également une division claire du travail :

  • Phase 1 : Donnez des réponses éclairantes basées sur les questions ;
  • Phase 2 : Ces réponses limiteront la portée pour donner à GPT-3 suffisamment de marge pour réaliser son potentiel.

Tout d'abord, dans la première étape, l'équipe de recherche a formé un modèle MCAN amélioré (un modèle VQA) par rapport à un ensemble de données VQA de connaissances externes spécifiques.

Après avoir entraîné le modèle, extrayez-en deux réponses heuristiques : des candidats aux réponses et des exemples sensibles aux réponses.

Parmi eux, les réponses candidates sont triées en fonction du niveau de confiance obtenu par la couche de classification du modèle, et les 10 premiers sont sélectionnés.

Exemple de sensibilisation aux réponses fait référence à l'utilisation des fonctionnalités situées avant la couche de classification du modèle comme fonctionnalités de réponse potentielles de l'échantillon, l'échantillon étiqueté le plus similaire dans cet espace de fonctionnalités.

Le gars de Hangzhou Electronics est le premier à bénéficier de la fonction de lecture dimages GPT. Une seule carte peut réaliser le nouveau SOTA. Le code est open source.

La prochaine étape est la deuxième étape. Cette étape est relativement simple et grossière.

Organisez les « réponses inspirantes » obtenues à l'étape précédente en invites, puis saisissez les invites dans GPT-3 et complétez les questions visuelles et répondez aux questions sous certaines invites.

Cependant, bien que quelques indices de réponse aient été donnés à l'étape précédente, cela ne signifie pas que GPT-3 se limitera à ces réponses.

Si la confiance dans la réponse donnée par l'invite est trop faible ou si la bonne réponse ne figure pas parmi ces invites, il est tout à fait possible que GPT-3 génère une nouvelle réponse.

Le gars de Hangzhou Electronics est le premier à bénéficier de la fonction de lecture dimages GPT. Une seule carte peut réaliser le nouveau SOTA. Le code est open source.

Équipe de recherche

Bien entendu, outre les résultats de la recherche, il faut également mentionner l'équipe à l'origine de cette étude.

Le premier auteurShao Zhenwei a reçu un diagnostic d'amyotrophie spinale progressive lorsqu'il avait 1 an. Il s'agit d'un handicap de premier niveau des membres. Il n'a pas la capacité de prendre soin de lui-même. soin de sa mère pour la vie et les études.

Le gars de Hangzhou Electronics est le premier à bénéficier de la fonction de lecture dimages GPT. Une seule carte peut réaliser le nouveau SOTA. Le code est open source.

Cependant, malgré ses limitations physiques, la soif de connaissances de Shao Zhenwei ne s'est pas affaiblie.

Lors de l'examen d'entrée à l'université de 2017, il a obtenu un score élevé de 644 points et a été admis à la majeure en informatique de l'Université des sciences et technologies électroniques de Hangzhou avec la première place.

Au cours de cette période, il a également remporté des distinctions telles que l'Étoile d'auto-amélioration des étudiants chinois 2018, la bourse nationale 2020 et le Diplômé exceptionnel de la province du Zhejiang 2021.

Au cours de ses études de premier cycle, Shao Zhenwei avait déjà commencé à mener des activités de recherche scientifique avec le professeur Yu Zhou.

En 2021, Shao Zhenwei a eu une rencontre fortuite avec l'Université du Zhejiang alors qu'il se préparait à être promu aux études supérieures, il est donc resté à l'école et a rejoint le groupe de recherche du professeur Yu Zhou pour poursuivre une maîtrise. Il est actuellement en deuxième année. année d'études supérieures, et sa direction de recherche est l'apprentissage intermodal.

Le professeur Yu Zhou est le deuxième auteur et auteur correspondant de ce document de recherche. Il est le plus jeune professeur de l'École d'informatique de l'Université de Hangzhou Dianping et directeur adjoint du laboratoire « Modélisation et simulation de systèmes complexes ». Ministère de l'Éducation.

Depuis longtemps, Yu Zhou s'est spécialisé dans la direction intelligence multimodale et a conduit l'équipe de recherche à remporter à plusieurs reprises la première et la deuxième place du défi international de réponses visuelles aux questions VQA Challenge.

Le gars de Hangzhou Electronics est le premier à bénéficier de la fonction de lecture dimages GPT. Une seule carte peut réaliser le nouveau SOTA. Le code est open source.

La plupart des membres de l'équipe de recherche se trouvent au Hangzhou Electronics Media Intelligence Laboratory (MIL).

Le laboratoire est dirigé par le professeur Yu Jun, un universitaire national exceptionnel. Ces dernières années, le laboratoire a publié une série d'articles de conférences de haut niveau (TPAMI, IJCV, CVPR, etc.) axés sur l'apprentissage multimodal, et a remporté à plusieurs reprises le meilleur prix lors des conférences de revues IEEE.

Le laboratoire a accueilli plus de 20 projets nationaux tels que le plan national clé de R&D et la Fondation nationale des sciences naturelles de Chine. Il a remporté le premier prix du prix provincial des sciences naturelles du Zhejiang et le deuxième prix du prix éducatif des sciences naturelles.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

<🎜>: Dead Rails - Comment apprivoiser les loups
4 Il y a quelques semaines By DDD
Niveaux de force pour chaque ennemi et monstre de R.E.P.O.
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
<🎜>: Grow A Garden - Guide de mutation complet
2 Il y a quelques semaines By DDD

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

Tutoriel Java
1657
14
Tutoriel PHP
1257
29
Tutoriel C#
1230
24
Combien vaut le bitcoin Combien vaut le bitcoin Apr 28, 2025 pm 07:42 PM

Le prix de Bitcoin varie de 20 000 $ à 30 000 $. 1. Le prix de Bitcoin a radicalement fluctué depuis 2009, atteignant près de 20 000 $ en 2017 et près de 60 000 $ en 2021. 2. Les prix sont affectés par des facteurs tels que la demande du marché, l'offre et l'environnement macroéconomique. 3. Obtenez des prix en temps réel via les échanges, les applications mobiles et les sites Web. 4. Le prix du bitcoin est très volatil, tiré par le sentiment du marché et les facteurs externes. 5. Il a une certaine relation avec les marchés financiers traditionnels et est affecté par les marchés boursiers mondiaux, la force du dollar américain, etc. 6. La tendance à long terme est optimiste, mais les risques doivent être évalués avec prudence.

Laquelle des dix principales plateformes de trading de devises au monde figurent parmi les dix principales plateformes de trading de devises en 2025 Laquelle des dix principales plateformes de trading de devises au monde figurent parmi les dix principales plateformes de trading de devises en 2025 Apr 28, 2025 pm 08:12 PM

Les dix premiers échanges de crypto-monnaie au monde en 2025 incluent Binance, Okx, Gate.io, Coinbase, Kraken, Huobi, Bitfinex, Kucoin, Bittrex et Poloniex, qui sont tous connus pour leur volume et leur sécurité commerciaux élevés.

Laquelle des dix principales plateformes de trading de devises au monde est la dernière version des dix principales plateformes de trading de devises Laquelle des dix principales plateformes de trading de devises au monde est la dernière version des dix principales plateformes de trading de devises Apr 28, 2025 pm 08:09 PM

Les dix principales plates-formes de trading de crypto-monnaie au monde comprennent Binance, Okx, Gate.io, Coinbase, Kraken, Huobi Global, BitFinex, Bittrex, Kucoin et Poloniex, qui fournissent toutes une variété de méthodes de trading et de puissantes mesures de sécurité.

Quelles sont les dix principales applications de trading de devises virtuelles? Le dernier classement de change de monnaie numérique Quelles sont les dix principales applications de trading de devises virtuelles? Le dernier classement de change de monnaie numérique Apr 28, 2025 pm 08:03 PM

Les dix premiers échanges de devises numériques tels que Binance, OKX, Gate.io ont amélioré leurs systèmes, des transactions diversifiées efficaces et des mesures de sécurité strictes.

Decryption Gate.io Strategy Medgrade: Comment redéfinir la gestion des actifs cryptographiques dans Memebox 2.0? Decryption Gate.io Strategy Medgrade: Comment redéfinir la gestion des actifs cryptographiques dans Memebox 2.0? Apr 28, 2025 pm 03:33 PM

Memebox 2.0 redéfinit la gestion des actifs cryptographiques grâce à une architecture innovante et à des percées de performance. 1) Il résout trois principaux points de douleur: les silos d'actifs, la désintégration du revenu et le paradoxe de la sécurité et de la commodité. 2) Grâce à des pôles d'actifs intelligents, à la gestion des risques dynamiques et aux moteurs d'amélioration du rendement, la vitesse de transfert croisée, le taux de rendement moyen et la vitesse de réponse aux incidents de sécurité sont améliorés. 3) Fournir aux utilisateurs la visualisation des actifs, l'automatisation des politiques et l'intégration de la gouvernance, réalisant la reconstruction de la valeur utilisateur. 4) Grâce à la collaboration écologique et à l'innovation de la conformité, l'efficacité globale de la plate-forme a été améliorée. 5) À l'avenir, les pools d'assurance-contrat intelligents, l'intégration du marché des prévisions et l'allocation d'actifs axés sur l'IA seront lancés pour continuer à diriger le développement de l'industrie.

Quelles sont les principales plateformes de trading de devises? Les 10 meilleurs échanges de devises virtuels virtuels Quelles sont les principales plateformes de trading de devises? Les 10 meilleurs échanges de devises virtuels virtuels Apr 28, 2025 pm 08:06 PM

Actuellement classé parmi les dix premiers échanges de devises virtuels: 1. Binance, 2. Okx, 3. Gate.io, 4. Coin Library, 5. Siren, 6. Huobi Global Station, 7. Bybit, 8. Kucoin, 9. Bitcoin, 10. Bit Stamp.

Recommandés plates-formes fiables de trading de devises numériques. Top 10 des échanges de devises numériques dans le monde. 2025 Recommandés plates-formes fiables de trading de devises numériques. Top 10 des échanges de devises numériques dans le monde. 2025 Apr 28, 2025 pm 04:30 PM

Plate-forme de trading de devises numériques fiables recommandées: 1. Okx, 2. Binance, 3. Coinbase, 4. Kraken, 5. Huobi, 6. Kucoin, 7. Bitfinex, 8. Gemini, 9. Bitstamp, 10. Poloniex, ces plates-formes sont connu

Comment utiliser la bibliothèque Chrono en C? Comment utiliser la bibliothèque Chrono en C? Apr 28, 2025 pm 10:18 PM

L'utilisation de la bibliothèque Chrono en C peut vous permettre de contrôler plus précisément les intervalles de temps et de temps. Explorons le charme de cette bibliothèque. La bibliothèque Chrono de C fait partie de la bibliothèque standard, qui fournit une façon moderne de gérer les intervalles de temps et de temps. Pour les programmeurs qui ont souffert de temps et ctime, Chrono est sans aucun doute une aubaine. Il améliore non seulement la lisibilité et la maintenabilité du code, mais offre également une précision et une flexibilité plus élevées. Commençons par les bases. La bibliothèque Chrono comprend principalement les composants clés suivants: std :: chrono :: system_clock: représente l'horloge système, utilisée pour obtenir l'heure actuelle. std :: chron

See all articles