


Le gars de Hangzhou Electronics est le premier à bénéficier de la fonction de lecture d'images GPT. Une seule carte peut réaliser le nouveau SOTA. Le code est open source.
Cet article a été accepté par CVPR2023.
GPT-4, capable de lire les images, est sorti ! Mais il faut faire la queue pour l'utiliser. . .
Pourquoi ne pas essayer ceci d'abord~
Ajoutez un petit modèle, vous pouvez créer de grands modèles de langage tels que ChatGPT et GPT-3 qui ne peuvent comprendre facilement que le texte lire les images, et toutes sortes de détails délicats peuvent être résolus Capable de pincer d'une seule main.
Et l'entraînement de ce petit modèlepeut se faire avec une seule carte (une RTX 3090).
Pour l'effet, il suffit de regarder la photo.
Par exemple, saisissez une image d'une « scène musicale » dans le GPT-3 formé et demandez-lui : Quelles activités ont lieu sur la scène ?
Sans aucune hésitation, GPT-3 a donné la réponse à Concert.
Pour rendre les choses un peu plus difficiles, donnez à GPT-3 une photo de Jiang Zi et laissez-le identifier de quel type de matériau est le rideau sur la photo.
GPT-3 : Dentelle.
Bingo ! (On dirait qu'il y a quelque chose sur lui)
Cette méthode est la dernière réalisation d'une équipe de l'Université des sciences et technologies électroniques de Hangzhou et de l'Université de technologie de Hefei : Prophet Ils ont commencé ce travail il y a six mois.
Le premier auteur de l'article est Shao Zhenwei, un étudiant diplômé de l'Université Dianzi de Hangzhou. On lui a diagnostiqué une « atrophie musculaire spinale progressive » à l'âge d'un an. Il a malheureusement raté l'Université du Zhejiang lors de l'examen d'entrée à l'université et a choisi Hangzhou. Université des sciences et technologies électroniques, proche de chez moi.
Cet article a été accepté par CVPR2023.
Réalisation d'un nouveau SOTA dans les tâches multimodales
Sans plus tarder, examinons directement les capacités de lecture d'images de GPT-3 avec le support de la méthode Prophet.
Jetons d’abord un coup d’œil à ses résultats de tests sur l’ensemble de données.
L'équipe de recherche a testé Prophet sur deux ensembles de données visuelles de questions et réponses basées sur des connaissances externes, OK-VQA et A-OKVQA, et tous deux ont créé un nouveau SOTA.
Plus précisément, sur l'ensemble de données OK-VQA, comparé au grand modèle Flamingo de Deepmind avec des paramètres 80B, Prophet a atteint une précision de 61,1 %, battant avec succès Flamingo (57,8 %).
Et en termes de ressources de puissance de calcul requises, Prophet « bat » également Flamingo.
Flamingo-80B doit être formé 15 jours sur des 1536 cartes graphiques TPUv4, tandis que Prophet n'a besoin que de une carte graphique RTX-3090 pour entraîner le modèle VQA 4 jours, puis appeler l'API OpenAI un un certain nombre de fois.
En fait, des méthodes comme Prophet ont déjà été utilisées pour aider GPT-3 à gérer des tâches intermodales, telles que PICa, et plus tard KAT et REVIVE.
Cependant, ils peuvent ne pas être satisfaisants dans la gestion de certains détails.
Donnez-moi une châtaigne, laissez-les lire ensemble l'image ci-dessous, puis répondez à la question : Quel genre de fruit l'arbre sur l'image portera-t-il ?
La seule information extraite de la photo par PICa, KAT et REVIVE est : un groupe de personnes marchant sur la place, ignorant complètement qu'il y a un cocotier derrière. La réponse finale ne peut être que devinée.
Avec Prophet, cette situation ne se produira pas. Cela résout le problème de l'insuffisance des informations d'image extraites par la méthode ci-dessus et stimule davantage le potentiel de GPT-3.
Alors, comment le Prophète fait-il ?
Petit modèle + grand modèle
Extraire efficacement les informations et répondre aux questions avec précision s'appuie sur son cadre unique unique pour pouvoir le faire.
Ces deux étapes ont également une division claire du travail :
- Phase 1 : Donnez des réponses éclairantes basées sur les questions ;
- Phase 2 : Ces réponses limiteront la portée pour donner à GPT-3 suffisamment de marge pour réaliser son potentiel.
Tout d'abord, dans la première étape, l'équipe de recherche a formé un modèle MCAN amélioré (un modèle VQA) par rapport à un ensemble de données VQA de connaissances externes spécifiques.
Après avoir entraîné le modèle, extrayez-en deux réponses heuristiques : des candidats aux réponses et des exemples sensibles aux réponses.
Parmi eux, les réponses candidates sont triées en fonction du niveau de confiance obtenu par la couche de classification du modèle, et les 10 premiers sont sélectionnés.
Exemple de sensibilisation aux réponses fait référence à l'utilisation des fonctionnalités situées avant la couche de classification du modèle comme fonctionnalités de réponse potentielles de l'échantillon, l'échantillon étiqueté le plus similaire dans cet espace de fonctionnalités.
La prochaine étape est la deuxième étape. Cette étape est relativement simple et grossière.
Organisez les « réponses inspirantes » obtenues à l'étape précédente en invites, puis saisissez les invites dans GPT-3 et complétez les questions visuelles et répondez aux questions sous certaines invites.
Cependant, bien que quelques indices de réponse aient été donnés à l'étape précédente, cela ne signifie pas que GPT-3 se limitera à ces réponses.
Si la confiance dans la réponse donnée par l'invite est trop faible ou si la bonne réponse ne figure pas parmi ces invites, il est tout à fait possible que GPT-3 génère une nouvelle réponse.
Équipe de recherche
Bien entendu, outre les résultats de la recherche, il faut également mentionner l'équipe à l'origine de cette étude.
Le premier auteurShao Zhenwei a reçu un diagnostic d'amyotrophie spinale progressive lorsqu'il avait 1 an. Il s'agit d'un handicap de premier niveau des membres. Il n'a pas la capacité de prendre soin de lui-même. soin de sa mère pour la vie et les études.
Cependant, malgré ses limitations physiques, la soif de connaissances de Shao Zhenwei ne s'est pas affaiblie.
Lors de l'examen d'entrée à l'université de 2017, il a obtenu un score élevé de 644 points et a été admis à la majeure en informatique de l'Université des sciences et technologies électroniques de Hangzhou avec la première place.
Au cours de cette période, il a également remporté des distinctions telles que l'Étoile d'auto-amélioration des étudiants chinois 2018, la bourse nationale 2020 et le Diplômé exceptionnel de la province du Zhejiang 2021.
Au cours de ses études de premier cycle, Shao Zhenwei avait déjà commencé à mener des activités de recherche scientifique avec le professeur Yu Zhou.
En 2021, Shao Zhenwei a eu une rencontre fortuite avec l'Université du Zhejiang alors qu'il se préparait à être promu aux études supérieures, il est donc resté à l'école et a rejoint le groupe de recherche du professeur Yu Zhou pour poursuivre une maîtrise. Il est actuellement en deuxième année. année d'études supérieures, et sa direction de recherche est l'apprentissage intermodal.
Le professeur Yu Zhou est le deuxième auteur et auteur correspondant de ce document de recherche. Il est le plus jeune professeur de l'École d'informatique de l'Université de Hangzhou Dianping et directeur adjoint du laboratoire « Modélisation et simulation de systèmes complexes ». Ministère de l'Éducation.
Depuis longtemps, Yu Zhou s'est spécialisé dans la direction intelligence multimodale et a conduit l'équipe de recherche à remporter à plusieurs reprises la première et la deuxième place du défi international de réponses visuelles aux questions VQA Challenge.
La plupart des membres de l'équipe de recherche se trouvent au Hangzhou Electronics Media Intelligence Laboratory (MIL).
Le laboratoire est dirigé par le professeur Yu Jun, un universitaire national exceptionnel. Ces dernières années, le laboratoire a publié une série d'articles de conférences de haut niveau (TPAMI, IJCV, CVPR, etc.) axés sur l'apprentissage multimodal, et a remporté à plusieurs reprises le meilleur prix lors des conférences de revues IEEE.
Le laboratoire a accueilli plus de 20 projets nationaux tels que le plan national clé de R&D et la Fondation nationale des sciences naturelles de Chine. Il a remporté le premier prix du prix provincial des sciences naturelles du Zhejiang et le deuxième prix du prix éducatif des sciences naturelles.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds











Le prix de Bitcoin varie de 20 000 $ à 30 000 $. 1. Le prix de Bitcoin a radicalement fluctué depuis 2009, atteignant près de 20 000 $ en 2017 et près de 60 000 $ en 2021. 2. Les prix sont affectés par des facteurs tels que la demande du marché, l'offre et l'environnement macroéconomique. 3. Obtenez des prix en temps réel via les échanges, les applications mobiles et les sites Web. 4. Le prix du bitcoin est très volatil, tiré par le sentiment du marché et les facteurs externes. 5. Il a une certaine relation avec les marchés financiers traditionnels et est affecté par les marchés boursiers mondiaux, la force du dollar américain, etc. 6. La tendance à long terme est optimiste, mais les risques doivent être évalués avec prudence.

Les dix premiers échanges de crypto-monnaie au monde en 2025 incluent Binance, Okx, Gate.io, Coinbase, Kraken, Huobi, Bitfinex, Kucoin, Bittrex et Poloniex, qui sont tous connus pour leur volume et leur sécurité commerciaux élevés.

Les dix principales plates-formes de trading de crypto-monnaie au monde comprennent Binance, Okx, Gate.io, Coinbase, Kraken, Huobi Global, BitFinex, Bittrex, Kucoin et Poloniex, qui fournissent toutes une variété de méthodes de trading et de puissantes mesures de sécurité.

Les dix premiers échanges de devises numériques tels que Binance, OKX, Gate.io ont amélioré leurs systèmes, des transactions diversifiées efficaces et des mesures de sécurité strictes.

Memebox 2.0 redéfinit la gestion des actifs cryptographiques grâce à une architecture innovante et à des percées de performance. 1) Il résout trois principaux points de douleur: les silos d'actifs, la désintégration du revenu et le paradoxe de la sécurité et de la commodité. 2) Grâce à des pôles d'actifs intelligents, à la gestion des risques dynamiques et aux moteurs d'amélioration du rendement, la vitesse de transfert croisée, le taux de rendement moyen et la vitesse de réponse aux incidents de sécurité sont améliorés. 3) Fournir aux utilisateurs la visualisation des actifs, l'automatisation des politiques et l'intégration de la gouvernance, réalisant la reconstruction de la valeur utilisateur. 4) Grâce à la collaboration écologique et à l'innovation de la conformité, l'efficacité globale de la plate-forme a été améliorée. 5) À l'avenir, les pools d'assurance-contrat intelligents, l'intégration du marché des prévisions et l'allocation d'actifs axés sur l'IA seront lancés pour continuer à diriger le développement de l'industrie.

Actuellement classé parmi les dix premiers échanges de devises virtuels: 1. Binance, 2. Okx, 3. Gate.io, 4. Coin Library, 5. Siren, 6. Huobi Global Station, 7. Bybit, 8. Kucoin, 9. Bitcoin, 10. Bit Stamp.

Plate-forme de trading de devises numériques fiables recommandées: 1. Okx, 2. Binance, 3. Coinbase, 4. Kraken, 5. Huobi, 6. Kucoin, 7. Bitfinex, 8. Gemini, 9. Bitstamp, 10. Poloniex, ces plates-formes sont connu

L'utilisation de la bibliothèque Chrono en C peut vous permettre de contrôler plus précisément les intervalles de temps et de temps. Explorons le charme de cette bibliothèque. La bibliothèque Chrono de C fait partie de la bibliothèque standard, qui fournit une façon moderne de gérer les intervalles de temps et de temps. Pour les programmeurs qui ont souffert de temps et ctime, Chrono est sans aucun doute une aubaine. Il améliore non seulement la lisibilité et la maintenabilité du code, mais offre également une précision et une flexibilité plus élevées. Commençons par les bases. La bibliothèque Chrono comprend principalement les composants clés suivants: std :: chrono :: system_clock: représente l'horloge système, utilisée pour obtenir l'heure actuelle. std :: chron
