


Le gars de Hangzhou Electronics est le premier à bénéficier de la fonction de lecture d'images GPT. Une seule carte peut réaliser le nouveau SOTA. Le code est open source.
Cet article a été accepté par CVPR2023.
GPT-4, capable de lire les images, est sorti ! Mais il faut faire la queue pour l'utiliser. . .
Pourquoi ne pas essayer ceci d'abord~
Ajoutez un petit modèle, vous pouvez créer de grands modèles de langage tels que ChatGPT et GPT-3 qui ne peuvent comprendre facilement que le texte lire les images, et toutes sortes de détails délicats peuvent être résolus Capable de pincer d'une seule main.
Et l'entraînement de ce petit modèlepeut se faire avec une seule carte (une RTX 3090).
Pour l'effet, il suffit de regarder la photo.
Par exemple, saisissez une image d'une « scène musicale » dans le GPT-3 formé et demandez-lui : Quelles activités ont lieu sur la scène ?
Sans aucune hésitation, GPT-3 a donné la réponse à Concert.
Pour rendre les choses un peu plus difficiles, donnez à GPT-3 une photo de Jiang Zi et laissez-le identifier de quel type de matériau est le rideau sur la photo.
GPT-3 : Dentelle.
Bingo ! (On dirait qu'il y a quelque chose sur lui)
Cette méthode est la dernière réalisation d'une équipe de l'Université des sciences et technologies électroniques de Hangzhou et de l'Université de technologie de Hefei : Prophet Ils ont commencé ce travail il y a six mois.
Le premier auteur de l'article est Shao Zhenwei, un étudiant diplômé de l'Université Dianzi de Hangzhou. On lui a diagnostiqué une « atrophie musculaire spinale progressive » à l'âge d'un an. Il a malheureusement raté l'Université du Zhejiang lors de l'examen d'entrée à l'université et a choisi Hangzhou. Université des sciences et technologies électroniques, proche de chez moi.
Cet article a été accepté par CVPR2023.
Réalisation d'un nouveau SOTA dans les tâches multimodales
Sans plus tarder, examinons directement les capacités de lecture d'images de GPT-3 avec le support de la méthode Prophet.
Jetons d’abord un coup d’œil à ses résultats de tests sur l’ensemble de données.
L'équipe de recherche a testé Prophet sur deux ensembles de données visuelles de questions et réponses basées sur des connaissances externes, OK-VQA et A-OKVQA, et tous deux ont créé un nouveau SOTA.
Plus précisément, sur l'ensemble de données OK-VQA, comparé au grand modèle Flamingo de Deepmind avec des paramètres 80B, Prophet a atteint une précision de 61,1 %, battant avec succès Flamingo (57,8 %).
Et en termes de ressources de puissance de calcul requises, Prophet « bat » également Flamingo.
Flamingo-80B doit être formé 15 jours sur des 1536 cartes graphiques TPUv4, tandis que Prophet n'a besoin que de une carte graphique RTX-3090 pour entraîner le modèle VQA 4 jours, puis appeler l'API OpenAI un un certain nombre de fois.
En fait, des méthodes comme Prophet ont déjà été utilisées pour aider GPT-3 à gérer des tâches intermodales, telles que PICa, et plus tard KAT et REVIVE.
Cependant, ils peuvent ne pas être satisfaisants dans la gestion de certains détails.
Donnez-moi une châtaigne, laissez-les lire ensemble l'image ci-dessous, puis répondez à la question : Quel genre de fruit l'arbre sur l'image portera-t-il ?
La seule information extraite de la photo par PICa, KAT et REVIVE est : un groupe de personnes marchant sur la place, ignorant complètement qu'il y a un cocotier derrière. La réponse finale ne peut être que devinée.
Avec Prophet, cette situation ne se produira pas. Cela résout le problème de l'insuffisance des informations d'image extraites par la méthode ci-dessus et stimule davantage le potentiel de GPT-3.
Alors, comment le Prophète fait-il ?
Petit modèle + grand modèle
Extraire efficacement les informations et répondre aux questions avec précision s'appuie sur son cadre unique unique pour pouvoir le faire.
Ces deux étapes ont également une division claire du travail :
- Phase 1 : Donnez des réponses éclairantes basées sur les questions ;
- Phase 2 : Ces réponses limiteront la portée pour donner à GPT-3 suffisamment de marge pour réaliser son potentiel.
Tout d'abord, dans la première étape, l'équipe de recherche a formé un modèle MCAN amélioré (un modèle VQA) par rapport à un ensemble de données VQA de connaissances externes spécifiques.
Après avoir entraîné le modèle, extrayez-en deux réponses heuristiques : des candidats aux réponses et des exemples sensibles aux réponses.
Parmi eux, les réponses candidates sont triées en fonction du niveau de confiance obtenu par la couche de classification du modèle, et les 10 premiers sont sélectionnés.
Exemple de sensibilisation aux réponses fait référence à l'utilisation des fonctionnalités situées avant la couche de classification du modèle comme fonctionnalités de réponse potentielles de l'échantillon, l'échantillon étiqueté le plus similaire dans cet espace de fonctionnalités.
La prochaine étape est la deuxième étape. Cette étape est relativement simple et grossière.
Organisez les « réponses inspirantes » obtenues à l'étape précédente en invites, puis saisissez les invites dans GPT-3 et complétez les questions visuelles et répondez aux questions sous certaines invites.
Cependant, bien que quelques indices de réponse aient été donnés à l'étape précédente, cela ne signifie pas que GPT-3 se limitera à ces réponses.
Si la confiance dans la réponse donnée par l'invite est trop faible ou si la bonne réponse ne figure pas parmi ces invites, il est tout à fait possible que GPT-3 génère une nouvelle réponse.
Équipe de recherche
Bien entendu, outre les résultats de la recherche, il faut également mentionner l'équipe à l'origine de cette étude.
Le premier auteurShao Zhenwei a reçu un diagnostic d'amyotrophie spinale progressive lorsqu'il avait 1 an. Il s'agit d'un handicap de premier niveau des membres. Il n'a pas la capacité de prendre soin de lui-même. soin de sa mère pour la vie et les études.
Cependant, malgré ses limitations physiques, la soif de connaissances de Shao Zhenwei ne s'est pas affaiblie.
Lors de l'examen d'entrée à l'université de 2017, il a obtenu un score élevé de 644 points et a été admis à la majeure en informatique de l'Université des sciences et technologies électroniques de Hangzhou avec la première place.
Au cours de cette période, il a également remporté des distinctions telles que l'Étoile d'auto-amélioration des étudiants chinois 2018, la bourse nationale 2020 et le Diplômé exceptionnel de la province du Zhejiang 2021.
Au cours de ses études de premier cycle, Shao Zhenwei avait déjà commencé à mener des activités de recherche scientifique avec le professeur Yu Zhou.
En 2021, Shao Zhenwei a eu une rencontre fortuite avec l'Université du Zhejiang alors qu'il se préparait à être promu aux études supérieures, il est donc resté à l'école et a rejoint le groupe de recherche du professeur Yu Zhou pour poursuivre une maîtrise. Il est actuellement en deuxième année. année d'études supérieures, et sa direction de recherche est l'apprentissage intermodal.
Le professeur Yu Zhou est le deuxième auteur et auteur correspondant de ce document de recherche. Il est le plus jeune professeur de l'École d'informatique de l'Université de Hangzhou Dianping et directeur adjoint du laboratoire « Modélisation et simulation de systèmes complexes ». Ministère de l'Éducation.
Depuis longtemps, Yu Zhou s'est spécialisé dans la direction intelligence multimodale et a conduit l'équipe de recherche à remporter à plusieurs reprises la première et la deuxième place du défi international de réponses visuelles aux questions VQA Challenge.
La plupart des membres de l'équipe de recherche se trouvent au Hangzhou Electronics Media Intelligence Laboratory (MIL).
Le laboratoire est dirigé par le professeur Yu Jun, un universitaire national exceptionnel. Ces dernières années, le laboratoire a publié une série d'articles de conférences de haut niveau (TPAMI, IJCV, CVPR, etc.) axés sur l'apprentissage multimodal, et a remporté à plusieurs reprises le meilleur prix lors des conférences de revues IEEE.
Le laboratoire a accueilli plus de 20 projets nationaux tels que le plan national clé de R&D et la Fondation nationale des sciences naturelles de Chine. Il a remporté le premier prix du prix provincial des sciences naturelles du Zhejiang et le deuxième prix du prix éducatif des sciences naturelles.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Lors de la conversion des chaînes en objets dans vue.js, JSON.Parse () est préféré pour les chaînes JSON standard. Pour les chaînes JSON non standard, la chaîne peut être traitée en utilisant des expressions régulières et réduisez les méthodes en fonction du format ou du codé décodé par URL. Sélectionnez la méthode appropriée en fonction du format de chaîne et faites attention aux problèmes de sécurité et d'encodage pour éviter les bogues.

Ingénieur backend à distance Emploi Vacant Société: Emplacement du cercle: Bureau à distance Type d'emploi: Salaire à temps plein: 130 000 $ - 140 000 $ Description du poste Participez à la recherche et au développement des applications mobiles Circle et des fonctionnalités publiques liées à l'API couvrant l'intégralité du cycle de vie de développement logiciel. Les principales responsabilités complètent indépendamment les travaux de développement basés sur RubyOnRails et collaborent avec l'équipe frontale React / Redux / Relay. Créez les fonctionnalités de base et les améliorations des applications Web et travaillez en étroite collaboration avec les concepteurs et le leadership tout au long du processus de conception fonctionnelle. Promouvoir les processus de développement positifs et hiérarchiser la vitesse d'itération. Nécessite plus de 6 ans de backend d'applications Web complexe

Résumé: Il existe les méthodes suivantes pour convertir les tableaux de chaîne Vue.js en tableaux d'objets: Méthode de base: utilisez la fonction de carte pour convenir à des données formatées régulières. Gameplay avancé: l'utilisation d'expressions régulières peut gérer des formats complexes, mais ils doivent être soigneusement écrits et considérés. Optimisation des performances: Considérant la grande quantité de données, des opérations asynchrones ou des bibliothèques efficaces de traitement des données peuvent être utilisées. MEILLEUR PRATIQUE: Effacer le style de code, utilisez des noms de variables significatifs et des commentaires pour garder le code concis.

L'article présente le fonctionnement de la base de données MySQL. Tout d'abord, vous devez installer un client MySQL, tel que MySQLWorkBench ou le client de ligne de commande. 1. Utilisez la commande MySQL-UROot-P pour vous connecter au serveur et connecter avec le mot de passe du compte racine; 2. Utilisez Createdatabase pour créer une base de données et utilisez Sélectionner une base de données; 3. Utilisez CreateTable pour créer une table, définissez des champs et des types de données; 4. Utilisez InsertInto pour insérer des données, remettre en question les données, mettre à jour les données par mise à jour et supprimer les données par Supprimer. Ce n'est qu'en maîtrisant ces étapes, en apprenant à faire face à des problèmes courants et à l'optimisation des performances de la base de données que vous pouvez utiliser efficacement MySQL.

Traiter efficacement 7 millions d'enregistrements et créer des cartes interactives avec la technologie géospatiale. Cet article explore comment traiter efficacement plus de 7 millions d'enregistrements en utilisant Laravel et MySQL et les convertir en visualisations de cartes interactives. Exigences initiales du projet de défi: extraire des informations précieuses en utilisant 7 millions d'enregistrements dans la base de données MySQL. Beaucoup de gens considèrent d'abord les langages de programmation, mais ignorent la base de données elle-même: peut-il répondre aux besoins? La migration des données ou l'ajustement structurel est-il requis? MySQL peut-il résister à une charge de données aussi importante? Analyse préliminaire: les filtres et les propriétés clés doivent être identifiés. Après analyse, il a été constaté que seuls quelques attributs étaient liés à la solution. Nous avons vérifié la faisabilité du filtre et établi certaines restrictions pour optimiser la recherche. Recherche de cartes basée sur la ville

Il existe de nombreuses raisons pour lesquelles la startup MySQL échoue, et elle peut être diagnostiquée en vérifiant le journal des erreurs. Les causes courantes incluent les conflits de port (vérifier l'occupation du port et la configuration de modification), les problèmes d'autorisation (vérifier le service exécutant les autorisations des utilisateurs), les erreurs de fichier de configuration (vérifier les paramètres des paramètres), la corruption du répertoire de données (restaurer les données ou reconstruire l'espace de la table), les problèmes d'espace de la table InNODB (vérifier les fichiers IBDATA1), la défaillance du chargement du plug-in (vérification du journal des erreurs). Lors de la résolution de problèmes, vous devez les analyser en fonction du journal d'erreur, trouver la cause profonde du problème et développer l'habitude de sauvegarder régulièrement les données pour prévenir et résoudre des problèmes.

L'optimisation des performances MySQL doit commencer à partir de trois aspects: configuration d'installation, indexation et optimisation des requêtes, surveillance et réglage. 1. Après l'installation, vous devez ajuster le fichier my.cnf en fonction de la configuration du serveur, tel que le paramètre innodb_buffer_pool_size, et fermer query_cache_size; 2. Créez un index approprié pour éviter les index excessifs et optimiser les instructions de requête, telles que l'utilisation de la commande Explication pour analyser le plan d'exécution; 3. Utilisez le propre outil de surveillance de MySQL (ShowProcessList, Showstatus) pour surveiller la santé de la base de données, et sauvegarde régulièrement et organisez la base de données. Ce n'est qu'en optimisant en continu ces étapes que les performances de la base de données MySQL peuvent être améliorées.

Vue et Element-UI Boîtes déroulantes en cascade Points de fosse de liaison V-model: V-model lie un tableau représentant les valeurs sélectionnées à chaque niveau de la boîte de sélection en cascade, pas une chaîne; La valeur initiale de SelectOptions doit être un tableau vide, non nul ou non défini; Le chargement dynamique des données nécessite l'utilisation de compétences de programmation asynchrones pour gérer les mises à jour des données en asynchrone; Pour les énormes ensembles de données, les techniques d'optimisation des performances telles que le défilement virtuel et le chargement paresseux doivent être prises en compte.
