


Quelle amélioration GPT-4 apporte-t-il par rapport à ChatGPT ? Jen-Hsun Huang a eu une « discussion au coin du feu » avec le co-fondateur d'OpenAI
La différence la plus importante entre ChatGPT et GPT-4 est que la construction sur GPT-4 prédit le caractère suivant avec une plus grande précision. Mieux un réseau neuronal peut prédire le mot suivant dans un texte, mieux il peut comprendre le texte.
Produit par Big Data Digest
Auteur : Caleb
Quel genre d'étincelles Nvidia créera-t-il lorsqu'il rencontrera OpenAI ?
Tout à l'heure, le fondateur et PDG de NVIDIA, Jensen Huang, a eu un échange approfondi avec le co-fondateur d'OpenAI, Ilya Sutskever, lors d'une discussion au coin du feu de GTC.
Lien vidéo :
https://www.nvidia.cn/gtc-global/session-catalog/?tab.catalogallsessinotallow=16566177511100015Kus#/session/1669748941314001t6Nv
Il y a deux jours, OpenAI Lancement de GPT-4, le modèle d'intelligence artificielle le plus puissant à ce jour. OpenAI appelle GPT-4 « le système le plus avancé d'OpenAI » sur son site officiel et « peut produire des réponses plus sûres et plus utiles ».
Sutskever a également déclaré lors de la conférence que GPT-4 marque des « améliorations considérables » à bien des égards par rapport à ChatGPT, notant que le nouveau modèle peut lire des images et du texte. "Dans une future version, [les utilisateurs] pourront obtenir un graphique" en réponse aux questions et demandes de renseignements, a-t-il déclaré.
Il ne fait aucun doute qu'avec la popularité de ChatGPT et de GPT-4 à l'échelle mondiale, cela est également devenu le centre de cette conversation. En plus de GPT-4 et de ses prédécesseurs, y compris les sujets liés à ChatGPT, Huang Renxun et Sutskever également. Nous avons parlé des capacités, des limites et du fonctionnement interne des réseaux de neurones profonds, ainsi que des prévisions concernant le développement futur de l'IA.
Regardons de plus près cette conversation avec Digest Fungus~
Commencez à l'époque où personne ne se souciait de l'échelle du réseau et de l'échelle informatique
Peut-être que la première chose à laquelle beaucoup de gens pensent lorsqu'ils entendent le nom Sutskever est OpenAI et son IA associée. produits, mais vous devez savoir que le CV de Sutskever remonte au postdoctorant d'Andrew Ng, chercheur scientifique sur Google Brain et co-développeur du modèle Seq2Seq.
On peut dire que l'apprentissage profond est lié à Sutskever depuis le début.
En parlant de sa compréhension de l'apprentissage profond, Sutskever a déclaré qu'à partir de maintenant, l'apprentissage profond a effectivement changé le monde. Cependant, son point de départ personnel réside davantage dans son intuition sur l’énorme potentiel d’impact de l’IA, son fort intérêt pour la conscience et l’expérience humaine, et sa conviction que le développement de l’IA aidera à répondre à ces questions.
En 2002-2003, les gens croyaient généralement qu'apprendre était quelque chose que seuls les humains pouvaient faire et que les ordinateurs ne pouvaient pas apprendre. Et si les ordinateurs pouvaient avoir la capacité d’apprendre, cela constituerait une avancée majeure dans le domaine de l’IA.
C'est également devenu l'occasion pour Sutskever d'entrer officiellement dans le domaine de l'IA.
Alors Sutskever a trouvé Jeff Hinton de la même université. Selon lui, le réseau neuronal sur lequel travaille Hinton constitue une percée, car les caractéristiques des réseaux neuronaux sont des ordinateurs parallèles qui peuvent apprendre et être automatiquement programmés.
À cette époque, personne ne se souciait de l'importance de la taille du réseau et de l'échelle de calcul. Les gens formaient seulement 50 ou 100 réseaux de neurones. Des centaines d'entre eux étaient déjà considérés comme grands, et un million de paramètres étaient également considérés comme très énormes.
De plus, ils ne peuvent exécuter des programmes que sur du code CPU non optimisé, car personne ne comprend BLAS. Ils utilisent Matlab optimisé pour faire certaines expériences, par exemple sur le type de questions qu'il est préférable de poser.
Mais le problème est qu’il s’agit d’expérimentations très dispersées et qui ne peuvent pas réellement favoriser le progrès technologique.
Construire des réseaux de neurones pour la vision par ordinateur
À cette époque, Sutskever réalisa que l'apprentissage supervisé était la voie à suivre pour l'avenir.
Ce n'est pas seulement une intuition, mais aussi un fait incontestable. Si le réseau neuronal est suffisamment profond et suffisamment grand, il aura la capacité de résoudre certaines tâches difficiles. Mais les gens ne se sont pas encore concentrés sur les réseaux de neurones profonds et étendus, ni même sur les réseaux de neurones.
Afin de trouver une bonne solution, un ensemble de données suffisamment volumineux et de nombreux calculs sont nécessaires.
ImageNet, ce sont ces données. À cette époque, ImageNet était un ensemble de données très difficile, mais pour former un grand réseau neuronal convolutif, vous devez disposer d'une puissance de calcul correspondante.
Ensuite, il est temps que le GPU apparaisse. Sous la suggestion de Jeff Hinton, ils ont découvert qu'avec l'émergence de l'ensemble de données ImageNet, le réseau neuronal convolutif est un modèle très approprié pour le GPU, il peut donc être réalisé très rapidement et l'échelle devient de plus en plus grande.
Ensuite, il a battu directement et de manière significative le record de la vision par ordinateur. Cela ne repose pas sur la continuation des méthodes précédentes. La clé réside dans la difficulté et la portée de l'ensemble de données lui-même.
OpenAI : De 100 personnes à ChatGPT
Au début d'OpenAI, Sutskever a admis franchement qu'il ne savait pas vraiment comment promouvoir le projet.
Début 2016, les réseaux de neurones n'étaient pas très développés et il y avait beaucoup moins de chercheurs qu'aujourd'hui. Sutskever a rappelé qu'à l'époque, l'entreprise ne comptait que 100 personnes et que la plupart d'entre elles travaillaient encore chez Google ou DeepMind.
Mais ils avaient deux grandes idées à cette époque.
L'un d'eux est l'apprentissage non supervisé par compression. En 2016, l’apprentissage non supervisé était un problème non résolu dans le domaine du machine learning, et personne ne savait comment le mettre en œuvre. La compression n'est pas un sujet dont les gens parlent habituellement récemment, mais tout à coup, tout le monde s'est rendu compte que GPT compressait réellement les données d'entraînement.
Mathématiquement parlant, l'entraînement de ces modèles génératifs autorégressifs compresse les données et, intuitivement, vous pouvez voir pourquoi cela fonctionne. Si les données sont suffisamment bien compressées, vous pouvez extraire toutes les informations cachées qui y sont présentes. Cela a également conduit directement aux recherches connexes d’OpenAI sur les neurones émotionnels.
En même temps, lorsqu'ils ont adapté le même LSTM pour prédire le prochain personnage d'une critique d'Amazon, ils ont découvert que si vous prédisez suffisamment bien le prochain personnage, il y aura un neurone au sein du LSTM qui correspondra à son sentiment. Il s'agit d'une bonne démonstration de l'effet de l'apprentissage non supervisé et vérifie également l'idée de prédiction du prochain personnage.
Mais où trouver les données pour un apprentissage non supervisé ? Sutskever a déclaré que le problème de l'apprentissage non supervisé concerne moins les données que la raison pour laquelle vous le faites, et se rendre compte que la formation d'un réseau neuronal pour prédire le prochain personnage mérite d'être poursuivie et explorée. De là, il apprend une représentation compréhensible.
Une autre grande idée est l’apprentissage par renforcement. Sutskever a toujours pensé que plus c'est grand, mieux c'est. Chez OpenAI, l’un de leurs objectifs est de trouver la bonne façon d’évoluer.
Le premier très gros projet réalisé par OpenAI a été la mise en œuvre du jeu de stratégie Dota 2. A cette époque, OpenAI formait un agent d’apprentissage par renforcement pour lutter contre lui-même. Le but était d’atteindre un certain niveau et de pouvoir jouer à des jeux avec des joueurs humains.
La transformation de l'apprentissage par renforcement de Dota vers l'apprentissage par renforcement des commentaires humains combiné à la base technologique de sortie GPT est devenue le ChatGPT d'aujourd'hui.
Comment OpenAI entraîne un grand réseau neuronal
Lors de la formation d'un grand réseau neuronal pour prédire avec précision le mot suivant dans différents textes sur Internet, OpenAI apprend un modèle du monde.
Il semble que nous n'apprenons que des corrélations statistiques dans le texte, mais en fait, l'apprentissage de ces corrélations statistiques peut très bien compresser ces connaissances. Ce que le réseau neuronal apprend, ce sont quelques expressions lors du processus de génération de texte. Ce texte est en fait une carte du monde, de sorte que le réseau neuronal peut apprendre de plus en plus de perspectives pour voir les humains et la société. C’est ce que le réseau neuronal apprend réellement en prédisant avec précision le mot suivant.
Dans le même temps, plus la prédiction du mot suivant est précise, plus le degré de restauration est élevé et plus la résolution du monde obtenue dans ce processus est élevée. C’est le rôle de la phase de pré-entraînement, mais elle ne fait pas en sorte que le réseau neuronal se comporte comme nous le souhaitons.
Ce qu'un modèle de langage essaie vraiment de faire, c'est que si j'avais un texte aléatoire sur Internet, commençant par un préfixe ou un indice, que compléterait-il ?
Bien sûr, il peut également trouver du texte à remplir sur Internet, mais ce n'est pas ce qui a été conçu à l'origine, donc une formation supplémentaire est nécessaire. C'est là qu'un réglage fin, un apprentissage par renforcement auprès d'enseignants humains et d'autres formes d'assistance à l'IA. peut entrer en jeu.
Mais il ne s'agit pas d'enseigner de nouvelles connaissances, mais de communiquer avec elles et de leur transmettre ce que nous voulons qu'elles soient, ce qui inclut également des limites. Mieux ce processus est réalisé, plus le réseau neuronal sera utile et fiable, et plus la fidélité des limites sera élevée.
Parlons à nouveau de GPT-4
Peu de temps après que ChatGPT soit devenue l'application avec la croissance d'utilisateurs la plus rapide, GPT-4 a été officiellement publié.
En parlant des différences entre les deux, Sutskever a déclaré que GPT-4 a réalisé des améliorations considérables dans de nombreux dimensions par rapport à ChatGPT.
La différence la plus importante entre ChatGPT et GPT-4 est que la construction sur GPT-4 prédit le caractère suivant avec une plus grande précision. Mieux un réseau neuronal peut prédire le mot suivant dans un texte, mieux il peut comprendre le texte.
Par exemple, vous lisez un roman policier. L'intrigue est très complexe, avec de nombreuses intrigues et personnages intercalés, et de nombreux indices mystérieux enfouis. Dans le dernier chapitre du livre, le détective a rassemblé tous les indices, a réuni tout le monde et a dit que maintenant il révélerait qui est le coupable, et cette personne est...
C'est ce que GPT-4 peut prédire.
Les gens disent que l’apprentissage profond ne peut pas faire de raisonnement logique. Mais qu'il s'agisse de cet exemple ou de certaines des choses que GPT peut faire, cela montre un certain degré de capacité de raisonnement.
Sutskever a répondu que lorsque nous définissons le raisonnement logique, si vous pouvez y réfléchir d'une certaine manière lorsque vous prenez la prochaine décision, vous pourrez peut-être obtenir une meilleure réponse. Il reste à voir jusqu’où les réseaux de neurones peuvent aller, et OpenAI n’a pas encore pleinement exploité son potentiel.
Certains réseaux de neurones possèdent déjà ce genre de capacité, mais la plupart d'entre eux ne sont pas assez fiables. La fiabilité est le plus grand obstacle à l’utilité de ces modèles, et constitue également un goulot d’étranglement majeur des modèles actuels. Il ne s’agit pas de savoir si le modèle possède une capacité spécifique, mais de savoir quelle est son étendue.
Sutskever a également déclaré que GPT-4 n'avait pas de fonction de recherche intégrée lors de sa sortie. C'était juste un bon outil qui pouvait prédire le mot suivant, mais on peut dire qu'il a pleinement cette capacité et le fera. la recherche mieux.
Une autre amélioration significative de GPT-4 est la réponse et le traitement des images. L'apprentissage multimodal y joue un rôle important. Sutskever a déclaré que la multimodalité a deux dimensions : la première est que la multimodalité est utile pour les réseaux neuronaux, en particulier la vision ; la seconde est qu'en plus de l'apprentissage des textes, la connaissance du monde peut également être utile. appris des images.
L'avenir de l'intelligence artificielle
Quand il s'agit d'utiliser l'IA pour entraîner l'IA, Sutskever a déclaré que cette partie des données ne doit pas être ignorée.
Il est difficile de prédire l’évolution future des modèles de langage, mais selon Sutskever, il y a de bonnes raisons de croire que ce domaine continuera à progresser et que l’IA continuera de choquer l’humanité par sa force aux limites de ses capacités. La fiabilité de l’IA dépend de sa fiabilité, et elle atteindra certainement un point où l’on pourra lui faire entièrement confiance à l’avenir.
S'il ne comprend pas complètement, il le découvrira également en posant des questions, ou vous dira qu'il ne sait pas. Ce sont les domaines dans lesquels l'utilisabilité de l'IA a le plus grand impact et connaîtra les plus grands progrès à l'avenir. .
Maintenant nous sommes confrontés à un tel défi, vous souhaitez qu'un réseau de neurones résume un long document ou obtienne un résumé, comment s'assurer que des détails importants n'ont pas été négligés ? Si un point est manifestement suffisamment important pour que tous les lecteurs soient d’accord sur ce point, alors le contenu résumé par le réseau neuronal peut être considéré comme fiable.
Il en va de même pour savoir si le réseau neuronal suit clairement l'intention de l'utilisateur.
Nous verrons de plus en plus de technologies comme celle-ci dans les deux prochaines années, rendant cette technologie de plus en plus fiable.
Rapports associés : https://blogs.nvidia.com/blog/2023/03/22/sutskever-openai-gtc/
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds



Le DALL-E 3 a été officiellement introduit en septembre 2023 en tant que modèle considérablement amélioré par rapport à son prédécesseur. Il est considéré comme l’un des meilleurs générateurs d’images IA à ce jour, capable de créer des images avec des détails complexes. Cependant, au lancement, c'était exclu

Imaginez un modèle d'intelligence artificielle qui non seulement a la capacité de surpasser l'informatique traditionnelle, mais qui permet également d'obtenir des performances plus efficaces à moindre coût. Ce n'est pas de la science-fiction, DeepSeek-V2[1], le modèle MoE open source le plus puissant au monde est ici. DeepSeek-V2 est un puissant mélange de modèle de langage d'experts (MoE) présentant les caractéristiques d'une formation économique et d'une inférence efficace. Il est constitué de 236B paramètres, dont 21B servent à activer chaque marqueur. Par rapport à DeepSeek67B, DeepSeek-V2 offre des performances plus élevées, tout en économisant 42,5 % des coûts de formation, en réduisant le cache KV de 93,3 % et en augmentant le débit de génération maximal à 5,76 fois. DeepSeek est une entreprise explorant l'intelligence artificielle générale

Les méthodes d'apprentissage profond d'aujourd'hui se concentrent sur la conception de la fonction objectif la plus appropriée afin que les résultats de prédiction du modèle soient les plus proches de la situation réelle. Dans le même temps, une architecture adaptée doit être conçue pour obtenir suffisamment d’informations pour la prédiction. Les méthodes existantes ignorent le fait que lorsque les données d’entrée subissent une extraction de caractéristiques couche par couche et une transformation spatiale, une grande quantité d’informations sera perdue. Cet article abordera des problèmes importants lors de la transmission de données via des réseaux profonds, à savoir les goulots d'étranglement de l'information et les fonctions réversibles. Sur cette base, le concept d'information de gradient programmable (PGI) est proposé pour faire face aux différents changements requis par les réseaux profonds pour atteindre des objectifs multiples. PGI peut fournir des informations d'entrée complètes pour la tâche cible afin de calculer la fonction objectif, obtenant ainsi des informations de gradient fiables pour mettre à jour les pondérations du réseau. De plus, un nouveau cadre de réseau léger est conçu

Le robot humanoïde Ameca est passé à la deuxième génération ! Récemment, lors de la Conférence mondiale sur les communications mobiles MWC2024, le robot le plus avancé au monde, Ameca, est à nouveau apparu. Autour du site, Ameca a attiré un grand nombre de spectateurs. Avec la bénédiction de GPT-4, Ameca peut répondre à divers problèmes en temps réel. "Allons danser." Lorsqu'on lui a demandé si elle avait des émotions, Ameca a répondu avec une série d'expressions faciales très réalistes. Il y a quelques jours à peine, EngineeredArts, la société britannique de robotique derrière Ameca, vient de présenter les derniers résultats de développement de l'équipe. Dans la vidéo, le robot Ameca a des capacités visuelles et peut voir et décrire toute la pièce et des objets spécifiques. Le plus étonnant, c'est qu'elle peut aussi

Concernant Llama3, de nouveaux résultats de tests ont été publiés - la grande communauté d'évaluation de modèles LMSYS a publié une liste de classement des grands modèles, Llama3 s'est classé cinquième et à égalité pour la première place avec GPT-4 dans la catégorie anglaise. Le tableau est différent des autres benchmarks. Cette liste est basée sur des batailles individuelles entre modèles, et les évaluateurs de tout le réseau font leurs propres propositions et scores. Au final, Llama3 s'est classé cinquième sur la liste, suivi de trois versions différentes de GPT-4 et Claude3 Super Cup Opus. Dans la liste simple anglaise, Llama3 a dépassé Claude et est à égalité avec GPT-4. Concernant ce résultat, LeCun, scientifique en chef de Meta, était très heureux et a transmis le tweet et

Étapes d'installation : 1. Téléchargez le logiciel ChatGTP depuis le site officiel ou la boutique mobile de ChatGTP ; 2. Après l'avoir ouvert, dans l'interface des paramètres, sélectionnez la langue chinoise 3. Dans l'interface de jeu, sélectionnez le jeu homme-machine et définissez la langue. Spectre chinois ; 4. Après avoir démarré, entrez les commandes dans la fenêtre de discussion pour interagir avec le logiciel.

Le volume est fou, le volume est fou, et le grand modèle a encore changé. Tout à l'heure, le modèle d'IA le plus puissant au monde a changé de mains du jour au lendemain et GPT-4 a été retiré de l'autel. Anthropic a publié la dernière série de modèles Claude3. Évaluation en une phrase : elle écrase vraiment GPT-4 ! En termes d'indicateurs multimodaux et de compétences linguistiques, Claude3 l'emporte. Selon les mots d'Anthropic, les modèles de la série Claude3 ont établi de nouvelles références dans l'industrie en matière de raisonnement, de mathématiques, de codage, de compréhension multilingue et de vision ! Anthropic est une startup créée par des employés qui ont « quitté » OpenAI en raison de différents concepts de sécurité. Leurs produits ont frappé durement OpenAI à plusieurs reprises. Cette fois, Claude3 a même subi une grosse opération.

Adresse papier : https://arxiv.org/abs/2307.09283 Adresse code : https://github.com/THU-MIG/RepViTRepViT fonctionne bien dans l'architecture ViT mobile et présente des avantages significatifs. Ensuite, nous explorons les contributions de cette étude. Il est mentionné dans l'article que les ViT légers fonctionnent généralement mieux que les CNN légers sur les tâches visuelles, principalement en raison de leur module d'auto-attention multi-têtes (MSHA) qui permet au modèle d'apprendre des représentations globales. Cependant, les différences architecturales entre les ViT légers et les CNN légers n'ont pas été entièrement étudiées. Dans cette étude, les auteurs ont intégré des ViT légers dans le système efficace.
