Auteur | Yun Zhao
Le 9 mars, Andreas Braun, directeur technique de Microsoft Allemagne, a annoncé une nouvelle très attendue lors de la conférence de lancement de l'IA : "Nous lancerons GPT-4 la semaine prochaine, lorsque nous lancerons Multi-modal modes, offrant des possibilités complètement différentes - comme les vidéos. des choses qui auparavant ne pouvaient être lues et comprises que par les humains. Dans le même temps, la technologie a évolué pour être « disponible dans toutes les langues » : on peut poser des questions en allemand et répondre en italien. Avec la multimodalité, Microsoft (-OpenAI) « rendra les modèles complets ».
Il semble qu'il soit fondamentalement certain que GPT-4 sera un grand modèle multimodal. Mais si vous souhaitez connaître à l’avance la véritable identité de GPT-4, il n’est pas impossible de la retrouver.
1. Prédiction : GPT-4 est basé sur le précédent grand modèle de langage multimodal Kosmos-1 En fait, dès le 1er mars, nous avons remarqué que Microsoft avait publié le grand modèle de langage multimodal Kosmos- 1. Si GPT-4 est multimodal, nous pouvons raisonnablement prédire de quoi GPT-4 est capable.KOSMOS-1 est un grand modèle de langage multimodal (MLLM) capable de percevoir des entrées multimodales, de suivre des instructions et d'effectuer des tâches d'apprentissage contextuel, qui peuvent également être des tâches multimodales. Dans ce travail, nous alignons la vision sur les grands modèles de langage (LLM), conduisant à l'évolution des LLM vers les MLLM.
Jim Fan, médecin de Stanford et scientifique NVIDIA AI, a fait 5 prédictions spécifiques basées sur ceci :
(1) Test de QI visuel : Oui, un test pour les humains ! (2) Aucune compréhension de lecture OCR : saisie de captures d'écran, documents numérisés, panneaux de signalisation ou tout pixel contenant du texte. Raisonnez directement sur le contenu sans OCR explicite. Ceci est utile pour déverrouiller des applications basées sur l'IA sur des pages Web multimédias ou du « texte sauvage » provenant de caméras du monde réel. (3) Chat multimodal : discutez d'images. Vous pouvez même fournir une photo de « suivi » à mi-parcours. (4) Capacités étendues de compréhension visuelle, telles que les sous-titres, les questions et réponses visuelles, la détection d'objets, la mise en scène, le raisonnement de bon sens, etc. (5) Reconnaissance audio et vocale : non mentionnée dans l'article Kosmos-1, mais Whisper est déjà une API OpenAI et devrait être facile à intégrer. Jim pense qu’il pourrait y avoir des divergences dans les prédictions basées sur la récente annonce d’Andreas. Mais Kosmos-1 l'a déjà fait. Il y a des raisons de croire qu’il offre des fonctionnalités pour GPT-4 ou tout autre service d’IA que Microsoft proposera ensuite. "Il est difficile de croire que Kosmos-1 restera en laboratoire et ne deviendra pas un produit."
Exemples d'applications multimodales de grands modèles : capture d'images, questions et réponses d'images, OCR, dialogue visuel
Jim conseille aux praticiens : « Veuillez vous préparer aux API multimodales – elles arriveront tôt ou tard. Apparaîtra ! "
2. GPT-4 deviendra-t-il AGI ? Loin d'être suffisant Tout d'abord, la question de l'exactitude n'est toujours pas suffisante. Interrogé sur la fiabilité opérationnelle et la fidélité factuelle, Siebler, expert principal en intelligence artificielle chez Microsoft Allemagne, a déclaré que l'IA ne répondrait pas toujours correctement, une vérification est donc nécessaire. Microsoft crée actuellement des mesures de confiance pour résoudre ce problème. Les clients n'utilisent généralement la prise en charge de l'IA que sur leurs propres ensembles de données, principalement pour la compréhension en lecture et l'interrogation des données d'inventaire, où les modèles sont déjà assez précis. Cependant, le texte généré par les modèles est toujours génératif et donc difficilement vérifiable. "Nous avons construit une boucle de rétroaction autour de cela, à la fois pour et contre", a déclaré Siebler. "C'est un processus itératif".Deuxièmement, il n'y a pas assez de données. Même si le GPT-4 multimodal est sur le point de démontrer de puissantes capacités de vision, d’audition, de compréhension écrite et de raisonnement, ce n’est que la pointe de l’iceberg de l’AGI. En prenant comme exemple les robots humanoïdes, il est difficile d’unifier les données de contrôle de ceux-ci. les robots, et, ces données de contrôle sont liées au robot, au matériel et varient considérablement. Par conséquent, les données d'entraînement de différents robots réels ne peuvent pas être facilement combinées, ce qui est qualitativement différent des données telles que le texte, la vidéo, l'image, l'audio, etc.
3. Deux rumeurs sur les paramètres GPT-4
1. Faux!
GPT-4 est un nouveau modèle de langage créé par OpenAI qui peut générer un texte similaire à la parole humaine. Il fera progresser la technologie utilisée par ChatGPT, qui est basée sur GPT-3.5.
Dès août 2021, les experts du secteur avaient émis l'hypothèse que GPT-4 aurait 100 000 milliards de paramètres, mais certaines personnes disaient à l'époque : Construire une IA avec plus de paramètres ne garantit pas nécessairement de meilleures performances et peut affecter la réactivité.
Mais Altman, le père de ChatGPT, a rapidement réfuté les rumeurs : la prochaine version de ChatGPT ne sera pas AGI, et n'aura pas non plus 100 000 milliards de paramètres. Ces rumeurs sont fausses.
Microsoft a déclaré que le nouveau Bing ou Bing Chat est plus puissant que ChatGPT. Étant donné que le chat d'OpenAI utilise GPT-3.5, certains pensent que le chat Bing pourrait utiliser GPT-4. Cela n'a pas été confirmé.
Évidemment, Bing Chat a été mis à niveau pour permettre l'accès aux informations actuelles sur Internet, ce qui constitue une énorme amélioration par rapport à ChatGPT, qui ne pouvait jusqu'à présent bénéficier que des données de formation reçues avant 2021.
En plus de l'accès à Internet, les modèles d'IA utilisés pour le chat Bing sont beaucoup plus rapides, ce qui est très important lorsqu'ils sont sortis du laboratoire et ajoutés au moteur de recherche.
Mais cela semble peu susceptible d’être équivalent au modèle GPT-4 d’OpenAI. Si GPT-4 est déjà accessible au public, il n’est plus nécessaire de le garder secret.
Il ne fait aucun doute que le prochain GPT-4 impressionnera certainement les gens, mais le PDG d'OpenAI, Sam Altman, a été interviewé par StrictlyVC "Les gens" supplient " d'être déçus, et ils seront déçus", a déclaré Altman. Altman a également précédemment tweeté sur le potentiel de l'AGI à causer d'énormes dommages à l'économie mondiale et a déclaré que quelques petits changements seraient mis en œuvre rapidement. , vaut mieux que des progrès alarmants qui fournissent peu de possibilités pour le monde de s'adapter au changement.
Par coïncidence, le maître de l'intelligence artificielle de classe mondiale Ben Goertzel a également versé beaucoup d'eau froide sur GPT-3/GPT-4 :
Bien sûr, les gens devraient maintenant remarquer qu'investir dans ces systèmes de « réarrangement des connaissances » (par exemple, le montant des dollars et de la main-d'œuvre investis dans ChatGPT est bien supérieur au montant investi dans des approches alternatives d'IA qui respectent davantage la complexité d'une cognition ancrée et autocorrective.
Le scepticisme général à l'égard des réseaux neuronaux multicouches et l'adoption des systèmes experts à la fin des années 1970 et au début des années 1990 semblaient naïfs, archaïques et stupides, tout comme c'est le cas aujourd'hui.
De même, l'enthousiasme étoilé d'aujourd'hui pour le LLM et le rejet désinvolte des approches AGI plus subtiles sembleront ridicules d'ici le milieu/la fin des années 2020.
Mon point dans cet article, et ce n'est pas que ces systèmes basés sur le LLM sont Ce n'est ni cool ni utile – c'est juste qu'il s'agit d'une nouvelle technologie d'IA étroite et à la mode qui n'est pas aussi connectée à l'AGI qu'il y paraît, ou comme le prétendent certains commentateurs.
En bref, GPT-4 sera une évolution, pas une révolution.
5. Écrit à la fin
Enfin, je tiens à dire à tout le monde que peu importe que la sortie de GPT-4 la semaine prochaine soit conforme aux prédictions de cet article, y compris le grand modèle domestique "Wen Xinyiyan" que nous attendons avec impatience . Ce qui compte est de savoir si les développeurs ou leurs entreprises sont prêts à adopter des API multimodales à grande échelle. Quelle chance que tout cela se produise, espérons-le, avant 2024 !
Lien de référence :
https://arxiv.org/abs/2302.14045
https://www.heise.de/news/GPT-4-is-coming-next-week-and-it- sera-multimodal-dit-Microsoft-Allemagne-7540972.html
https://t.co/JbtQvjoJ3W
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!