GPT-5 : 4 nouvelles fonctionnalités que nous voulons voir-IA-php.cn

Du moins, c'est ce que nous espérons. Il n’y a pas de date de lancement spécifique pour GPT-5, et la plupart de ce que nous pensons savoir vient de la collecte d’autres informations et de la tentative de relier les points.

Néanmoins, quelle que soit la date d'échéance, il y a quelques fonctionnalités clés que nous souhaitons voir lors du lancement de GPT-5.

Qu'est-ce que le GPT-5 d'OpenAI ?

GPT-5 est le successeur très attendu du modèle d'IA GPT-4 d'OpenAI, largement considéré comme le modèle génératif le plus puissant du marché. Bien qu'il n'y ait actuellement aucune date de sortie officielle pour GPT-5, il semble qu'il pourrait être publié dès l'été 2024. Très peu de détails sur le modèle sont connus pour le moment, mais plusieurs choses peuvent être dites avec une certaine quantité de détails. certitude :

OpenAI a déposé une marque pour le nom auprès de l'Office des brevets et des marques des États-Unis. Plusieurs dirigeants d'OpenAI ont discuté ou fait allusion aux capacités possibles du modèle. Le PDG d'OpenAI, Sam Altman, a mentionné à plusieurs reprises le modèle lors d'une interview YouTube avec Lex Fridman en mars 2024.

Tout cela pointe vers une réalité passionnante : GPT-5 arrive ! Cela dit, à ce stade, beaucoup de choses ne sont que des spéculations. Mais il y a quelques éléments que nous espérons voir et que nous sommes assez sûrs de voir dans le modèle. En voici quelques-unes :

1. Plus de multimodalité

L'une des améliorations les plus intéressantes apportées à la famille de modèles d'IA GPT a été la multimodalité. Pour plus de clarté, la multimodalité est la capacité d'un modèle d'IA à traiter non seulement du texte, mais également d'autres types d'entrées telles que des images, de l'audio et de la vidéo. La multimodalité constituera une référence de progrès importante pour la famille de modèles GPT à l’avenir.

GPT-4 étant déjà adepte de la gestion des entrées et sorties d'images, les améliorations concernant le traitement audio et vidéo constituent la prochaine étape pour OpenAI, et GPT-5 est un bon point de départ. Google fait déjà de sérieux progrès dans ce type de multimodalité avec son modèle Gemini AI. Il serait inhabituel pour OpenAI de ne pas répondre. Mais bien sûr, ne nous croyez pas sur parole. Dans son podcast Unconfuse Me [transcription PDF], Bill Gates a demandé au PDG d'OpenAI, Sam Altman, quelles étapes il prévoyait pour la série GPT au cours des deux prochaines années. Sa première réponse ? Traitement vidéo.

Ainsi, pour GPT-5, nous espérons pouvoir jouer avec les vidéos : télécharger des vidéos sous forme d'invites, créer des vidéos en déplacement, éditer des vidéos avec des invites textuelles, extraire des segments de vidéos et rechercher des scènes spécifiques à partir de fichiers vidéo volumineux. . Nous espérons pouvoir faire des choses similaires avec les fichiers audio. C'est une grande demande, oui. Mais étant donné la rapidité du développement de l’IA, c’est une attente très raisonnable.

2. Fenêtre contextuelle plus grande et plus efficace

Bien qu'elle soit l'un des modèles d'IA les plus sophistiqués du marché, la famille de modèles d'IA GPT possède l'une des plus petites fenêtres contextuelles. Par exemple, Claude 3 d'Anthropic dispose d'une fenêtre contextuelle de 200 000 jetons, tandis que Gemini de Google peut traiter un nombre impressionnant d'un million de jetons (128 000 pour une utilisation standard). En revanche, GPT-4 a une fenêtre contextuelle relativement plus petite de 128 000 jetons, avec environ 32 000 jetons ou moins disponibles de manière réaliste pour une utilisation sur des interfaces comme ChatGPT.

Avec l’arrivée de la multimodalité avancée, une fenêtre contextuelle améliorée est presque inévitable. Peut-être qu’une augmentation d’un facteur deux ou quatre suffirait, mais nous espérons voir quelque chose comme un facteur dix. Cela permettra à GPT-5 de traiter beaucoup plus d'informations de manière beaucoup plus efficace. Or, une fenêtre contextuelle plus grande ne signifie pas toujours mieux. Ainsi, plutôt que de simplement augmenter la fenêtre de contexte, nous aimerions voir une efficacité accrue du traitement du contexte.

Vous voyez, un modèle peut avoir une fenêtre contextuelle d'un million de jetons (capacité d'environ 700 000 mots) mais ne pas parvenir à produire un résumé complet lorsqu'on lui demande de résumer un livre de 500 000 mots, car il ne peut pas traiter correctement l'intégralité du contexte malgré avoir la capacité de le faire en théorie. Le fait que vous puissiez lire un livre de 500 000 mots ne signifie pas que vous pouvez vous en souvenir de tout ce qu'il contient ou le traiter de manière judicieuse.

3. Agents GPT

L'une des possibilités les plus excitantes d'une version GPT-5 est peut-être les débuts des agents GPT. Même si le terme « changeur de jeu » a probablement été galvaudé dans le domaine de l'IA, les agents GPT pourraient véritablement changer la donne dans tous les sens pratiques. Mais à quel point cela changerait-il la donne ?

Actuellement, les modèles d'IA comme GPT-4 peuvent vous aider à accomplir une tâche. Ils peuvent écrire un e-mail, faire une blague, résoudre un problème mathématique ou rédiger un article de blog pour vous. Cependant, ils ne peuvent effectuer que cette tâche particulière et ne peuvent pas accomplir un ensemble de tâches connexes qui seraient nécessaires pour accomplir votre travail.

Disons que vous êtes un développeur web. Dans le cadre de votre travail, vous êtes censé effectuer de nombreuses tâches : concevoir, écrire du code, dépanner et bien plus encore. Actuellement, vous ne pouvez déléguer qu’une partie de ces tâches à la fois aux modèles d’IA. Vous pouvez peut-être demander au modèle GPT-4 d'écrire un code pour la page d'accueil, puis lui demander de le faire pour la page de contact, puis pour la page À propos, etc. Vous devrez effectuer ces tâches de manière itérative. Et il y a des tâches que les modèles ne peuvent tout simplement pas accomplir.

Ce processus itératif consistant à demander à des modèles d'IA pour des sous-tâches spécifiques prend du temps et est inefficace. Dans ce scénario, vous, le développeur Web, êtes l'agent humain chargé de coordonner et de demander aux modèles d'IA une tâche à la fois jusqu'à ce que vous ayez terminé un ensemble complet de tâches connexes.

GPT Agents promet des robots experts spécialisés coordonnés, espérons-le, par GPT-5, capables de s'auto-inviter et de s'attaquer de manière autonome à tous les sous-ensembles d'une tâche complexe. L'accent est mis sur « l'auto-incitation » et « l'autonomie ».

Ainsi, si GPT-5 est livré avec des agents GPT, vous pouvez lui demander de « créer un site Web de portfolio pour Maxwell Timothy » plutôt que de simplement « m'écrire un code pour la page d'accueil ». GPT-5 serait alors théoriquement capable de s'auto-inviter en invoquant des agents experts en IA pour gérer les différentes sous-tâches nécessaires à la création d'un site Web. Il peut invoquer un GPT pour supprimer le Web à la recherche d'informations sur Maxwell Timothy, un autre agent pour écrire le code de différentes pages, un autre agent pour générer et optimiser des images, et même un autre agent IA pour déployer le site, le tout sans avoir besoin d'interventions humaines répétées. incitant.

4. Moins d'hallucinations

Bien qu'OpenAI ait parcouru un long chemin dans la gestion des hallucinations dans ses modèles d'IA, le véritable test décisif pour GPT-5 sera sa capacité à résoudre le problème persistant des hallucinations, qui a freiné la généralisation l’adoption de l’IA dans des domaines à enjeux élevés et critiques pour la sécurité comme la santé, l’aviation et la cybersécurité. Ce sont tous des domaines qui bénéficieraient grandement d’une forte implication de l’IA, mais qui évitent actuellement toute adoption significative.

Pour plus de clarté, l'hallucination dans ce contexte fait référence à des situations dans lesquelles le modèle d'IA génère et présente des informations apparemment plausibles mais complètement fabriquées avec un haut degré de confiance.

Imaginez un scénario dans lequel GPT-4 est intégré dans un système de diagnostic pour analyser les symptômes des patients et les rapports médicaux. Une hallucination pourrait amener l’IA à fournir en toute confiance un diagnostic incorrect ou à recommander un traitement potentiellement dangereux basé sur des faits imaginaires et une fausse logique. Les conséquences d’une telle erreur dans le domaine médical pourraient être catastrophiques.

Des réserves similaires s'appliquent à d'autres domaines à fortes conséquences, tels que l'aviation, l'énergie nucléaire, les opérations maritimes et la cybersécurité. Nous ne nous attendons pas à ce que GPT-5 résolve complètement le problème des hallucinations, mais nous espérons qu'il réduira considérablement la possibilité de tels incidents.

Alors que nous attendons avec impatience la sortie officielle de ce modèle d'IA très attendu, une chose est sûre : GPT-5 a le potentiel de redéfinir les limites de ce qui est possible avec l'intelligence artificielle, ouvrant la voie à une nouvelle ère de collaboration homme-machine et innovation.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!