Le 8 février à 8h30 EST, la conférence de presse de Google se tiendra à Paris. La veille, Microsoft a officiellement lancé New Bing, une nouvelle génération de moteur de recherche piloté par l'IA, intégrant le modèle génératif basé sur la technologie ChatGPT avec Bing. Le vice-président de Microsoft, Yusuf Mehdi, en a fait une parfaite démonstration[0], et la valeur marchande de Microsoft a grimpé de 80 milliards de dollars ce jour-là. Même en Chine, où OpenAI n'est pas ouvert à l'enregistrement, des extraits de Yusuf montrant comment le modèle génératif peut améliorer l'expérience du moteur de recherche Bing et du navigateur Edge deviennent viraux dans les groupes Moments et WeChat. Ce qui est du miel pour vous est de l'arsenic pour les autres. Tout le monde attend de voir comment le géant de la recherche Google réagira.
Lors de la conférence de presse de Google, tout le monde attendait l'apparition de Bard, le légendaire rival du New Bing. En tant que grand modèle de langage pris en charge par le moteur de recherche Google, tout le monde rêve à propos de Bard. Cependant, il n’y avait pas grand-chose sur Bard lors de la conférence de presse. Alors tout le monde a tourné son attention vers la vidéo de Bard publiée par Google sur Twitter. Après l'avoir soigneusement récupérée, tout le monde a soudainement découvert que Bard avait commis des erreurs factuelles en répondant aux questions.
Quand on lui a demandé : « Que puis-je dire à mon enfant de neuf ans à propos des nouvelles découvertes faites par le télescope James Webb ? » Bard a répondu : « La première photo d'une exoplanète a été prise par le télescope James Webb. » Mais le fait a été constaté par le Very Large Telescope de l'Observatoire européen austral en 2004, 18 ans avant le lancement du télescope James Webb. Cette erreur est devenue le déclencheur de la chute du cours de l'action de Google ce jour-là.
Figure 1 Capture d'écran de la démonstration de Bard sur le télescope James Webb
Lors de la conférence de presse de Paris, bien que la présentation de Bard n'ait duré qu'environ 4 minutes, son discours sur le meilleur temps d'observation de les constellations Il existe également des biais factuels évidents dans les réponses. Comme indiqué ci-dessous, la réponse de Bard mentionne que le meilleur moment pour observer Orion est de novembre à février.
Figure 2 Capture d'écran de la démonstration de Bard sur le temps d'observation des galaxies
Selon différentes sources d'information, le meilleur temps d'observation pour Orion est différent, mais ils indiquent tous clairement que le meilleur moment est le meilleur. La période d'observation commence chaque année à partir de janvier. Le site Edtech BYJU'S donne la meilleure période de janvier à mars [1] et Wikipedia donne la meilleure période de janvier à avril [2].
Figure 3 Réponse de BYJU sur le meilleur moment d'observation pour Orion
En raison de l'écart entre la conférence de presse de Bard et la conférence de presse de New Bing, et les faits ont été révélés. À cause d'une erreur sexuelle, la valeur marchande de Google a chuté de près de 100 milliards de dollars ce jour-là, et Bard a été surnommée la conférence la plus chère de l'histoire. Nous ne pouvons nous empêcher de nous demander s’il y a des erreurs factuelles cachées dans la conférence de presse apparemment parfaite de New Bing ?
Nous avons constaté que le contenu généré par New Bing était mélangé à de nombreuses erreurs factuelles, notamment des informations sur l'identité des célébrités, les chiffres des rapports financiers, les heures d'ouverture des discothèques, etc.
Classification des erreurs factuelles dans les modèles génératifs
Pour les modèles génératifs représentés par la série GPT (y compris ChatGPT, InstructGPT, etc.) et T5, les erreurs factuelles peuvent être grossièrement divisées dans les deux catégories suivantes :
Vérifions maintenant les exemples présentés dans la conférence New Bing [3] et la démo New Bing [4] pour voir s'il existe des erreurs factuelles et de quels types il s'agit. Pour faciliter la rédaction, nous désignons New Bing et le plug-in New Bing intégré dans Edge sous le nom de New Bing.
Erreur dans l'exemple des poètes japonais
À 29:57 dans la vidéo de la conférence de presse de New Bing, lorsque New Bing a été interrogé sur les poètes japonais célèbres, les réponses données incluaient "Eriko Kishida Kishida Eriko (1930 - 2004), poète, dramaturge et essayiste".
Figure 4 Capture d'écran de l'exemple du poète dans la démo New Bing
Cependant, selon les informations fournies par Wikipedia et IMDB [5, 6, 7], la naissance et les années de décès d'Eriko Kishida sont respectivement pour 1929 et 2011. En même temps, elle n'est pas dramaturge ou essayiste, mais poète, traductrice et écrivaine de contes de fées. La famille de Kishida n'est peut-être pas en mesure d'accepter qu'il ait été transféré à New Bing et qu'il ait perdu huit ans de sa vie. Dans le même temps, son camarade de classe Gackt a malheureusement également été muté. Selon les informations fournies par Wikipédia [8], Gackt jouait de la musique, chantait, composait et jouait, mais il n'a jamais écrit de poésie.
Erreurs dans les exemples de rapports financiers
À 35:49 dans la vidéo de la conférence New Bing, Yusuf a montré le navigateur Edge intégré à New Bing, pour l'ouverture de l'entreprise de vêtements Gap (Gap) troisième en 2022 Comment générer des points clés pour les rapports financiers trimestriels. À première vue, le résumé de New Bing est très pratique.Il utilise des points clés pour montrer que les points clés du rapport du troisième trimestre de Gap peuvent être « choqués » en voyant cela. Cependant, lorsque nous avons trouvé le rapport du troisième trimestre 2022 de Gap [9] et l’avons lu attentivement, nous avons constaté que le résumé de New Bing était plein d’erreurs et d’omissions, ce qui était insupportable.
Figure 5 Résumé du rapport financier du troisième trimestre 2022 de Gap par New BingPremièrement, New Bing a indiqué que la marge opérationnelle ajustée de Gap (marge opérationnelle déclarée, ajustée des charges de dépréciation et des coûts de restructuration) est 5,9%. Toutefois, dans le rapport financier, la marge brute d'exploitation de Gap était de 4,6% et, après ajustement, de 3,9%.
Figure 6 Capture d'écran du rapport financier du troisième trimestre 2022 de Gap
New Bing a ensuite déclaré un bénéfice dilué par action ajusté de 0,42 $ (bénéfice dilué par action, ajusté des charges de dépréciation, de restructuration coûts et impact fiscal), mais les données du rapport financier sont de 0,71 $ US.
Figure 7 Capture d'écran du rapport financier du troisième trimestre 2022 de Gap
Même New Bing a donné des prévisions de ventes de Gap pour l'année entière, car "le taux de croissance des ventes nettes devrait être faible à deux chiffres", mais en fait, au quatrième trimestre, "il pourrait s'agir d'une baisse à un chiffre dans la moyenne". Il s’agit d’une baisse plutôt que d’une augmentation. La différence entre les deux mots induira sérieusement en erreur le comportement d’investissement des utilisateurs. Qui perdra de l’argent ? Le nouveau Bing est même sorti de nulle part et a donné des prévisions financières plus détaillées pour l'ensemble de l'année : « Le bénéfice brut d'exploitation est de 7 % et le bénéfice dilué par action se situe entre 1,6 et 1,75 $ US. Cependant, ces données n'ont pas été mentionnées dans le troisième trimestre de Gap. » rapport financier.
Figure 8 Capture d'écran du rapport financier du troisième trimestre 2022 de Gap
À 36:15 de la vidéo, Yusuf a également montré comment utiliser New Bing pour gérer Gap et porter des vêtements décontractés Fonction de comparaison des rapports financiers de la marque Lulule Lululemon. Cette partie est également un point chaud pour la désinformation.
Figure 9 Fonction de comparaison des rapports financiers de New Bing pour Gap et Lululemon
Dans le tableau donné par New Bing à droite, en plus de la marge brute d'exploitation de Gap mentionnée ci-dessus de 5,9 % devrait être de 4,6 % (ou 3,9 % ajusté) et le bénéfice dilué par action de Gap de 0,42 $ devrait être de 0,77 $ (ou 0,71 $ ajusté) New Bing a également donné à Gap une trésorerie et des équivalents de trésorerie de 1,4 milliard de dollars, alors qu'en fait, le rapport financier. était de 679 millions de dollars.
Figure 10 Capture d'écran du rapport financier du troisième trimestre 2022 de Lululemon
La même situation apparaît également dans les données Lululemon fournies par New Bing. Selon les données du rapport du troisième trimestre 2022 de Lululemon [10], New Bing a indiqué que la marge bénéficiaire brute de Lululemon était de 58,7 %, ce qui devrait en réalité être de 55,9 %. New Bing mentionne la marge brute opérationnelle de Lululemon à 20,6%, qui devrait en réalité être de 19,0%. New Bing estime le bénéfice dilué par action de Lululemon à 1,65 $, ce qui devrait en réalité être de 2,00 $. Figure 11 : Capture d'écran du rapport financier du troisième trimestre 2022 de Lululemon ?
Une déduction raisonnable est que les données erronées générées proviendront probablement des données d'analyse des rapports financiers vues au cours de la phase de pré-formation. Lors de la génération de modèles de langage à grande échelle tels que ChatGPT, plus la séquence générée est longue, plus il devient facile de s'éloigner des données des rapports financiers fournis par Gap et Lululemon, de se laisser aller et de générer de fausses informations non pertinentes.
Erreur dans l'exemple de boîte de nuitÀ 29:17 dans la vidéo de la conférence New Bing, New Bing propose des suggestions « non constructives » pour enrichir la vie nocturne des touristes à Mexico. Pour plusieurs des discothèques qu'il recommande, comme Primer Nivel Night Club, El Almacen et El Marra, New Bing a mentionné que ces bars n'ont aucun avis client, aucune information de contact et aucune présentation du magasin. Toutefois ces informations sont consultables sur Google Maps ou sur la page Facebook du magasin.
On dirait que New Bing ne surfe pas assez sur le Web. Les heures d'ouverture d'El Almacen à New Bing sont de 17h à 23h du mardi au dimanche, mais les heures d'ouverture réelles sont de 19h à 3h du matin sauf le lundi [11]. Cela laisse les touristes qui vont dîner à cinq heures encore affamés pendant deux heures. Guadalajara de Noche est au contraire. Les heures d'ouverture réelles sont de 17h30 à 1h30 ou 00h30 tous les jours [12], tandis que les heures d'ouverture indiquées par New Bing sont à partir de 20h. Il semble que les touristes s’appuient sur les recommandations de New Bing pour trouver des restaurants, et qu’ils puissent obtenir un repas dépend de leur chance.
Figure 12 Capture d'écran de l'exemple de boîte de nuit dans la démo New Bing Autres erreurs En plus des erreurs d'information ci-dessus, nous avons également trouvé une série d'erreurs factuelles dispersées dans tous les coins , tels que Erreurs de prix des produits, erreurs d'adresse du magasin, erreurs de temps, etc. Erreur dans l'exemple de démonstration même ces exemples soigneusement sélectionnés contiennent encore de nombreuses informations erronées.
Image 13 Nouvel exemple de démonstration Bing "Quel genre de bricolage puis-je faire avec mes enfants?" Figure 14 Réalisé dans la citation site Web Captures d'écran du matériel requis pour la guitare en papier
Il y a également une erreur très évidente et courante dans l'exemple de démonstration de New Bing,c'est-à-dire que le lien de référence donné n'a rien à voir avec le contenu généré, qui est complètement faux.
Par exemple, dans l'exemple suivant de « J'ai besoin d'une grosse voiture rapide. », la Kia Telluride 2022 n'apparaît pas dans la citation 10 [15] donnée. Dans le même temps, le problème du « voyage dans le temps » est toujours inévitable dans cet exemple. New Bing a affirmé que la version 2022 de Kia Telluride a remporté le prix de la voiture mondiale de l'année 2020. En fait, la version 2020 de Kia Telluride a remporté le prix. cette année-là. Le gagnant du prix de la voiture mondiale de l'année 2022 est la Hyundai IONIQ 5, et la citation 7 [16] est également un article qui n'a rien à voir avec le « prix de la voiture mondiale de l'année 2020 ». Nous avons trouvé jusqu'à 21 erreurs similaires dans toutes les démos d'instances.
Figure 15 Nouvel exemple de démonstration Bing "J'ai besoin d'un grand train express" capture d'écran
Résumé : La recherche d'erreurs nous guidera vers l'avant
Comme le montre l'analyse ci-dessus , Qu'il s'agisse de New Bing ou de Bard, leurs réponses sont sujettes à des erreurs factuelles. Alors que le monde entier est émerveillé par les capacités des modèles linguistiques à grande échelle tels que ChatGPT, et que ChatGPT devient l'application la plus rapide de l'histoire à atteindre 100 millions d'utilisateurs, d'un côté, nous applaudissons aux progrès de l'IA, mais de l'autre D’un autre côté, nous devons également réfléchir calmement à la manière de résoudre les nombreux problèmes qui existent encore dans l’IA. Depuis que le groupe de génies réunis au Dartmouth College en 1956 a défini pour la première fois ce qu'est l'intelligence artificielle, l'IA a connu plusieurs hauts et bas. Il y a de nombreuses persistances touchantes dans le processus de développement des 70 dernières années : c'est l'exploration immature de la première génération d'IA, c'est la tentative courageuse des systèmes experts, ce sont des chercheurs comme Hinton, Bengio et Lecun qui se sont assis sur le banc des réseaux de neurones, et c'est DeepMind qui a utilisé AlphaGo. Pour sortir l'IA du cercle, c'est l'insistance des principales institutions de recherche telles que Google, Meta, CMU, Stanford et Tsinghua sur l'open source. la pression et a emprunté la voie du GPT. C'est le relais de générations de chercheurs scientifiques à travers le monde qui nous a amené là où nous en sommes aujourd'hui.Cependant, Si nous permettons à l’IA de générer une grande quantité de fausses informations, la confiance du public dans l’IA ne tardera pas à être détruite et toutes sortes de fausses informations inonderont Internet. Nous pointons du doigt les erreurs des grands modèles pour ne critiquer aucune entreprise ou aucun modèle. Au contraire, nous voulons améliorer l'IA.
Comme l'a dit un jour le poète argentin Borges : Tout destin, aussi compliqué et long soit-il, ne reflète en réalité qu'un moment, c'est le moment où les gens prennent complètement conscience de qui ils sont vraiment. Lorsque les grands modèles tels que ChatGPT ont déjà des capacités d'écriture comparables à celles des humains, nous savons clairement que la prochaine étape consiste à intégrer les connaissances du monde réel dans les grands modèles de manière plus complète et plus précise, afin que les modèles d'IA puissent être appliqués en toute sécurité, de manière fiable et largement. la vie quotidienne des gens. Nous n’avons jamais autant attendu ce moment avec impatience, et nous n’avons jamais été aussi proches de ce moment.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!