Il n’est pas surprenant que l’IA ne fasse pas toujours les choses correctement. Parfois, il a même des hallucinations. Cependant, une étude récente menée par des chercheurs d'Apple a montré des défauts encore plus importants dans les modèles mathématiques utilisés par l'IA pour le raisonnement formel.
✕ Supprimer les publicitésDans le cadre de l'étude, les scientifiques d'Apple ont interrogé un modèle de langage étendu de l'IA. (LLM) une question, plusieurs fois, de manières légèrement différentes, et ont été stupéfaits lorsqu'ils ont découvert que le LLM offrait des variations inattendues dans les réponses. Ces variations étaient plus importantes lorsque des chiffres étaient impliqués.
La recherche, publiée par arxiv.org, a conclu qu'il y avait « une variabilité significative des performances entre différentes instanciations de la même question, remettant en question la fiabilité des résultats actuels du GSM8K qui reposent sur des mesures de précision en un seul point. GSM8K est un ensemble de données qui comprend plus de 8 000 questions et réponses mathématiques diverses pour les écoles primaires.
✕ Supprimer les publicitésLes chercheurs Apple ont identifié que l'écart dans ces performances pourrait atteindre 10 %. Et même de légères variations dans les invites peuvent causer des problèmes colossaux avec la fiabilité des réponses du LLM.
En d’autres termes, vous souhaiterez peut-être vérifier vos réponses chaque fois que vous utilisez quelque chose comme ChatGPT. En effet, même s'il semble parfois que l'IA utilise la logique pour vous donner des réponses à vos questions, ce n'est pas la logique qui est utilisée.
L'IA s'appuie plutôt sur la reconnaissance de formes pour fournir des réponses aux invites. Cependant, l'étude Apple montre comment la modification de quelques mots sans importance peut altérer cette reconnaissance de formes.
Un exemple de l'écart critique présenté est dû à un problème de collecte de kiwis sur plusieurs jours. Les chercheurs Apple ont mené une expérience de contrôle, puis ont ajouté des informations sans conséquence sur la taille du kiwi.
✕ Supprimer les publicitésLe lama de Meta et l'o1 d'OpenAI, ont ensuite modifié leurs réponses au problème du contrôle malgré que les données sur la taille des kiwis n'aient aucune influence tangible sur l'issue du problème. Le GPT-4o d'OpenAI a également rencontré des problèmes de performances lors de l'introduction de minuscules variations dans les données fournies au LLM.
Étant donné que les LLM deviennent de plus en plus importants dans notre culture, cette nouvelle soulève une énorme inquiétude quant à savoir si nous pouvons faire confiance à l'IA. pour apporter des réponses précises à nos demandes. Surtout pour des questions comme les conseils financiers. Cela renforce également la nécessité de vérifier avec précision les informations que vous recevez lorsque vous utilisez de grands modèles linguistiques.
Cela signifie que vous devrez faire preuve de réflexion critique et de diligence raisonnable au lieu de vous fier aveuglément à l'IA. Là encore, si vous utilisez régulièrement l’IA, vous le saviez probablement déjà.
✕ Supprimer les publicitésCe qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!