"Le langage ne véhicule qu'une petite partie de toutes les connaissances humaines ; la plupart des connaissances humaines et toutes les connaissances animales sont non linguistiques ; par conséquent, les grands modèles de langage ne peuvent pas approcher l'intelligence humaine", déclare Yann LeCun, lauréat du prix Turing. les perspectives de l’intelligence artificielle.
Hier, son nouvel article co-écrit avec le postdoctorant de l'Université de New York Jacob Browning a été publié dans NOEMA, suscitant des discussions.
Dans l'article, l'auteur discute du modèle de langage à grande échelle actuellement populaire et estime qu'il a des limites évidentes. L’orientation des efforts futurs dans le domaine de l’IA pourrait être de donner la priorité aux machines dans la compréhension d’autres niveaux de connaissances dans le monde réel.
Voyons ce qu’ils ont à dire.
Il y a quelque temps, Blake Lemoine, ancien chercheur en éthique de l'IA chez Google, affirmait que le chatbot IA LaMDA était aussi conscient qu'un humain, ce qui a provoqué un tollé dans le domaine.
LaMDA est en fait un Large Language Model (LLM) conçu pour prédire le prochain mot possible pour un texte donné. Étant donné que de nombreuses conversations sont prévisibles dans une certaine mesure, ces systèmes peuvent déduire comment maintenir l’efficacité de la conversation. LaMDA fait un si bon travail dans ce genre de tâche que Blake Lemoine a commencé à se demander si l’IA avait une « conscience ».
Les chercheurs dans le domaine ont des points de vue différents sur cette question : certaines personnes se moquent de l'idée que les machines soient conscientes ; d'autres pensent que le modèle LaMDA pourrait ne pas l'être, mais le prochain modèle pourrait être conscient. D'autres soulignent qu'il n'est pas difficile pour les machines de « tromper » les humains.
La diversité des réponses met en évidence un problème plus profond : à mesure que les LLM deviennent plus courants et plus puissants, il semble de plus en plus difficile de s'entendre sur nos points de vue sur ces modèles. Au fil des années, ces systèmes ont dépassé de nombreux critères de raisonnement linguistique fondés sur le « bon sens », mais ces systèmes semblent faire preuve de peu de bon sens lorsqu'ils sont testés, et sont même enclins à des absurdités et à faire des suggestions illogiques et dangereuses. Cela soulève une question troublante : comment ces systèmes peuvent-ils être si intelligents tout en ayant des capacités aussi limitées ?
En fait, le problème le plus fondamental n'est pas l'intelligence artificielle, mais la limitation du langage. Une fois que nous abandonnons l’hypothèse du lien entre la conscience et le langage, ces systèmes sont destinés à n’avoir qu’une compréhension superficielle du monde et ne se rapprochent jamais de la « pensée globale » des humains. En bref, même si ces modèles comptent déjà parmi les systèmes d’IA les plus impressionnants de la planète, ces systèmes d’IA ne seront jamais aussi intelligents que nous, les humains.
Pendant une grande partie des XIXe et XXe siècles, un thème majeur de la philosophie et des sciences était : la connaissance n'est qu'un langage. Cela signifie que comprendre une chose nécessite uniquement de comprendre le contenu d’une phrase et de relier cette phrase à d’autres phrases. Selon cette logique, la forme idéale du langage serait une forme logico-mathématique composée de symboles arbitraires reliés par des règles d’inférence strictes.
Le philosophe Wittgenstein a déclaré : « La somme totale des propositions vraies est la science naturelle. » Cette position a été établie au 20e siècle et a ensuite suscité de nombreuses controverses.
Certains intellectuels très instruits soutiennent encore : « Tout ce que nous pouvons savoir peut être contenu dans une encyclopédie, donc le simple fait de lire tout le contenu de l'encyclopédie nous donnera une compréhension globale de tout. Comprendre. une grande partie des premiers travaux sur l’IA symbolique, qui incluaient le traitement symbolique comme paradigme par défaut. Pour ces chercheurs, les connaissances de l'IA consistent en de grandes bases de données de phrases réelles reliées les unes aux autres par une logique créée à la main. L'objectif du système d'IA est de produire la bonne phrase au bon moment, c'est-à-dire de traiter les symboles de manière cohérente. manière appropriée.
Ce concept est à la base du test de Turing : si une machine « dit » tout ce qu'elle est censée dire, cela signifie qu'elle sait ce qu'elle dit car elle connaît les phrases correctes et quand les utiliser. connaissances en intelligence artificielle.
Mais ce point de vue a été sévèrement critiqué. Le contre-argument est que ce n’est pas parce qu’une machine peut parler de choses qu’elle comprend ce qui est dit. En effet, le langage n’est qu’une représentation très spécifique et très limitée de la connaissance. Tous les langages, qu'il s'agisse de langages de programmation, de langages de logique symbolique ou de langage parlé de tous les jours, permettent un type spécifique de mode de représentation ; ils sont efficaces pour exprimer des objets et des propriétés discrets ainsi que les relations entre eux à un très haut niveau d'abstraction.
Cependant, tous les modes de représentation impliquent la compression d'informations sur les choses, mais diffèrent par ce qui reste et ce qui est laissé de côté dans la compression. Le mode de représentation du langage peut manquer certaines informations spécifiques, comme la description de formes irrégulières, le mouvement des objets, les fonctions de mécanismes complexes ou les coups de pinceau méticuleux dans les peintures, etc. Certains schémas de représentation non linguistiques peuvent exprimer ces informations de manière facile à comprendre, notamment les connaissances iconiques, les connaissances distribuées, etc.
Pour comprendre les lacunes du modèle de représentation du langage, nous devons d'abord réaliser la quantité d'informations que le langage véhicule. En fait, le langage est une méthode de transmission d’informations à très faible bande passante, en particulier lorsque des mots ou des phrases isolés véhiculent peu d’informations sans contexte. De plus, le sens de nombreuses phrases est très ambigu en raison du grand nombre d’homophones et de pronoms. Comme l’ont souligné des chercheurs tels que Chomsky : « La langue n’est pas un outil de communication clair et sans ambiguïté.
Mais les humains n’ont pas besoin d’outils de communication parfaits car nous partageons un système de compréhension du langage non verbal. Notre compréhension d'une phrase dépend souvent d'une compréhension approfondie du contexte dans lequel la phrase est placée, nous permettant de déduire le sens de l'expression linguistique. Nous parlons souvent directement du sujet en question, comme un match de football. Ou communiquer avec un rôle social dans une situation, comme commander de la nourriture à un serveur.
Il en va de même pour la lecture de passages de texte, une tâche qui compromet l'accès de l'IA au bon sens, mais qui constitue un moyen populaire d'enseigner aux enfants des compétences de compréhension en lecture sans contexte. Cette approche se concentre sur l’utilisation de stratégies générales de compréhension en lecture pour comprendre un texte, mais la recherche montre que la quantité de connaissances de base qu’un enfant possède sur le sujet est en réalité un facteur clé de compréhension. Comprendre si une phrase ou un paragraphe est correct ou non dépend d'une compréhension de base du sujet.
"Il est clair que ces systèmes sont coincés dans une compréhension superficielle et ne se rapprocheront jamais de l'éventail complet de la pensée humaine."
La nature contextuelle inhérente des mots et des phrases est au cœur du travail de LLM. Les réseaux de neurones représentent généralement la connaissance comme un savoir-faire, c'est-à-dire la capacité compétente à saisir des modèles hautement sensibles au contexte et à résumer des régularités (concrètes et abstraites) qui sont nécessaires pour traiter les entrées de manière élaborée mais ne conviennent qu'à des besoins limités. tâches .
Dans LLM, il s'agit du système identifiant des modèles à plusieurs niveaux du texte existant, en voyant à la fois comment les mots sont connectés dans un paragraphe et comment les phrases sont connectées dans les paragraphes plus larges qui les composent ensemble. Le résultat est que la compréhension du langage par un modèle est inévitablement sensible au contexte. Chaque mot est compris non pas selon sa signification dans le dictionnaire, mais selon son rôle dans diverses phrases. Étant donné que de nombreux mots, tels que « carburateur », « menu », « réglage » ou « électronique », sont utilisés presque exclusivement dans des domaines spécifiques, même une phrase isolée contenant l'un de ces mots sera, comme on pouvait s'y attendre, hors de son contexte.
En bref, LLM est formé pour comprendre les connaissances de base de chaque phrase, en examinant les mots et les phrases environnantes pour reconstituer ce qui se passe. Cela leur donne des possibilités infinies d'utiliser différentes phrases ou expressions comme entrée et de trouver des moyens raisonnables (bien que difficilement parfaits) de poursuivre une conversation ou de remplir le reste d'un article. Un système formé aux paragraphes écrits par des humains destinés à être utilisés dans la communication quotidienne doit posséder la compréhension générale nécessaire pour pouvoir tenir des conversations de haute qualité.
Certaines personnes sont réticentes à utiliser le mot « compréhension » dans ce contexte ou à appeler le LLM « intelligence ». On ne peut pas dire que la compréhension sémantique ait encore convaincu qui que ce soit. Les critiques accusent ces systèmes d’être une forme d’imitation – et à juste titre. En effet, la compréhension du langage par LLM, bien qu'impressionnante, est superficielle. Cette prise de conscience superficielle semble familière : des salles de classe remplies d’étudiants « parlant du jargon » qui n’ont aucune idée de ce dont ils parlent – imitant en fait leurs professeurs ou le texte qu’ils lisent. Cela fait juste partie de la vie. Nous ne savons souvent pas exactement ce que nous savons, notamment en termes de connaissances acquises grâce à la langue.
LLM acquiert cette compréhension superficielle de tout. Des systèmes comme GPT-3 sont entraînés en masquant une partie d’une phrase ou en prédisant le mot suivant dans un paragraphe, forçant la machine à deviner le mot le plus susceptible de combler le vide et de corriger les suppositions incorrectes. Le système finit par devenir apte à deviner les mots les plus probables, ce qui en fait un système prédictif efficace.
Cela apporte une réelle compréhension : à toute question ou puzzle, il n'y a généralement que quelques bonnes réponses, mais un nombre infini de mauvaises réponses. Cela oblige le système à acquérir des compétences spécifiques à la langue, telles que l'interprétation de blagues, la résolution de problèmes de mots ou la résolution d'énigmes logiques, afin de prédire régulièrement les réponses correctes à ce type de questions.
Ces compétences et connaissances associées permettent aux machines d'expliquer le fonctionnement de choses complexes, de simplifier des concepts difficiles, de réécrire et de raconter des histoires et d'acquérir de nombreuses autres capacités liées au langage. Comme le postule Symbolic AI, au lieu d’une vaste base de données de phrases liées par des règles logiques, les machines représentent les connaissances sous forme de points forts contextuels utilisés pour proposer une phrase suivante raisonnable compte tenu de la ligne précédente.
« Abandonner l'idée que toute connaissance est linguistique nous permet de réaliser à quel point notre connaissance est non verbale. »
Mais la capacité d'expliquer un concept dans le langage est différente de la capacité de l'utiliser réellement. il. Le système peut expliquer comment effectuer une division longue sans être en mesure de le faire, ou il peut expliquer ce qui n'est pas cohérent avec celle-ci et continuer néanmoins à l'expliquer avec plaisir. Les connaissances contextuelles sont intégrées sous une forme - la capacité de verbaliser la connaissance d'une langue - mais pas sous une autre - en tant que compétences sur la façon de faire les choses, comme faire preuve d'empathie ou traiter des questions difficiles avec sensibilité.
Ce dernier type d'expertise est essentiel pour les utilisateurs d'une langue, mais il ne leur permet pas de maîtriser les compétences linguistiques - la composante linguistique n'est pas primordiale. Cela s'applique à de nombreux concepts, même à ceux appris dans les cours et les livres : même si les cours de sciences comportent une composante de cours magistraux, les scores des étudiants sont principalement basés sur leur travail en laboratoire. Surtout en dehors des sciences humaines, être capable de parler de quelque chose n’est souvent pas aussi utile ou important que les compétences de base nécessaires pour faire fonctionner les choses.
Une fois que nous creusons plus profondément, il est facile de voir à quel point ces systèmes sont superficiels : leur capacité d'attention et leurs souvenirs sont à peu près équivalents à un paragraphe. Il est facile de rater cela si nous avons une conversation, car nous avons tendance à nous concentrer sur le ou les deux derniers commentaires et à nous débattre avec la réponse suivante.
Mais le savoir-faire pour des conversations plus complexes – écouter activement, rappeler et revisiter les commentaires précédents, s'en tenir à un sujet pour faire valoir un point spécifique tout en évitant les distractions, etc. – nécessite tous plus que les machines possèdent de l'attention et de la mémoire.
Cela réduit encore davantage le type de choses qu'ils peuvent comprendre : il est facile de les tromper en changeant de sujet, en changeant de langue ou en étant bizarre toutes les quelques minutes. Prenez trop de recul et le système recommencera à zéro, regroupera vos nouveaux points de vue avec d'anciens commentaires, changera de langue de discussion avec vous ou croira tout ce que vous dites. La compréhension nécessaire pour développer une vision cohérente du monde dépasse de loin les capacités des machines.
Abandonner l'idée selon laquelle toute connaissance est linguistique nous fait prendre conscience qu'une partie considérable de nos connaissances est non linguistique. Même si les livres contiennent de nombreuses informations que nous pouvons décompresser et utiliser, il en va de même pour de nombreux autres éléments : les instructions d'IKEA ne prennent même pas la peine d'écrire des légendes à côté des diagrammes, et les chercheurs en IA examinent souvent les diagrammes dans les articles pour comprendre l'architecture du réseau avant de les utiliser. En parcourant le texte, les voyageurs peuvent suivre les lignes rouges ou vertes sur la carte pour naviguer jusqu'à l'endroit où ils souhaitent aller.
Les connaissances vont au-delà des simples icônes, graphiques et cartes. L’humanité a beaucoup appris directement en explorant le monde, en nous montrant ce qui compte et ce que les gens peuvent et ne peuvent pas exprimer. La structure de la matière et l’environnement humain véhiculent visuellement de nombreuses informations : la poignée de porte est à hauteur de main, le manche d’un marteau est plus doux, etc. Les simulations mentales non verbales chez les animaux et les humains sont courantes et utiles pour planifier des scénarios et peuvent être utilisées pour créer ou désosser des artefacts.
De même, en imitant les coutumes et rituels sociaux, nous pouvons enseigner diverses compétences à la prochaine génération, de la préparation de la nourriture et des médicaments au calme pendant les périodes de stress. Une grande partie de nos connaissances culturelles sont emblématiques ou se présentent sous la forme de mouvements précis transmis de praticiens qualifiés à des apprentis. Ces modèles subtils d’informations sont difficiles à exprimer et à transmettre avec des mots, mais restent compréhensibles pour les autres. C’est également le type précis d’informations contextuelles que les réseaux de neurones sont capables de capter et d’affiner.
"Un système entraîné uniquement sur le langage ne se rapprochera jamais de l'intelligence humaine, même s'il est désormais entraîné jusqu'à la mort thermique de l'univers."
Le langage est important car il peut transmettre beaucoup de choses. une information de petit format, notamment avec l'avènement de l'imprimerie et d'Internet, permet la reproduction et la diffusion généralisée du contenu. Mais compresser des informations avec le langage n’est pas sans coût : décoder un passage dense demande beaucoup d’efforts. Les cours de sciences humaines peuvent nécessiter de nombreuses lectures à l'extérieur, une grande partie du temps de classe étant consacrée à la lecture de passages difficiles. Construire une compréhension approfondie prend du temps et est laborieux, mais instructif.
Cela explique pourquoi une machine formée aux langues peut en savoir autant et pourtant ne rien comprendre : elle accède à une petite partie des connaissances humaines à travers un minuscule goulot d'étranglement. Mais cette petite partie de la connaissance humaine peut concerner n'importe quoi, qu'il s'agisse de l'amour ou de l'astrophysique. C'est donc un peu comme un miroir : il donne l'illusion de profondeur et peut refléter presque tout, mais il ne fait qu'un centimètre d'épaisseur. Si nous essayons d’explorer ses profondeurs, nous nous heurterons à un mur.
Cela ne rend pas les machines plus stupides, mais cela montre également qu'il existe des limites inhérentes à leur intelligence peut être. Un système entraîné uniquement sur le langage ne se rapprochera jamais de l’intelligence humaine, même s’il est désormais entraîné jusqu’à la mort thermique de l’univers. C’est une mauvaise façon de construire un système de connaissances. Mais si l’on ne fait qu’effleurer la surface, les machines semblent certainement se rapprocher des humains. Et dans de nombreux cas, la surface suffit. Peu d’entre nous appliquent réellement le test de Turing à d’autres personnes, remettant activement en question leur profondeur de compréhension et les forçant à résoudre des problèmes de multiplication à plusieurs chiffres. La plupart des conversations sont des bavardages.
Cependant, nous ne devons pas confondre la compréhension superficielle du LLM avec ce que les humains ont en observant les merveilles du monde, en l'explorant, en y pratiquant et en interagissant avec les cultures et les autres personnes. La compréhension profonde acquise est floue. Le langage peut être un élément utile pour élargir notre compréhension du monde, mais le langage n’épuise pas l’intelligence, un point que nous comprenons grâce au comportement de nombreuses espèces, telles que les corvidés, les poulpes et les primates.
Au contraire, une compréhension non verbale profonde est une condition nécessaire pour que le langage ait un sens. C’est précisément parce que les humains ont une compréhension profonde du monde que nous pouvons rapidement comprendre ce que disent les autres. Cet apprentissage et ces connaissances plus larges et sensibles au contexte constituent un savoir plus fondamental et plus ancien qui sous-tend l’émergence de la sensibilité physique et biologique, rendant possible la survie et la prospérité.
C'est également la tâche la plus importante sur laquelle se concentrent les chercheurs en intelligence artificielle lorsqu'ils recherchent le bon sens en matière d'intelligence artificielle. Les LLM n'ont pas de corps ni de monde stable à percevoir - donc leurs connaissances commencent et se terminent davantage par des mots, et ce bon sens est toujours superficiel. L’objectif est que les systèmes d’IA se concentrent sur le monde dont ils parlent plutôt que sur les mots eux-mêmes, mais LLM ne saisit pas la différence. Cette compréhension profonde ne peut être approchée par les seuls mots, ce qui est la mauvaise direction à prendre.
La vaste expérience des humains traitant divers grands modèles de langage montre clairement combien peu peut être obtenu de la parole seule.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!