Yann LeCun affirme que les modèles géants ne peuvent pas atteindre l'objectif de se rapprocher de l'intelligence humaine-IA-php.cn

Table des matières

Les limites du langage

Compréhension superficielle

Au-delà du langage

Faites ce qu'il faut

Maison

Périphériques technologiques

Yann LeCun affirme que les modèles géants ne peuvent pas atteindre l'objectif de se rapprocher de l'intelligence humaine

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

May 06, 2023 pm 09:37 PM

人工智能模型

"Le langage ne véhicule qu'une petite partie de toutes les connaissances humaines ; la plupart des connaissances humaines et toutes les connaissances animales sont non linguistiques ; par conséquent, les grands modèles de langage ne peuvent pas approcher l'intelligence humaine", déclare Yann LeCun, lauréat du prix Turing. les perspectives de l’intelligence artificielle.

Yann LeCun：大模型方向错了，智力无法接近人类

Hier, son nouvel article co-écrit avec le postdoctorant de l'Université de New York Jacob Browning a été publié dans NOEMA, suscitant des discussions.

Dans l'article, l'auteur discute du modèle de langage à grande échelle actuellement populaire et estime qu'il a des limites évidentes. L’orientation des efforts futurs dans le domaine de l’IA pourrait être de donner la priorité aux machines dans la compréhension d’autres niveaux de connaissances dans le monde réel.

Voyons ce qu’ils ont à dire.

Il y a quelque temps, Blake Lemoine, ancien chercheur en éthique de l'IA chez Google, affirmait que le chatbot IA LaMDA était aussi conscient qu'un humain, ce qui a provoqué un tollé dans le domaine.

LaMDA est en fait un Large Language Model (LLM) conçu pour prédire le prochain mot possible pour un texte donné. Étant donné que de nombreuses conversations sont prévisibles dans une certaine mesure, ces systèmes peuvent déduire comment maintenir l’efficacité de la conversation. LaMDA fait un si bon travail dans ce genre de tâche que Blake Lemoine a commencé à se demander si l’IA avait une « conscience ».

Les chercheurs dans le domaine ont des points de vue différents sur cette question : certaines personnes se moquent de l'idée que les machines soient conscientes ; d'autres pensent que le modèle LaMDA pourrait ne pas l'être, mais le prochain modèle pourrait être conscient. D'autres soulignent qu'il n'est pas difficile pour les machines de « tromper » les humains.

La diversité des réponses met en évidence un problème plus profond : à mesure que les LLM deviennent plus courants et plus puissants, il semble de plus en plus difficile de s'entendre sur nos points de vue sur ces modèles. Au fil des années, ces systèmes ont dépassé de nombreux critères de raisonnement linguistique fondés sur le « bon sens », mais ces systèmes semblent faire preuve de peu de bon sens lorsqu'ils sont testés, et sont même enclins à des absurdités et à faire des suggestions illogiques et dangereuses. Cela soulève une question troublante : comment ces systèmes peuvent-ils être si intelligents tout en ayant des capacités aussi limitées ?

En fait, le problème le plus fondamental n'est pas l'intelligence artificielle, mais la limitation du langage. Une fois que nous abandonnons l’hypothèse du lien entre la conscience et le langage, ces systèmes sont destinés à n’avoir qu’une compréhension superficielle du monde et ne se rapprochent jamais de la « pensée globale » des humains. En bref, même si ces modèles comptent déjà parmi les systèmes d’IA les plus impressionnants de la planète, ces systèmes d’IA ne seront jamais aussi intelligents que nous, les humains.

Pendant une grande partie des XIXe et XXe siècles, un thème majeur de la philosophie et des sciences était : la connaissance n'est qu'un langage. Cela signifie que comprendre une chose nécessite uniquement de comprendre le contenu d’une phrase et de relier cette phrase à d’autres phrases. Selon cette logique, la forme idéale du langage serait une forme logico-mathématique composée de symboles arbitraires reliés par des règles d’inférence strictes.

Le philosophe Wittgenstein a déclaré : « La somme totale des propositions vraies est la science naturelle. » Cette position a été établie au 20e siècle et a ensuite suscité de nombreuses controverses.

Certains intellectuels très instruits soutiennent encore : « Tout ce que nous pouvons savoir peut être contenu dans une encyclopédie, donc le simple fait de lire tout le contenu de l'encyclopédie nous donnera une compréhension globale de tout. Comprendre. une grande partie des premiers travaux sur l’IA symbolique, qui incluaient le traitement symbolique comme paradigme par défaut. Pour ces chercheurs, les connaissances de l'IA consistent en de grandes bases de données de phrases réelles reliées les unes aux autres par une logique créée à la main. L'objectif du système d'IA est de produire la bonne phrase au bon moment, c'est-à-dire de traiter les symboles de manière cohérente. manière appropriée.

Ce concept est à la base du test de Turing : si une machine « dit » tout ce qu'elle est censée dire, cela signifie qu'elle sait ce qu'elle dit car elle connaît les phrases correctes et quand les utiliser. connaissances en intelligence artificielle.

Mais ce point de vue a été sévèrement critiqué. Le contre-argument est que ce n’est pas parce qu’une machine peut parler de choses qu’elle comprend ce qui est dit. En effet, le langage n’est qu’une représentation très spécifique et très limitée de la connaissance. Tous les langages, qu'il s'agisse de langages de programmation, de langages de logique symbolique ou de langage parlé de tous les jours, permettent un type spécifique de mode de représentation ; ils sont efficaces pour exprimer des objets et des propriétés discrets ainsi que les relations entre eux à un très haut niveau d'abstraction.

Cependant, tous les modes de représentation impliquent la compression d'informations sur les choses, mais diffèrent par ce qui reste et ce qui est laissé de côté dans la compression. Le mode de représentation du langage peut manquer certaines informations spécifiques, comme la description de formes irrégulières, le mouvement des objets, les fonctions de mécanismes complexes ou les coups de pinceau méticuleux dans les peintures, etc. Certains schémas de représentation non linguistiques peuvent exprimer ces informations de manière facile à comprendre, notamment les connaissances iconiques, les connaissances distribuées, etc.

Les limites du langage

Pour comprendre les lacunes du modèle de représentation du langage, nous devons d'abord réaliser la quantité d'informations que le langage véhicule. En fait, le langage est une méthode de transmission d’informations à très faible bande passante, en particulier lorsque des mots ou des phrases isolés véhiculent peu d’informations sans contexte. De plus, le sens de nombreuses phrases est très ambigu en raison du grand nombre d’homophones et de pronoms. Comme l’ont souligné des chercheurs tels que Chomsky : « La langue n’est pas un outil de communication clair et sans ambiguïté.

Mais les humains n’ont pas besoin d’outils de communication parfaits car nous partageons un système de compréhension du langage non verbal. Notre compréhension d'une phrase dépend souvent d'une compréhension approfondie du contexte dans lequel la phrase est placée, nous permettant de déduire le sens de l'expression linguistique. Nous parlons souvent directement du sujet en question, comme un match de football. Ou communiquer avec un rôle social dans une situation, comme commander de la nourriture à un serveur.

Il en va de même pour la lecture de passages de texte, une tâche qui compromet l'accès de l'IA au bon sens, mais qui constitue un moyen populaire d'enseigner aux enfants des compétences de compréhension en lecture sans contexte. Cette approche se concentre sur l’utilisation de stratégies générales de compréhension en lecture pour comprendre un texte, mais la recherche montre que la quantité de connaissances de base qu’un enfant possède sur le sujet est en réalité un facteur clé de compréhension. Comprendre si une phrase ou un paragraphe est correct ou non dépend d'une compréhension de base du sujet.

"Il est clair que ces systèmes sont coincés dans une compréhension superficielle et ne se rapprocheront jamais de l'éventail complet de la pensée humaine."

La nature contextuelle inhérente des mots et des phrases est au cœur du travail de LLM. Les réseaux de neurones représentent généralement la connaissance comme un savoir-faire, c'est-à-dire la capacité compétente à saisir des modèles hautement sensibles au contexte et à résumer des régularités (concrètes et abstraites) qui sont nécessaires pour traiter les entrées de manière élaborée mais ne conviennent qu'à des besoins limités. tâches .

Dans LLM, il s'agit du système identifiant des modèles à plusieurs niveaux du texte existant, en voyant à la fois comment les mots sont connectés dans un paragraphe et comment les phrases sont connectées dans les paragraphes plus larges qui les composent ensemble. Le résultat est que la compréhension du langage par un modèle est inévitablement sensible au contexte. Chaque mot est compris non pas selon sa signification dans le dictionnaire, mais selon son rôle dans diverses phrases. Étant donné que de nombreux mots, tels que « carburateur », « menu », « réglage » ou « électronique », sont utilisés presque exclusivement dans des domaines spécifiques, même une phrase isolée contenant l'un de ces mots sera, comme on pouvait s'y attendre, hors de son contexte.

En bref, LLM est formé pour comprendre les connaissances de base de chaque phrase, en examinant les mots et les phrases environnantes pour reconstituer ce qui se passe. Cela leur donne des possibilités infinies d'utiliser différentes phrases ou expressions comme entrée et de trouver des moyens raisonnables (bien que difficilement parfaits) de poursuivre une conversation ou de remplir le reste d'un article. Un système formé aux paragraphes écrits par des humains destinés à être utilisés dans la communication quotidienne doit posséder la compréhension générale nécessaire pour pouvoir tenir des conversations de haute qualité.

Compréhension superficielle

Certaines personnes sont réticentes à utiliser le mot « compréhension » dans ce contexte ou à appeler le LLM « intelligence ». On ne peut pas dire que la compréhension sémantique ait encore convaincu qui que ce soit. Les critiques accusent ces systèmes d’être une forme d’imitation – et à juste titre. En effet, la compréhension du langage par LLM, bien qu'impressionnante, est superficielle. Cette prise de conscience superficielle semble familière : des salles de classe remplies d’étudiants « parlant du jargon » qui n’ont aucune idée de ce dont ils parlent – imitant en fait leurs professeurs ou le texte qu’ils lisent. Cela fait juste partie de la vie. Nous ne savons souvent pas exactement ce que nous savons, notamment en termes de connaissances acquises grâce à la langue.

LLM acquiert cette compréhension superficielle de tout. Des systèmes comme GPT-3 sont entraînés en masquant une partie d’une phrase ou en prédisant le mot suivant dans un paragraphe, forçant la machine à deviner le mot le plus susceptible de combler le vide et de corriger les suppositions incorrectes. Le système finit par devenir apte à deviner les mots les plus probables, ce qui en fait un système prédictif efficace.

Cela apporte une réelle compréhension : à toute question ou puzzle, il n'y a généralement que quelques bonnes réponses, mais un nombre infini de mauvaises réponses. Cela oblige le système à acquérir des compétences spécifiques à la langue, telles que l'interprétation de blagues, la résolution de problèmes de mots ou la résolution d'énigmes logiques, afin de prédire régulièrement les réponses correctes à ce type de questions.

Ces compétences et connaissances associées permettent aux machines d'expliquer le fonctionnement de choses complexes, de simplifier des concepts difficiles, de réécrire et de raconter des histoires et d'acquérir de nombreuses autres capacités liées au langage. Comme le postule Symbolic AI, au lieu d’une vaste base de données de phrases liées par des règles logiques, les machines représentent les connaissances sous forme de points forts contextuels utilisés pour proposer une phrase suivante raisonnable compte tenu de la ligne précédente.

« Abandonner l'idée que toute connaissance est linguistique nous permet de réaliser à quel point notre connaissance est non verbale. »

Mais la capacité d'expliquer un concept dans le langage est différente de la capacité de l'utiliser réellement. il. Le système peut expliquer comment effectuer une division longue sans être en mesure de le faire, ou il peut expliquer ce qui n'est pas cohérent avec celle-ci et continuer néanmoins à l'expliquer avec plaisir. Les connaissances contextuelles sont intégrées sous une forme - la capacité de verbaliser la connaissance d'une langue - mais pas sous une autre - en tant que compétences sur la façon de faire les choses, comme faire preuve d'empathie ou traiter des questions difficiles avec sensibilité.

Ce dernier type d'expertise est essentiel pour les utilisateurs d'une langue, mais il ne leur permet pas de maîtriser les compétences linguistiques - la composante linguistique n'est pas primordiale. Cela s'applique à de nombreux concepts, même à ceux appris dans les cours et les livres : même si les cours de sciences comportent une composante de cours magistraux, les scores des étudiants sont principalement basés sur leur travail en laboratoire. Surtout en dehors des sciences humaines, être capable de parler de quelque chose n’est souvent pas aussi utile ou important que les compétences de base nécessaires pour faire fonctionner les choses.

Une fois que nous creusons plus profondément, il est facile de voir à quel point ces systèmes sont superficiels : leur capacité d'attention et leurs souvenirs sont à peu près équivalents à un paragraphe. Il est facile de rater cela si nous avons une conversation, car nous avons tendance à nous concentrer sur le ou les deux derniers commentaires et à nous débattre avec la réponse suivante.

Mais le savoir-faire pour des conversations plus complexes – écouter activement, rappeler et revisiter les commentaires précédents, s'en tenir à un sujet pour faire valoir un point spécifique tout en évitant les distractions, etc. – nécessite tous plus que les machines possèdent de l'attention et de la mémoire.

Cela réduit encore davantage le type de choses qu'ils peuvent comprendre : il est facile de les tromper en changeant de sujet, en changeant de langue ou en étant bizarre toutes les quelques minutes. Prenez trop de recul et le système recommencera à zéro, regroupera vos nouveaux points de vue avec d'anciens commentaires, changera de langue de discussion avec vous ou croira tout ce que vous dites. La compréhension nécessaire pour développer une vision cohérente du monde dépasse de loin les capacités des machines.

Au-delà du langage

Abandonner l'idée selon laquelle toute connaissance est linguistique nous fait prendre conscience qu'une partie considérable de nos connaissances est non linguistique. Même si les livres contiennent de nombreuses informations que nous pouvons décompresser et utiliser, il en va de même pour de nombreux autres éléments : les instructions d'IKEA ne prennent même pas la peine d'écrire des légendes à côté des diagrammes, et les chercheurs en IA examinent souvent les diagrammes dans les articles pour comprendre l'architecture du réseau avant de les utiliser. En parcourant le texte, les voyageurs peuvent suivre les lignes rouges ou vertes sur la carte pour naviguer jusqu'à l'endroit où ils souhaitent aller.

Les connaissances vont au-delà des simples icônes, graphiques et cartes. L’humanité a beaucoup appris directement en explorant le monde, en nous montrant ce qui compte et ce que les gens peuvent et ne peuvent pas exprimer. La structure de la matière et l’environnement humain véhiculent visuellement de nombreuses informations : la poignée de porte est à hauteur de main, le manche d’un marteau est plus doux, etc. Les simulations mentales non verbales chez les animaux et les humains sont courantes et utiles pour planifier des scénarios et peuvent être utilisées pour créer ou désosser des artefacts.

De même, en imitant les coutumes et rituels sociaux, nous pouvons enseigner diverses compétences à la prochaine génération, de la préparation de la nourriture et des médicaments au calme pendant les périodes de stress. Une grande partie de nos connaissances culturelles sont emblématiques ou se présentent sous la forme de mouvements précis transmis de praticiens qualifiés à des apprentis. Ces modèles subtils d’informations sont difficiles à exprimer et à transmettre avec des mots, mais restent compréhensibles pour les autres. C’est également le type précis d’informations contextuelles que les réseaux de neurones sont capables de capter et d’affiner.

"Un système entraîné uniquement sur le langage ne se rapprochera jamais de l'intelligence humaine, même s'il est désormais entraîné jusqu'à la mort thermique de l'univers."

Le langage est important car il peut transmettre beaucoup de choses. une information de petit format, notamment avec l'avènement de l'imprimerie et d'Internet, permet la reproduction et la diffusion généralisée du contenu. Mais compresser des informations avec le langage n’est pas sans coût : décoder un passage dense demande beaucoup d’efforts. Les cours de sciences humaines peuvent nécessiter de nombreuses lectures à l'extérieur, une grande partie du temps de classe étant consacrée à la lecture de passages difficiles. Construire une compréhension approfondie prend du temps et est laborieux, mais instructif.

Cela explique pourquoi une machine formée aux langues peut en savoir autant et pourtant ne rien comprendre : elle accède à une petite partie des connaissances humaines à travers un minuscule goulot d'étranglement. Mais cette petite partie de la connaissance humaine peut concerner n'importe quoi, qu'il s'agisse de l'amour ou de l'astrophysique. C'est donc un peu comme un miroir : il donne l'illusion de profondeur et peut refléter presque tout, mais il ne fait qu'un centimètre d'épaisseur. Si nous essayons d’explorer ses profondeurs, nous nous heurterons à un mur.

Faites ce qu'il faut

Cela ne rend pas les machines plus stupides, mais cela montre également qu'il existe des limites inhérentes à leur intelligence peut être. Un système entraîné uniquement sur le langage ne se rapprochera jamais de l’intelligence humaine, même s’il est désormais entraîné jusqu’à la mort thermique de l’univers. C’est une mauvaise façon de construire un système de connaissances. Mais si l’on ne fait qu’effleurer la surface, les machines semblent certainement se rapprocher des humains. Et dans de nombreux cas, la surface suffit. Peu d’entre nous appliquent réellement le test de Turing à d’autres personnes, remettant activement en question leur profondeur de compréhension et les forçant à résoudre des problèmes de multiplication à plusieurs chiffres. La plupart des conversations sont des bavardages.

Cependant, nous ne devons pas confondre la compréhension superficielle du LLM avec ce que les humains ont en observant les merveilles du monde, en l'explorant, en y pratiquant et en interagissant avec les cultures et les autres personnes. La compréhension profonde acquise est floue. Le langage peut être un élément utile pour élargir notre compréhension du monde, mais le langage n’épuise pas l’intelligence, un point que nous comprenons grâce au comportement de nombreuses espèces, telles que les corvidés, les poulpes et les primates.

Au contraire, une compréhension non verbale profonde est une condition nécessaire pour que le langage ait un sens. C’est précisément parce que les humains ont une compréhension profonde du monde que nous pouvons rapidement comprendre ce que disent les autres. Cet apprentissage et ces connaissances plus larges et sensibles au contexte constituent un savoir plus fondamental et plus ancien qui sous-tend l’émergence de la sensibilité physique et biologique, rendant possible la survie et la prospérité.

C'est également la tâche la plus importante sur laquelle se concentrent les chercheurs en intelligence artificielle lorsqu'ils recherchent le bon sens en matière d'intelligence artificielle. Les LLM n'ont pas de corps ni de monde stable à percevoir - donc leurs connaissances commencent et se terminent davantage par des mots, et ce bon sens est toujours superficiel. L’objectif est que les systèmes d’IA se concentrent sur le monde dont ils parlent plutôt que sur les mots eux-mêmes, mais LLM ne saisit pas la différence. Cette compréhension profonde ne peut être approchée par les seuls mots, ce qui est la mauvaise direction à prendre.

La vaste expérience des humains traitant divers grands modèles de langage montre clairement combien peu peut être obtenu de la parole seule.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

1 Il y a quelques semaines By DDD

R.E.P.O. Comment réparer l'audio si vous n'entendez personne

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Comment déverrouiller tout dans Myrise

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7448

Tutoriel CakePHP

1374

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

Afficher plus

Related knowledge

Bytedance Cutting lance le super abonnement SVIP : 499 yuans pour un abonnement annuel continu, offrant une variété de fonctions d'IA Jun 28, 2024 am 03:51 AM

Ce site a rapporté le 27 juin que Jianying est un logiciel de montage vidéo développé par FaceMeng Technology, une filiale de ByteDance. Il s'appuie sur la plateforme Douyin et produit essentiellement du contenu vidéo court pour les utilisateurs de la plateforme. Il est compatible avec iOS, Android et. Windows, MacOS et autres systèmes d'exploitation. Jianying a officiellement annoncé la mise à niveau de son système d'adhésion et a lancé un nouveau SVIP, qui comprend une variété de technologies noires d'IA, telles que la traduction intelligente, la mise en évidence intelligente, l'emballage intelligent, la synthèse humaine numérique, etc. En termes de prix, les frais mensuels pour le clipping SVIP sont de 79 yuans, les frais annuels sont de 599 yuans (attention sur ce site : équivalent à 49,9 yuans par mois), l'abonnement mensuel continu est de 59 yuans par mois et l'abonnement annuel continu est de 59 yuans par mois. est de 499 yuans par an (équivalent à 41,6 yuans par mois) . En outre, le responsable de Cut a également déclaré que afin d'améliorer l'expérience utilisateur, ceux qui se sont abonnés au VIP d'origine

Assistant de codage d'IA augmenté par le contexte utilisant Rag et Sem-Rag Jun 10, 2024 am 11:08 AM

Améliorez la productivité, l’efficacité et la précision des développeurs en intégrant une génération et une mémoire sémantique améliorées par la récupération dans les assistants de codage IA. Traduit de EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG, auteur JanakiramMSV. Bien que les assistants de programmation d'IA de base soient naturellement utiles, ils ne parviennent souvent pas à fournir les suggestions de code les plus pertinentes et les plus correctes, car ils s'appuient sur une compréhension générale du langage logiciel et des modèles d'écriture de logiciels les plus courants. Le code généré par ces assistants de codage est adapté à la résolution des problèmes qu’ils sont chargés de résoudre, mais n’est souvent pas conforme aux normes, conventions et styles de codage des équipes individuelles. Cela aboutit souvent à des suggestions qui doivent être modifiées ou affinées pour que le code soit accepté dans l'application.

Le réglage fin peut-il vraiment permettre au LLM d'apprendre de nouvelles choses : l'introduction de nouvelles connaissances peut amener le modèle à produire davantage d'hallucinations Jun 11, 2024 pm 03:57 PM

Les grands modèles linguistiques (LLM) sont formés sur d'énormes bases de données textuelles, où ils acquièrent de grandes quantités de connaissances du monde réel. Ces connaissances sont intégrées à leurs paramètres et peuvent ensuite être utilisées en cas de besoin. La connaissance de ces modèles est « réifiée » en fin de formation. À la fin de la pré-formation, le modèle arrête effectivement d’apprendre. Alignez ou affinez le modèle pour apprendre à exploiter ces connaissances et répondre plus naturellement aux questions des utilisateurs. Mais parfois, la connaissance du modèle ne suffit pas, et bien que le modèle puisse accéder à du contenu externe via RAG, il est considéré comme bénéfique de l'adapter à de nouveaux domaines grâce à un réglage fin. Ce réglage fin est effectué à l'aide de la contribution d'annotateurs humains ou d'autres créations LLM, où le modèle rencontre des connaissances supplémentaires du monde réel et les intègre.

Aucune donnée OpenAI requise, rejoignez la liste des grands modèles de code ! UIUC publie StarCoder-15B-Instruct Jun 13, 2024 pm 01:59 PM

À la pointe de la technologie logicielle, le groupe de l'UIUC Zhang Lingming, en collaboration avec des chercheurs de l'organisation BigCode, a récemment annoncé le modèle de grand code StarCoder2-15B-Instruct. Cette réalisation innovante a permis une percée significative dans les tâches de génération de code, dépassant avec succès CodeLlama-70B-Instruct et atteignant le sommet de la liste des performances de génération de code. Le caractère unique de StarCoder2-15B-Instruct réside dans sa stratégie d'auto-alignement pur. L'ensemble du processus de formation est ouvert, transparent et complètement autonome et contrôlable. Le modèle génère des milliers d'instructions via StarCoder2-15B en réponse au réglage fin du modèle de base StarCoder-15B sans recourir à des annotations manuelles coûteuses.

Afin de fournir un nouveau système de référence et d'évaluation de questions-réponses scientifiques et complexes pour les grands modèles, l'UNSW, Argonne, l'Université de Chicago et d'autres institutions ont lancé conjointement le cadre SciQAG. Jul 25, 2024 am 06:42 AM

L'ensemble de données ScienceAI Question Answering (QA) joue un rôle essentiel dans la promotion de la recherche sur le traitement du langage naturel (NLP). Des ensembles de données d'assurance qualité de haute qualité peuvent non seulement être utilisés pour affiner les modèles, mais également évaluer efficacement les capacités des grands modèles linguistiques (LLM), en particulier la capacité à comprendre et à raisonner sur les connaissances scientifiques. Bien qu’il existe actuellement de nombreux ensembles de données scientifiques d’assurance qualité couvrant la médecine, la chimie, la biologie et d’autres domaines, ces ensembles de données présentent encore certaines lacunes. Premièrement, le formulaire de données est relativement simple, et la plupart sont des questions à choix multiples. Elles sont faciles à évaluer, mais limitent la plage de sélection des réponses du modèle et ne peuvent pas tester pleinement la capacité du modèle à répondre aux questions scientifiques. En revanche, les questions et réponses ouvertes

Yolov10 : explication détaillée, déploiement et application en un seul endroit ! Jun 07, 2024 pm 12:05 PM

1. Introduction Au cours des dernières années, les YOLO sont devenus le paradigme dominant dans le domaine de la détection d'objets en temps réel en raison de leur équilibre efficace entre le coût de calcul et les performances de détection. Les chercheurs ont exploré la conception architecturale de YOLO, les objectifs d'optimisation, les stratégies d'expansion des données, etc., et ont réalisé des progrès significatifs. Dans le même temps, le recours à la suppression non maximale (NMS) pour le post-traitement entrave le déploiement de bout en bout de YOLO et affecte négativement la latence d'inférence. Dans les YOLO, la conception de divers composants manque d’une inspection complète et approfondie, ce qui entraîne une redondance informatique importante et limite les capacités du modèle. Il offre une efficacité sous-optimale et un potentiel d’amélioration des performances relativement important. Dans ce travail, l'objectif est d'améliorer encore les limites d'efficacité des performances de YOLO à la fois en post-traitement et en architecture de modèle. à cette fin

Les performances de SOTA, la méthode d'IA de prédiction d'affinité protéine-ligand multimodale de Xiamen, combinent pour la première fois des informations sur la surface moléculaire Jul 17, 2024 pm 06:37 PM

Editeur | KX Dans le domaine de la recherche et du développement de médicaments, il est crucial de prédire avec précision et efficacité l'affinité de liaison des protéines et des ligands pour le criblage et l'optimisation des médicaments. Cependant, les études actuelles ne prennent pas en compte le rôle important des informations sur la surface moléculaire dans les interactions protéine-ligand. Sur cette base, des chercheurs de l'Université de Xiamen ont proposé un nouveau cadre d'extraction de caractéristiques multimodales (MFE), qui combine pour la première fois des informations sur la surface des protéines, la structure et la séquence 3D, et utilise un mécanisme d'attention croisée pour comparer différentes modalités. alignement. Les résultats expérimentaux démontrent que cette méthode atteint des performances de pointe dans la prédiction des affinités de liaison protéine-ligand. De plus, les études d’ablation démontrent l’efficacité et la nécessité des informations sur la surface des protéines et de l’alignement des caractéristiques multimodales dans ce cadre. Les recherches connexes commencent par "S

Préparant des marchés tels que l'IA, GlobalFoundries acquiert la technologie du nitrure de gallium de Tagore Technology et les équipes associées Jul 15, 2024 pm 12:21 PM

Selon les informations de ce site Web du 5 juillet, GlobalFoundries a publié un communiqué de presse le 1er juillet de cette année, annonçant l'acquisition de la technologie de nitrure de gallium (GaN) et du portefeuille de propriété intellectuelle de Tagore Technology, dans l'espoir d'élargir sa part de marché dans l'automobile et Internet. des objets et des domaines d'application des centres de données d'intelligence artificielle pour explorer une efficacité plus élevée et de meilleures performances. Alors que des technologies telles que l’intelligence artificielle générative (GenerativeAI) continuent de se développer dans le monde numérique, le nitrure de gallium (GaN) est devenu une solution clé pour une gestion durable et efficace de l’énergie, notamment dans les centres de données. Ce site Web citait l'annonce officielle selon laquelle, lors de cette acquisition, l'équipe d'ingénierie de Tagore Technology rejoindrait GF pour développer davantage la technologie du nitrure de gallium. g

See all articles