Les performances LLM sont améliorées jusqu'à 60 % ! Chef-d'œuvre de Google ICLR 2024 : laissez le grand modèle de langage apprendre le

Table des matières

Dans l'article, l'équipe de Google a initialement exploré la meilleure façon de représenter les graphiques sous forme de texte afin que les LLM puissent les comprendre.

Maison

Périphériques technologiques

Les performances LLM sont améliorées jusqu'à 60 % ! Chef-d'œuvre de Google ICLR 2024 : laissez le grand modèle de langage apprendre le « langage des graphiques »

Mar 27, 2024 pm 08:46 PM

模型训练

Dans le domaine de l'informatique, une structure de graphe est constituée de nœuds (représentant des entités) et d'arêtes (représentant des relations entre entités).

Les photos sont partout.

Internet peut être considéré comme un immense réseau et les moteurs de recherche utilisent des méthodes graphiques pour organiser et afficher les informations.

Les LLM sont principalement formés sur du texte ordinaire, donc convertir des graphiques en texte compréhensible par les LLM est une tâche difficile car la structure du graphique est fondamentalement différente du texte.

Lors de l'ICLR 2024, une équipe de Google a exploré comment transformer les données graphiques en une forme adaptée aux LLM.

LLM性能最高60%提升！谷歌ICLR 2024力作：让大语言模型学会「图的语言」

Adresse papier : https://openreview.net/pdf?id=IuXR1CCrSi

LLM性能最高60%提升！谷歌ICLR 2024力作：让大语言模型学会「图的语言」

Utilisez deux méthodes différentes pour encoder les graphiques en texte et renvoyer le texte et les questions à LLM Dans le processus

, ils ont également développé un benchmark appelé GraphQA pour explorer des approches permettant de résoudre différents problèmes de raisonnement graphique et ont montré comment exprimer ces problèmes d'une manière qui soit bénéfique pour LLM pour résoudre les problèmes liés aux graphiques.

En utilisant la bonne méthode, les LLM peuvent améliorer les performances des tâches graphiques jusqu'à 60 %.

GraphOA : Un « examen » pour les LLM

Tout d'abord, l'équipe de Google a conçu le benchmark GraphQA, qui peut être considéré comme un examen conçu pour évaluer la capacité du LLM à résoudre des problèmes de graphes spécifiques.

GraphOA garantit la diversité de l'étendue et du nombre de connexions en utilisant plusieurs types de graphiques pour trouver les écarts possibles dans les LLM lors du traitement des graphiques, et rend l'ensemble du processus plus proche de ce que les LLM peuvent rencontrer dans les applications pratiques.

LLM性能最高60%提升！谷歌ICLR 2024力作：让大语言模型学会「图的语言」

Un cadre pour raisonner avec les LLM à l'aide de GraphIQA

Bien que les tâches soient simples, comme vérifier si des arêtes existent, calculer le nombre de nœuds ou d'arêtes, etc., ces tâches nécessitent que les LLM comprennent le relation entre les nœuds et les arêtes. La relation entre eux est cruciale pour un raisonnement graphique plus complexe.

Dans le même temps, l'équipe a également exploré comment convertir des graphiques en texte que les LLM peuvent traiter, par exemple en résolvant les deux problèmes clés suivants :

Encodage de nœud : Comment représentons-nous un seul nœud ? Les nœuds peuvent inclure des entiers simples, des noms communs (personnes, caractères) et des lettres.

Edge Coding : Comment décrivons-nous les relations entre les nœuds ? Les méthodes peuvent inclure des notations entre crochets, des expressions (telles que « sont amis ») et des représentations symboliques (telles que des flèches).

En fin de compte, les chercheurs ont systématiquement combiné diverses méthodes de codage de nœuds et de bords pour produire des fonctions telles que celles présentées dans la figure ci-dessous.

LLM性能最高60%提升！谷歌ICLR 2024力作：让大语言模型学会「图的语言」

Exemple de fonction d'encodage graphique

Comment fonctionnent les LLM ?

L'équipe de recherche a mené trois expériences clés sur GraphOA :

Test de la capacité des LLM à gérer des tâches graphiques
Test de l'impact de la taille des LLM sur les performances
Test de l'impact de différents formes de graphiques sur les performances Impact

Dans la première expérience, les LLM ont effectué des performances médiocres, et sur la plupart des tâches de base, les LLM n'ont pas fait mieux que des suppositions aléatoires.

Mais la méthode d'encodage affecte de manière significative les résultats, comme le montre la figure ci-dessous, dans la plupart des cas, l'encodage « incident » fonctionne bien dans la plupart des tâches. Le choix d'une fonction d'encodage appropriée peut grandement améliorer la précision de la tâche.

LLM性能最高60%提升！谷歌ICLR 2024力作：让大语言模型学会「图的语言」

Comparaison de diverses fonctions d'encodeur graphique basées sur différentes précisions de tâches

Dans le deuxième test, les chercheurs ont testé la même tâche graphique sur des modèles de différentes tailles.

En termes de conclusion, dans la tâche d'inférence de graphe, le modèle plus grand a mieux fonctionné,

Cependant, fait intéressant, dans la tâche "existence des bords" (déterminer si deux nœuds du graphe sont connectés), la taille est pas aussi important que d'autres tâches.

Même le plus grand LLM ne peut pas toujours battre les solutions de base simples sur le problème de vérification du cycle (déterminer si un cycle existe dans le graphique). Cela montre que les LLM peuvent encore s'améliorer sur certaines tâches graphiques.

LLM性能最高60%提升！谷歌ICLR 2024力作：让大语言模型学会「图的语言」

L'impact de la capacité du modèle sur les tâches de raisonnement graphique de PaLM 2-XXS, les gens utilisent GraphOA pour générer des graphiques de différentes structures à des fins d'analyse.

Exemples de graphiques générés par différents générateurs de graphiques de GraphQA. ER, BA, SBM et SFN sont respectivement Erdős-Rényi, Barabási-Albert, modèle de bloc stochastique et réseau sans échelle. LLM性能最高60%提升！谷歌ICLR 2024力作：让大语言模型学会「图的语言」

Les résultats montrent que la structure du graphique a un grand impact sur les performances des LLM.

Par exemple, dans une tâche demandant si des boucles existent, les LLM fonctionnent bien dans les graphiques étroitement connectés (où les boucles sont courantes) mais mal dans les graphiques de chemin (où les boucles ne se produisent jamais).

Mais en même temps, fournir des échantillons mixtes aide les LLM à s'adapter. Par exemple, dans la tâche de détection de cycle, les chercheurs ont ajouté des exemples contenant des cycles et d'autres qui n'en contiennent pas dans les invites comme exemples de quelques-uns. L'apprentissage par tir. Grâce à cette méthode, les performances des LLM sont améliorées.

Comparez différents générateurs de graphiques sur différentes tâches graphiques. La principale observation est que la structure du graphe a un impact significatif sur les performances du LLM. ER, BA, SBM et SFN font respectivement référence à Erdős-Rényi, Barabási-Albert, au modèle de bloc stochastique et au réseau sans échelle. LLM性能最高60%提升！谷歌ICLR 2024力作：让大语言模型学会「图的语言」

Ce n'est que le début pour permettre aux LLM de comprendre les graphiques

Dans l'article, l'équipe de Google a initialement exploré la meilleure façon de représenter les graphiques sous forme de texte afin que les LLM puissent les comprendre.

Améliore considérablement la précision des LLM sur les problèmes de graphiques (d'environ 5 % à plus de 60 % d'amélioration) à l'aide de techniques de codage correctes.

Nous avons également identifié trois principaux facteurs d'influence, à savoir la méthode d'encodage de conversion des graphiques en texte, les types de tâches des différents graphiques et la structure de densité des graphiques.

Ce n'est que le début pour les LLM de comprendre les graphiques. Avec l'aide du nouveau benchmark GraphQA, nous attendons avec impatience de poursuivre les recherches pour explorer davantage de possibilités de LLM.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article chaud

Repo: Comment relancer ses coéquipiers

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

1 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Combien de temps faut-il pour battre Split Fiction?

3 Il y a quelques semaines By DDD

Hello Kitty Island Adventure: Comment obtenir des graines géantes

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Difficulté à mettre à jour la mise en cache des pages Web officielles du compte: comment éviter l'ancien cache affectant l'expérience utilisateur après la mise à jour de la version?

3 Il y a quelques semaines By 王林

Afficher plus

Outils chauds Tags

Code&IT

Voix

Entreprise

Commercialisation

Détecteur d'IA

Chatbot

Conception et art

Article chaud

Repo: Comment relancer ses coéquipiers

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

1 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Combien de temps faut-il pour battre Split Fiction?

3 Il y a quelques semaines By DDD

Hello Kitty Island Adventure: Comment obtenir des graines géantes

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Difficulté à mettre à jour la mise en cache des pages Web officielles du compte: comment éviter l'ancien cache affectant l'expérience utilisateur après la mise à jour de la version?

3 Il y a quelques semaines By 王林

Afficher plus

Tags d'article chaud

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7296

Tutoriel Java

1622

Tutoriel CakePHP

1342

Tutoriel Laravel

1259

Tutoriel PHP

1206

Afficher plus

Related knowledge

Open source! Au-delà de ZoeDepth ! DepthFM : estimation rapide et précise de la profondeur monoculaire ! Apr 03, 2024 pm 12:04 PM

Open source! Au-delà de ZoeDepth ! DepthFM : estimation rapide et précise de la profondeur monoculaire !

Le modèle MoE open source le plus puissant au monde est ici, avec des capacités chinoises comparables à celles du GPT-4, et le prix ne représente que près d'un pour cent de celui du GPT-4-Turbo. May 07, 2024 pm 04:13 PM

Le modèle MoE open source le plus puissant au monde est ici, avec des capacités chinoises comparables à celles du GPT-4, et le prix ne représente que près d'un pour cent de celui du GPT-4-Turbo.

KAN, qui remplace MLP, a été étendu à la convolution par des projets open source Jun 01, 2024 pm 10:03 PM

KAN, qui remplace MLP, a été étendu à la convolution par des projets open source

La vitalité de la super intelligence s'éveille ! Mais avec l'arrivée de l'IA qui se met à jour automatiquement, les mères n'ont plus à se soucier des goulots d'étranglement des données. Apr 29, 2024 pm 06:55 PM

La vitalité de la super intelligence s'éveille ! Mais avec l'arrivée de l'IA qui se met à jour automatiquement, les mères n'ont plus à se soucier des goulots d'étranglement des données.

Bonjour, Atlas électrique ! Le robot Boston Dynamics revient à la vie, des mouvements étranges à 180 degrés effraient Musk Apr 18, 2024 pm 07:58 PM

Bonjour, Atlas électrique ! Le robot Boston Dynamics revient à la vie, des mouvements étranges à 180 degrés effraient Musk

L'IA bouleverse la recherche mathématique ! Le lauréat de la médaille Fields et mathématicien sino-américain a dirigé 11 articles les mieux classés | Aimé par Terence Tao Apr 09, 2024 am 11:52 AM

L'IA bouleverse la recherche mathématique ! Le lauréat de la médaille Fields et mathématicien sino-américain a dirigé 11 articles les mieux classés | Aimé par Terence Tao

La version Kuaishou de Sora 'Ke Ling' est ouverte aux tests : génère plus de 120 s de vidéo, comprend mieux la physique et peut modéliser avec précision des mouvements complexes Jun 11, 2024 am 09:51 AM

La version Kuaishou de Sora 'Ke Ling' est ouverte aux tests : génère plus de 120 s de vidéo, comprend mieux la physique et peut modéliser avec précision des mouvements complexes

L'US Air Force présente son premier avion de combat IA de grande envergure ! Le ministre a personnellement effectué l'essai routier sans intervenir pendant tout le processus, et 100 000 lignes de code ont été testées 21 fois. May 07, 2024 pm 05:00 PM

See all articles