Maison > Périphériques technologiques > IA > le corps du texte

Le modèle 7B surpasse GPT4-V ! L'Université des sciences et technologies de Hong Kong et d'autres ont publié l'ensemble de données « Graph Reasoning Question and Answer » GITQA : les graphiques visuels peuvent améliorer les capacités de raisonnement

PHPz
Libérer: 2024-03-04 17:43:33
avant
569 Les gens l'ont consulté

Les réseaux de neurones graphiques (GNN) sont efficaces pour exploiter les informations structurelles des graphiques à des fins d'inférence, mais nécessitent souvent des réglages spécifiques à un domaine pour obtenir des performances optimales, ce qui limite leur capacité à généraliser à différentes tâches.

Les grands modèles de langage (LLM) ont des capacités croisées et de généralisation plus fortes pour le raisonnement graphique, mais ne fonctionnent souvent pas aussi bien que les modèles de réseaux neuronaux graphiques dédiés sur des tâches spécifiques.

Les recherches actuelles sur le raisonnement graphique ignorent souvent l'importance des informations visuelles dans le raisonnement graphique, qu'il s'agisse de réseaux de neurones graphiques traditionnels ou de méthodes de raisonnement graphique basées sur de grands modèles de langage.

Cependant, les humains utilisent des fonctionnalités visuelles pour effectuer des tâches graphiques de manière efficace et précise, telles que déterminer s'il y a des anneaux dans le graphique.

Par conséquent, il est d’une grande importance d’explorer le rôle des informations visuelles des graphiques morphologiques dans le raisonnement graphique.

Plus précisément, dessiner un graphique (Graph) sous forme d'image (Image) peut-il donner au modèle des capacités de raisonnement particulières ? Ces images (appelées Visual Graphs) peuvent-elles améliorer les modèles de raisonnement graphique existants basés sur d'autres modalités ?

Pour répondre à ces questions, l'équipe de recherche de l'Université des sciences et technologies de Hong Kong et de l'Université des sciences et technologies du Sud a construit le premier ensemble de données de questions et réponses d'inférence GITQA contenant des graphiques visuels et l'a utilisé sur des modèles open source tels que GPT-4. turbo, GPT-4V et Vicuna, LLaVA, etc. Des expériences approfondies ont été menées sur des modèles à source fermée, confirmant le rôle de Visual Graph dans le raisonnement graphique et son renforcement mutuel avec des modalités textuelles.

Le modèle 7B surpasse GPT4-V ! LUniversité des sciences et technologies de Hong Kong et dautres ont publié lensemble de données « Graph Reasoning Question and Answer » GITQA : les graphiques visuels peuvent améliorer les capacités de raisonnementPhotos

Adresse papier : https://arxiv.org/abs/2402.02130

Page d'accueil du projet : https://v-graph.github.io/

sur GITQA Dans le test de référence, le modèle multimodal GITA-7B/13B, qui a été affiné sur la base du LLaVA-7B/13B, a démontré des performances de raisonnement graphique supérieures à GPT-4V.

Ensemble de données de questions et réponses de raisonnement graphique multimodal GITQA

L'équipe de recherche a établi l'ensemble de données GITQA et ses tests de référence correspondants en dessinant des structures graphiques dans des images visuelles de différents styles. L'ensemble de données GITQA contient plus de 423 000 instances de questions et réponses. , chaque instance contient des informations sur la structure du graphique, le texte et le visuel qui se correspondent mutuellement et ses paires de questions et de réponses correspondantes.

L'ensemble de données GITQA contient deux versions : GITQA-Base et GITQA-Aug, parmi lesquelles GITQA-Base ne contient que des images visuelles d'un seul style.

GITQA-Aug est encore plus riche. Il effectue diverses améliorations des données sur les images visuelles, notamment la modification de la disposition, de la forme des points, de la largeur des bords, du style des points, etc., offrant ainsi des performances d'image visuelle plus diversifiées.

Le modèle 7B surpasse GPT4-V ! LUniversité des sciences et technologies de Hong Kong et dautres ont publié lensemble de données « Graph Reasoning Question and Answer » GITQA : les graphiques visuels peuvent améliorer les capacités de raisonnementImages

Comme le montre la figure 1, le test de référence GITQA contient 8 tâches de raisonnement graphique représentatives : Connectivité (déterminer si deux points du graphique sont connectés), Cycle (déterminer s'il existe un cycle dans le graphique), TS (Trouver l'ordre topologique du graphe), SP (Trouver le chemin le plus court entre deux points du graphe), MaxFlow (Calcul du débit maximum entre deux points du graphe), BGM (Calcul de la correspondance maximale du graphe bipartite), HP (Trouver la correspondance maximale dans le graphe (chemin hamiltonien)) et GNN (simuler le passage du message de GNN).

Le modèle 7B surpasse GPT4-V ! LUniversité des sciences et technologies de Hong Kong et dautres ont publié lensemble de données « Graph Reasoning Question and Answer » GITQA : les graphiques visuels peuvent améliorer les capacités de raisonnementImages

L'ensemble de données correspondant à chaque tâche est divisé en sous-ensembles de différents niveaux de difficulté en fonction de la complexité de la structure du graphique (les statistiques pertinentes sont présentées dans le tableau 1).

Expériences et résultats

Expérience 1 : Comparaison des capacités de raisonnement graphique de modèles basés sur différentes informations de graphe modal

L'équipe de recherche a utilisé l'ensemble de données GITQA-Base selon différents types d'entrée de graphe modal (y compris uniquement du texte (T-Only), vision uniquement (V-Only) et texte plus vision (V+T)), évaluant les modèles de langage à grande échelle populaires à code source fermé et open source (tels que GPT-4 turbo et Vicuna-7B /13B) et les performances de grands modèles de langage multimodaux tels que GPT-4V et LLaVA-7B/13B. comme le montre l'image 2.

Le modèle 7B surpasse GPT4-V ! LUniversité des sciences et technologies de Hong Kong et dautres ont publié lensemble de données « Graph Reasoning Question and Answer » GITQA : les graphiques visuels peuvent améliorer les capacités de raisonnementPictures

Plus précisément, les modèles à source fermée GPT-4 et GPT-4V effectuent une inférence à échantillon nul, tandis que pour les modèles open source Vicuna et LLaVA, en gardant les paramètres du modèle de base inchangés, uniquement la partie Projecteur et LoRA a été affinée (en particulier, le modèle LLaVA après réglage fin bimodal visuel + texte a été nommé GITA par le chercheur).

Le tableau 2 résume les résultats des tests pour les huit tâches de raisonnement graphique.

Le modèle 7B surpasse GPT4-V ! LUniversité des sciences et technologies de Hong Kong et dautres ont publié lensemble de données « Graph Reasoning Question and Answer » GITQA : les graphiques visuels peuvent améliorer les capacités de raisonnementPhotos

Modalité visuelle VS Modalité texte

Comme le montre le tableau 2, la modalité visuelle fonctionne mieux que la modalité texte sur les tâches Cycle et BGM, tandis que sur les cinq autres tâches, ce n'est pas aussi bon comme texte modal. Cela révèle que la vision et le texte présentent chacun des avantages dans la gestion de types spécifiques de tâches de raisonnement graphique. Amélioration mutuelle des modalités visuelles et textuelles

Pour le modèle à source fermée, GPT-4V (V+T) a une précision moyenne beaucoup plus élevée sur huit tâches que GPT-4 Turbo (T uniquement) et GPT-4V (V uniquement ).

Pour les modèles open source (7B, 13B), de même, le modèle GITA formé à l'aide de données bimodales est en moyenne plus performant. Ces observations vérifient que l’utilisation simultanée d’informations visuelles et textuelles peut améliorer les capacités de raisonnement graphique du modèle et obtenir de meilleures performances que les modèles monomodaux.

Plus précisément, GITA-7B (V+T) surpasse LLaVA-7B (V uniquement) et Vicuna-7B (T uniquement) dans presque toutes les tâches. Pour le modèle à source fermée, l’utilisation de la bimodalité a permis d’obtenir la précision la plus élevée sur cinq tâches sur huit. Le modèle LLaVA affiné peut surpasser GPT-4V

Comme le montrent le tableau 2 et la figure 3, les modèles GITA-7B et GITA-13B, c'est-à-dire le modèle LLaVA-7B/13B affiné bimodal, montrent meilleures performances que GPT -4V Amélioration significative des performances de plus de 13 %. Cette énorme amélioration montre que le modèle GITA affiné peut apprendre efficacement d'excellentes capacités de raisonnement graphique à partir de l'ensemble de données GITQA.

Le modèle 7B surpasse GPT4-V ! LUniversité des sciences et technologies de Hong Kong et dautres ont publié lensemble de données « Graph Reasoning Question and Answer » GITQA : les graphiques visuels peuvent améliorer les capacités de raisonnementPhotos

Expérience 2 : L'impact du niveau de difficulté sur les tâches graphiques

Le tableau 3 montre en outre la précision du test du modèle à différents niveaux de difficulté (la tâche GNN a été omise car elle était trop difficile pour tous les modèles) .

Les performances utilisant la modalité visuelle seule ont surpassé la modalité textuelle et étaient comparables à l'utilisation des deux modalités dans les tâches Cycle et BGM à tous les niveaux de difficulté.

Cependant, pour d'autres tâches, les performances des modèles utilisant uniquement la modalité visuelle diminuent considérablement lorsque la difficulté passe de facile à moyenne ou difficile.

Le modèle 7B surpasse GPT4-V ! LUniversité des sciences et technologies de Hong Kong et dautres ont publié lensemble de données « Graph Reasoning Question and Answer » GITQA : les graphiques visuels peuvent améliorer les capacités de raisonnementImages

De même, lorsque la difficulté augmente, les modèles utilisant uniquement des modalités de texte et des modalités visuelles + texte connaîtront également d'importantes baisses de performances sur ces tâches.

Pour la tâche Connectivité, GITA-7B (Visuel + Texte) et GITA-13B (Visuel + Texte) affichent des performances comparables aux trois niveaux de défi.

Cependant, ce modèle cohérent n'est pas observé dans GPT-4V (Visuel + Texte), car ses performances diminuent avec l'augmentation des niveaux de difficulté.

Expérience 3 : Stratégies d'amélioration des graphiques visuels et préférences de style

L'équipe de recherche a également exploré l'effet de stratégies spéciales d'augmentation des données pour affiner le modèle.

Sur la base de différentes stratégies d'amélioration, les chercheurs ont divisé l'ensemble de données GITQA-Aug en quatre sous-ensembles d'amélioration : ensemble de données d'amélioration de la disposition, ensemble de données d'amélioration de la forme des nœuds, ensemble de données d'amélioration de la largeur des bords et ensemble de données d'amélioration du style des nœuds.

Le modèle 7B surpasse GPT4-V ! LUniversité des sciences et technologies de Hong Kong et dautres ont publié lensemble de données « Graph Reasoning Question and Answer » GITQA : les graphiques visuels peuvent améliorer les capacités de raisonnementPhotos

Les chercheurs ont affiné séparément les quatre sous-ensembles améliorés du modèle LLaVA-7B qui utilise uniquement les informations cartographiques visuelles. La comparaison de ses performances d'inférence avec celles d'avant l'amélioration des données est présentée dans le tableau 4. .

On voit clairement que la capacité de raisonnement du modèle pour des tâches difficiles sur l'ensemble de données amélioré par la mise en page s'est considérablement améliorée (SP a augmenté de 64,8 %, HP a augmenté de 69,63 %).

Les trois autres stratégies d'augmentation des données conduisent en fait à une dégradation des performances.

Plus précisément, le modèle obtient d'excellents résultats sur l'ensemble de mise en page augmenté, qui est plus de 11 % supérieur à l'ensemble GITQA-Base. En comparaison, les résultats moyens pour les huit tâches des autres ensembles augmentés sont environ 5 % inférieurs à ceux de l'ensemble de base

Le modèle 7B surpasse GPT4-V ! LUniversité des sciences et technologies de Hong Kong et dautres ont publié lensemble de données « Graph Reasoning Question and Answer » GITQA : les graphiques visuels peuvent améliorer les capacités de raisonnementImage

Ces résultats suggèrent que l'augmentation des données basée sur la mise en page fournit une perspective visuelle plus efficace pour le raisonnement graphique. En outre, les chercheurs ont également testé les performances du raisonnement Visual Graph basé sur chaque style au sein du même groupe et pour chaque stratégie d'amélioration. Comme le montre le tableau 5, cela montre que le modèle n'a pas de préférence de style évidente.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:51cto.com
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal
À propos de nous Clause de non-responsabilité Sitemap
Site Web PHP chinois:Formation PHP en ligne sur le bien-être public,Aidez les apprenants PHP à grandir rapidement!