Maison > Périphériques technologiques > IA > Raisonnement complexe dans les LLM: Pourquoi les petits modèles ont-ils du mal?

Raisonnement complexe dans les LLM: Pourquoi les petits modèles ont-ils du mal?

尊渡假赌尊渡假赌尊渡假赌
Libérer: 2025-03-20 10:51:12
original
1000 Les gens l'ont consulté

Ce document de recherche, «tous les raisonneurs LLM ne sont pas créés égaux», explore les limites des modèles de langage grand (LLM) dans des tâches de raisonnement complexes, en particulier celles nécessitant une résolution de problèmes en plusieurs étapes. Alors que les LLM excellent à remettre en question les problèmes mathématiques, leurs performances se dégradent considérablement face à des questions interconnectées où la solution à un problème informe le suivant - un concept appelé «raisonnement de composition».

L'étude, menée par des chercheurs de Mila, Google Deepmind et de Microsoft Research, révèle une faiblesse surprenante dans les LLM plus petites et plus rentables. Ces modèles, bien que compétents dans des tâches plus simples, ont du mal avec le "raisonnement du secondaire" nécessaire pour résoudre des problèmes enchaînés. Ce n'est pas dû à des problèmes tels que la fuite de données; Il découle plutôt d'une incapacité à maintenir le contexte et à connecter logiquement les parties du problème. Le réglage des instructions, une technique commune en matière d'amélioration des performances, offre des avantages incohérents pour les modèles plus petits, conduisant parfois à un sur-ajustement.

Raisonnement complexe dans les LLM: Pourquoi les petits modèles ont-ils du mal?

Résultats clés:

  • Les LLM plus petits présentent un «écart de raisonnement» important lors de la lutte contre les problèmes de composition.
  • Les performances baissent considérablement lors de la résolution des questions interconnectées.
  • Le réglage de l'instruction donne des améliorations incohérentes dans les modèles plus petits.
  • Cette limitation de raisonnement restreint la fiabilité des LLM plus petits dans les applications du monde réel.
  • Même les modèles mathématiques spécialisés ont du mal avec le raisonnement de composition.
  • Des méthodes de formation plus efficaces sont nécessaires pour améliorer les capacités de raisonnement en plusieurs étapes.

Le document utilise un test de mathématiques de classe de grade (GSM) de composition pour illustrer cet écart. Le test implique deux questions liées, où la réponse au premier (Q1) devient une variable (x) dans la seconde (Q2). Les résultats montrent que la plupart des modèles fonctionnent bien pire sur la tâche de composition que prévu par leurs performances sur les questions individuelles. Des modèles plus grands et plus puissants comme GPT-4O démontrent des capacités de raisonnement supérieures, tandis que des modèles plus petits et rentables, même ceux spécialisés en mathématiques, montrent une baisse substantielle de performance.

Raisonnement complexe dans les LLM: Pourquoi les petits modèles ont-ils du mal?

Un graphique comparant les LLMS open source et à source fermée met en évidence cet écart de raisonnement. Des modèles plus petits et rentables présentent systématiquement des écarts de raisonnement négatif plus importants, indiquant de moins bonnes performances sur les tâches de composition par rapport aux modèles plus importants. Le GPT-4O, par exemple, montre un écart minimal, tandis que d'autres comme Phi 3-MINI-4K-it démontrent des lacunes importantes.

Raisonnement complexe dans les LLM: Pourquoi les petits modèles ont-ils du mal?

Une analyse plus approfondie révèle que l'écart de raisonnement n'est pas uniquement dû à la fuite de référence. Les problèmes découlent de la sur-ajustement aux références, de la distraction par contexte non pertinent et d'un échec de transfert efficacement des informations entre les sous-tâches.

Raisonnement complexe dans les LLM: Pourquoi les petits modèles ont-ils du mal?

Raisonnement complexe dans les LLM: Pourquoi les petits modèles ont-ils du mal?

Raisonnement complexe dans les LLM: Pourquoi les petits modèles ont-ils du mal?

L'étude conclut que l'amélioration du raisonnement de composition nécessite des approches de formation innovantes. Bien que des techniques comme le réglage de l'instruction et la spécialisation en mathématiques offrent certains avantages, ils sont insuffisants pour combler l'écart de raisonnement. L'exploration d'autres méthodes, telles que le raisonnement basé sur le code, peut être nécessaire pour améliorer la capacité des LLM à gérer les tâches de raisonnement complexes et multi-étapes. La recherche souligne la nécessité d'une amélioration des techniques de formation pour permettre aux LLM plus petites et plus rentables d'effectuer des tâches de raisonnement complexes de manière fiable.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal