Maison > Périphériques technologiques > IA > Auto-soffle: ai qui sait quand revérifier

Auto-soffle: ai qui sait quand revérifier

Lisa Kudrow
Libérer: 2025-03-08 09:24:09
original
788 Les gens l'ont consulté

Génération auto-réflexive-récupération (auto-rag): améliorer les LLM avec une récupération adaptative et une autocritique

Les modèles de langues grands (LLM) sont transformateurs, mais leur dépendance à l'égard des connaissances paramétriques conduit souvent à des inexactitudes factuelles. La génération (RAG) (RAG) de la récupération vise à y remédier en incorporant des connaissances externes, mais les méthodes traditionnelles de chiffon souffrent de limitations. Cet article explore Self-Rag, une nouvelle approche qui améliore considérablement la qualité et la factualité LLM.

Adommagent les lacunes du chiffon standard

Le chiffon standard récupère un nombre fixe de passages, quelle que soit sa pertinence. Cela conduit à plusieurs problèmes:

  • Informations non pertinentes: La récupération des documents inutiles dilue la qualité de sortie.
  • Manque d'adaptabilité: L'incapacité à ajuster la récupération en fonction des exigences des tâches entraîne des performances incohérentes.
  • Sorties incohérentes: Le texte généré peut ne pas s'aligner sur les informations récupérées en raison d'un manque de formation explicite sur l'intégration des connaissances.
  • Absence d'auto-évaluation: Aucun mécanisme pour évaluer la qualité ou la pertinence des passages récupérés ou la sortie générée.
  • Attribution de source limitée: Citation ou indication insuffisante de la prise en charge de la source pour le texte généré.

Présentation de l'auto-rag: récupération adaptative et auto-réflexion

L'auto-RAG améliore les LLM en intégrant la récupération adaptative et l'auto-réflexion. Contrairement à RAG standard, il récupère dynamiquement les passages uniquement lorsque cela est nécessaire, en utilisant un «jeton de récupération». Surtout, il utilise des jetons de réflexion spéciaux - ISREL (pertinence), ISSUP (soutien) et ISUse (utilitaire) - pour évaluer son propre processus de génération.

Les caractéristiques clés de l'auto-Rag incluent:

  • Retrie à la demande: Récupération efficace uniquement en cas de besoin.
  • Tokens de réflexion: Auto-évaluation en utilisant des jetons Isrel, ISSUp et ISUSE.
  • autocritique: Évaluation de la pertinence et de la qualité de sortie du passage récupéré.
  • Formation de bout en bout: Formation simultanée de la génération de sortie et de la prédiction des jetons de réflexion.
  • Décodage personnalisable: Ajustement flexible de la fréquence de récupération et de l'adaptation à différentes tâches.

Le flux de travail auto-rag

  1. Traitement des entrées et décision de récupération: Le modèle détermine si des connaissances externes sont requises.
  2. Récupération des passages pertinents: Si nécessaire, les passages pertinents sont récupérés à l'aide d'un modèle Retriever (par exemple, Contriever-MS Marco).
  3. Traitement parallèle et génération de segments: Le modèle du générateur traite chaque passage récupéré, créant plusieurs candidats de continuation avec des jetons de critique associés.
  4. autocritique et évaluation: Les jetons de réflexion évaluent la pertinence (isrel), le support (ISSUP) et l'utilité (ISUSE) de chaque segment généré.
  5. Sélection du meilleur segment et sortie: Une recherche de faisceau au niveau du segment sélectionne la meilleure séquence de sortie basée sur un score pondéré incorporant des probabilités de jeton de critique.
  6. Processus de formation: Un processus de formation en deux étapes consiste à former un modèle de critique hors ligne pour générer des jetons de réflexion, suivis par la formation du modèle de générateur en utilisant des données augmentées avec ces jetons.

Self-RAG: AI That Knows When to Double-Check

Avantages de l'auto-rag

Self-Rag offre plusieurs avantages clés:

  • Amélioration de la précision factuelle: La récupération à la demande et l'autocritique conduisent à une précision factuelle plus élevée.
  • Pertinence améliorée: La récupération adaptative garantit que seules les informations pertinentes sont utilisées.
  • meilleure citation et vérifiabilité: Les citations et évaluations détaillées améliorent la transparence et la fiabilité.
  • Comportement personnalisable: Les jetons de réflexion permettent des ajustements spécifiques à la tâche.
  • Inférence efficace: La formation du modèle de critique hors ligne réduit les frais généraux d'inférence.

Implémentation avec Langchain et Langgraph

L'article détaille une implémentation pratique à l'aide de Langchain et Langgraph, couvrant la configuration de la dépendance, la définition du modèle de données, le traitement des documents, la configuration de l'évaluateur, la configuration de la chaîne de chiffon, les fonctions de flux de travail, la construction du flux de travail et les tests. Le code montre comment construire un système d'auto-rag capable de gérer diverses requêtes et d'évaluer la pertinence et la précision de ses réponses.

Limites de l'auto-rag

Malgré ses avantages, l'auto-rag a des limites:

  • non entièrement pris en charge Sorties: Les sorties peuvent ne pas toujours être entièrement appuyées par les preuves citées.
  • potentiel d'erreurs factuelles: Bien que améliorées, des erreurs factuelles peuvent encore se produire.
  • Complotions de taille de modèle: Les modèles plus petits peuvent parfois surpasser ceux plus grands en précision factuelle.
  • Complotions de personnalisation: Ajuster les poids de jeton de réflexion peut avoir un impact sur d'autres aspects de la sortie (par exemple, la fluidité).

Conclusion

L'auto-RAG représente une progression significative dans la technologie LLM. En combinant la récupération adaptative avec l'auto-réflexion, il traite des limites clés du chiffon standard, ce qui entraîne des sorties plus précises, pertinentes et vérifiables. La nature personnalisable du cadre permet d'adapter son comportement à diverses applications, ce qui en fait un outil puissant pour diverses tâches nécessitant une précision factuelle élevée. La mise en œuvre de Langchain et Langgraph fournie offre un guide pratique pour construire et déployer des systèmes d'auto-ragravage.

Questions fréquemment posées (FAQ) (La section FAQ du texte d'origine est conservée ici.)

Q1. Qu'est-ce que l'auto-Rag? A. Auto-Rag (génération auto-réflexive-récupération-auvue) est un cadre qui améliore les performances de la LLM en combinant la récupération à la demande avec l'auto-réflexion pour améliorer la précision et la pertinence factuelles.

Q2. En quoi l'auto-RAG diffère-t-il du chiffon standard? A. Contrairement à un chiffon standard, l'auto-RAG récupère les passages uniquement en cas de besoin, utilise des jetons de réflexion pour critiquer ses sorties et adapte son comportement en fonction des exigences de la tâche.

Q3. Que sont les jetons de réflexion? A. Les jetons de réflexion (Isrel, ISSUP, ISUSE) évaluent la pertinence de récupération, la prise en charge du texte généré et de l'utilité globale, permettant l'auto-évaluation et de meilleures sorties.

Q4. Quels sont les principaux avantages de l'auto-rag? A. L'auto-RAG améliore la précision, réduit les erreurs factuelles, offre de meilleures citations et permet une personnalisation spécifique à la tâche pendant l'inférence.

Q5. L'auto-RAG peut-il éliminer complètement les inexactitudes factuelles? A. Non, tandis que l'auto-Rag réduit considérablement les inexactitudes, il est toujours sujet à des erreurs factuelles occasionnelles comme n'importe quel llm.

(Remarque: l'image reste dans son format et son emplacement d'origine.)

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers articles par auteur
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal