Pourquoi la génération auprès de la récupération est toujours pertinente à l'ère des modèles de langage à long contexte-IA-php.cn

Pourquoi la génération auprès de la récupération est toujours pertinente à l'ère des modèles de langage à long contexte

PHPz

Libérer： 2025-02-25 19:31:14

original

875 Les gens l'ont consulté

Explorons l'évolution de la génération (RAG) (RAG) de la récupération dans le contexte de modèles de grand langage de plus en plus puissants (LLM). Nous examinerons comment les progrès des LLM affectent la nécessité du chiffon.

Une brève histoire du chiffon

Rag n'est pas un nouveau concept. L'idée de fournir un contexte à des LLM pour l'accès aux données actuelles a des racines dans un papier Facebook AI / Meta Facebook, "Génération de la récupération pour les tâches NLP à forte intensité de connaissances" - prédateur des débuts en novembre 2022 de Chatgpt. Cet article a mis en évidence deux types de mémoire pour les LLM:

Mémoire paramétrique: Les connaissances inhérentes au LLM, acquises lors de sa formation sur de vastes ensembles de données de texte.
Mémoire non paramétrique: Contexte externe fourni dans l'invite.

Why Retrieval-Augmented Generation Is Still Relevant in the Era of Long-Context Language Models Le document d'origine a utilisé des incorporations de texte pour la recherche sémantique pour récupérer des documents pertinents, bien que ce ne soit pas la seule méthode de récupération de documents en chiffon. Leurs recherches ont démontré que RAG a donné des réponses plus précises et factuelles par rapport à l'utilisation du LLM seul.

L'impact de Chatgpt

Le lancement de Chatgpt en novembre 2022 a révélé le potentiel des LLM pour la réponse aux requêtes, mais également mis en évidence les limitations:

Connaissances limitées: LLMS manquent d'accès à des informations au-delà de leurs données de formation.
Hallucinations: LLMS peut fabriquer des informations plutôt que d'admettre l'incertitude.

Why Retrieval-Augmented Generation Is Still Relevant in the Era of Long-Context Language Models LLMS s'appuient uniquement sur les données de formation et l'entrée rapide. Les requêtes en dehors de cette portée conduisent souvent à des réponses fabriquées.

la montée et le raffinement du chiffon

tandis que RAG prédaté Chatgpt, son adoption généralisée a considérablement augmenté en 2023. Le concept de base est simple: au lieu d'interroger directement le LLM, fournit un contexte pertinent dans l'invite et de demander à la LLM de répondre basé uniquement sur ce contexte.

L'invite sert de point de départ du LLM pour la génération de réponses.

<code>Use the following context to answer the user's question.  If you don't know the answer, say "I don't know," and do not fabricate information.
----------------
{context}</code>

Copier après la connexion

Cette approche a considérablement réduit les hallucinations, permis l'accès à des données à jour et facilité l'utilisation de données spécifiques à l'entreprise.

limites précoces de Rag

défis initiaux centrés sur la taille limitée de la fenêtre de contexte. La limite de jeton 4K de ChatGPT-3.5 (environ 3000 mots anglais) a limité la quantité de contexte et de longueur de réponse. Un équilibre était nécessaire pour éviter des contextes excessivement longs (limiter la durée de réponse) ou un contexte insuffisant (risquant l'omission d'informations cruciales).

Why Retrieval-Augmented Generation Is Still Relevant in the Era of Long-Context Language Models La fenêtre de contexte agit comme un tableau noir limité; Plus d'espace pour les instructions laisse moins pour la réponse.

le paysage actuel

Des changements importants se sont produits depuis lors, principalement concernant la taille de la fenêtre de contexte. Des modèles comme GPT-4O (publié en mai 2024) possèdent une fenêtre de contexte de jeton de 128K, tandis que Gemini 1.5 de Google (disponible depuis février 2024) offre une fenêtre de jeton massive de 1 million de jetons.

le rôle de changement de rag

Cette augmentation de la taille des fenêtres de contexte a déclenché un débat. Certains soutiennent qu'avec la capacité d'inclure des livres entiers dans l'invite, le besoin d'un contexte soigneusement sélectionné est diminué. Une étude (juillet 2024) a même suggéré que les invites de contexte à long terme pourraient surpasser le chiffon dans certains scénarios.

GÉNÉRATION AUGMÉDÉE DE RECOURATION OU LLMS DE CONTAT-CONTEXT? Une étude complète et une approche hybride

Cependant, une étude plus récente (septembre 2024) a contré cela, soulignant l'importance du chiffon et suggérant que les limitations précédentes découlent de l'ordre des éléments de contexte dans l'invite.

Pour défendre le chiffon à l'ère des modèles de langage à long contexte

Une autre étude pertinente (juillet 2023) a mis en évidence l'impact positionnel des informations dans de longues invites.

perdu au milieu: comment les modèles de langue utilisent des contextes longs

Why Retrieval-Augmented Generation Is Still Relevant in the Era of Long-Context Language Models Les informations au début de l'invite sont plus facilement utilisées par le LLM que les informations au milieu.

L'avenir de Rag

Malgré les progrès de la taille des fenêtres de contexte, le chiffon reste crucial, principalement en raison de considérations de coûts. Des invites plus longues exigent plus de puissance de traitement. Le chiffon, en limitant la taille rapide des informations essentielles, réduit considérablement les coûts de calcul. L'avenir du RAG peut impliquer le filtrage d'informations non pertinentes à partir de grands ensembles de données pour optimiser la qualité des coûts et des réponses. L'utilisation de modèles plus petits et spécialisés adaptés à des tâches spécifiques jouera également un rôle important.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!