Imaginez étudier un module à l'université pour un semestre. À la fin, après une phase d'apprentissage intensive, vous passez un examen - et vous pouvez vous rappeler les concepts les plus importants sans les rechercher.
Imaginez maintenant la deuxième situation: on vous pose une question sur un nouveau sujet. Vous ne connaissez pas immédiatement la réponse, vous prenez donc un livre ou parcourez un wiki pour trouver les bonnes informations pour la réponse.
Ces deux analogies représentent deux des méthodes les plus importantes pour améliorer le modèle de base d'un LLM ou l'adapter à des tâches et des zones spécifiques: la génération augmentée (RAG) de récupération et le réglage fin.
Mais quel exemple appartient à quelle méthode?
C'est exactement ce que je vais expliquer dans cet article: après cela, vous saurez ce que sont le chiffon et le réglage fin, les différences les plus importantes et quelle méthode convient à quelle application.
Plongeons-nous!
Table des matières
Des modèles de grandes langues (LLM) tels que Chatgpt d'Openai, Gemini de Google, Claude d'Anthropics ou Deepseek sont incroyablement puissants et se sont établis dans le travail quotidien sur un temps extrêmement court.
L'une de leurs plus grandes limites est que leurs connaissances se limitent à la formation. Un modèle formé en 2024 ne connaît pas les événements de 2025. Si nous demandons au modèle 4O de Chatgpt qui est le président américain actuel et donnez l'instruction claire que l'Internet ne devrait pas être utilisé, nous voyons qu'il ne peut pas répondre avec certitude: certitude:
De plus, les modèles ne peuvent pas accéder facilement aux informations spécifiques à l'entreprise, telles que les directives internes ou la documentation technique actuelle.
C'est exactement là que le chiffon et le réglage fin entrent en jeu.
Les deux méthodes permettent d'adapter un LLM à des exigences spécifiques:
Une LLM avec une génération augmentée (RAG) de récupération reste inchangée.
Cependant, il a accès à une source de connaissances externe et peut donc récupérer des informations qui ne sont pas stockées dans ses paramètres de modèle. RAG étend le modèle dans la phase d'inférence en utilisant des sources de données externes pour fournir les informations les plus récentes ou spécifiques. La phase d'inférence est le moment où le modèle génère une réponse.
Cela permet au modèle de rester à jour sans recyclage.
Comment ça marche?
Le point clé est que le LLM lui-même reste inchangé et que les poids internes du LLM restent les mêmes.
Supposons qu'une entreprise utilise un chatbot de support interne alimenté par AI.
Le chatbot aide les employés à répondre aux questions sur les politiques de l'entreprise, les processus informatiques ou les sujets RH. Si vous posez une question sur votre entreprise (par exemple, combien de jours de vacances me reste-t-il?), Le modèle ne vous rendrait logiquement pas une réponse significative. Un LLM classique sans chiffon ne saurait rien de l'entreprise - elle n'a jamais été formée avec ces données.
Cela modifie avec RAG: le chatbot peut rechercher une base de données externe des politiques de l'entreprise actuelles pour les documents les plus pertinents (par exemple, les fichiers PDF, les pages Wiki ou les FAQ internes) et fournir des réponses spécifiques.
Rag fonctionne de la même manière que lorsque nous, les humains, recherchons des informations spécifiques dans une bibliothèque ou une recherche Google - mais en temps réel.
Un étudiant qui est interrogé sur la signification de Crud consulte rapidement l'article de Wikipedia et les réponses créent, lisent, mettent à jour et supprime - tout comme un modèle de chiffon récupère les documents pertinents. Ce processus permet aux humains et à l'IA de fournir des réponses éclairées sans tout mémoriser.
Et cela fait de Rag un outil puissant pour garder les réponses précises et actuelles.
Au lieu de rechercher des informations externes, un LLM peut également être directement mis à jour avec de nouvelles connaissances grâce à un réglage fin.
Un réglage fin est utilisé pendant la phase de formation pour fournir au modèle des connaissances supplémentaires spécifiques au domaine. Un modèle de base existant est en outre formé avec de nouvelles données spécifiques. En conséquence, il «apprend» un contenu spécifique et intériorise les termes techniques, le style ou certains contenus, mais conserve sa compréhension générale du langage.
Cela rend fin à un outil efficace pour personnaliser les LLM à des besoins, des données ou des tâches spécifiques.
Comment cela marche-t-il?
Supposons maintenant que nous voulons utiliser un LLM qui nous fournit des réponses expertes aux questions juridiques.
Pour ce faire, ce LLM est formé avec des textes juridiques afin qu'il puisse fournir des réponses précises après un réglage fin. Par exemple, il apprend des termes complexes tels que «délit intentionnel» et peut nommer la base juridique appropriée dans le contexte du pays concerné. Au lieu de simplement donner une définition générale, il peut citer des lois et des précédents pertinents.
Cela signifie que vous n'avez plus un LLM général comme GPT-4O à votre disposition, mais un outil utile pour la prise de décision légale.
Si nous regardons à nouveau l'analogie avec les humains, le réglage fin est comparable à une connaissance intériorisée après une phase d'apprentissage intensive.
Après cette phase d'apprentissage, un étudiant en informatique sait que le terme Crud signifie créer, lire, mettre à jour, supprimer. Il ou elle peut expliquer le concept sans avoir besoin de le rechercher. Le vocabulaire général a été élargi.
Cette internalisation permet des réponses plus rapides et plus confiantes, tout comme un LLM affiné.
Les deux méthodes améliorent les performances d'un LLM pour des tâches spécifiques.
Les deux méthodes nécessitent des données bien préparées pour fonctionner efficacement.
Et les deux méthodes aident à réduire les hallucinations - la génération d'informations fausses ou fabriquées.
Mais si nous regardons le tableau ci-dessous, nous pouvons voir les différences entre ces deux méthodes:
Le chiffon est particulièrement flexible car le modèle peut toujours accéder aux données à jour sans avoir à être recyclé. Il nécessite moins d'efforts de calcul à l'avance, mais a besoin de plus de ressources tout en répondant à une question (inférence). La latence peut également être plus élevée.
Le réglage fin, en revanche, offre des temps d'inférence plus rapides car les connaissances sont stockées directement dans les poids du modèle et aucune recherche externe n'est nécessaire. L'inconvénient majeur est que la formation prend du temps et coûte coûteuse et nécessite de grandes quantités de données de formation de haute qualité.
RAG fournit au modèle des outils pour rechercher des connaissances en cas de besoin sans modifier le modèle lui-même, tandis que les réglages fins stocke les connaissances supplémentaires du modèle avec des paramètres et des poids ajustés.
Un cadre populaire pour construire un pipeline de génération augmentée (RAG) de récupération est Langchain. Ce cadre facilite la liaison des appels LLM avec un système de récupération et permet de récupérer des informations à partir de sources externes de manière ciblée.
1. Intégration de requête
Dans la première étape, la demande de l'utilisateur est convertie en vecteur à l'aide d'un modèle d'intégration. Cela se fait, par exemple, avec le texte-pending-ADA-002 d'Openai ou All-Minilm-L6-V2 de l'étreinte Face.
Cela est nécessaire car les bases de données vectorielles ne recherchent pas à travers des textes conventionnels, mais calculent plutôt les similitudes sémantiques entre les représentations numériques (intégres). En convertissant la requête utilisateur en un vecteur, le système peut non seulement rechercher des termes correspondants, mais également reconnaître des concepts qui sont similaires dans le contenu.
2. Recherche dans la base de données vectorielle
Le vecteur de requête résultant est ensuite comparé à une base de données vectorielle. L'objectif est de trouver les informations les plus pertinentes pour répondre à la question.
Cette recherche de similitude est effectuée à l'aide d'algorithmes approximatifs des voisins les plus proches (ANN). Les outils open source bien connus pour cette tâche sont, par exemple, Fais de Meta pour des recherches de similitude haute performance dans de grands ensembles de données ou ChromAdB pour les tâches de récupération de petite à moyenne taille.
3. Insertion dans le contexte LLM
Dans la troisième étape, les documents ou sections de texte récupérés sont intégrés dans l'invite afin que le LLM génère sa réponse en fonction de ces informations.
4. Génération de la réponse
Le LLM combine désormais les informations reçues avec son vocabulaire de langue générale et génère une réponse spécifique au contexte.
Une alternative à Langchain est la bibliothèque de transformateurs de visage étreint, qui fournit des classes de chiffon spécialement développées:
Alors qu'un LLM avec RAG utilise des informations externes pour la requête, avec un réglage fin, nous modifions les poids du modèle afin que le modèle stocke en permanence les nouvelles connaissances.
1. Préparation des données de formation
Le réglage fin nécessite une collecte de données de haute qualité. Cette collection se compose d'entrées et des réponses du modèle souhaitées. Pour un chatbot, par exemple, il peut s'agir de paires de questions-réponses. Pour les modèles médicaux, cela pourrait être des rapports cliniques ou des données de diagnostic. Pour une IA légale, il pourrait s'agir de textes et de jugements légaux.
Jetons un coup d'œil à un exemple: si nous regardons la documentation d'OpenAI, nous voyons que ces modèles utilisent un format de chat standardisé avec des rôles (système, utilisateur, assistant) pendant le réglage fin. Le format de données de ces paires de réponses aux questions est JSONL et ressemble à ceci, par exemple:
{"Messages": [{"Role": "System", "Content": "du Bist Ein Medizinischer Assistant."}, {"Role": "User", "Content": "était le symptôme sinnd einer Grippe?"}, {"Role": "Assistant", "Content": "Die Häufigsteten Ereiner Grippe Sind Fieber, Husten-Undud-udiner Grippe Sind Fieber, Huskel-undude, Grippe Sind Fieber, Huskel-undude, Grippe Sind Fieber, Huskel-undude, Grippe Sind Fieber, Huskel-Undude. Gelenkschmerzen. "}]}
D'autres modèles utilisent d'autres formats de données tels que les ensembles de données CSV, JSON ou Pytorch.
2. Sélection du modèle de base
Nous pouvons utiliser un LLM pré-formé comme point de départ. Ceux-ci peuvent être des modèles de source fermée tels que GPT-3.5 ou GPT-4 via l'API OpenAI ou les modèles open source tels que Deepseek, Llama, Mistral ou Falcon ou T5 ou Flan-T5 pour les tâches NLP.
3. Formation du modèle
Le réglage fin nécessite beaucoup de puissance de calcul, car le modèle est formé avec de nouvelles données pour mettre à jour ses poids. Particulièrement, des modèles tels que GPT-4 ou LLAMA 65B nécessitent des GPU ou des TPU puissants.
Pour réduire l'effort de calcul, il existe des méthodes optimisées telles que la LORA (adaptation de faible rang), où seul un petit nombre de paramètres supplémentaires sont formés, ou Qlora (LORA quantifiée), où des poids de modèle quantifiés (par exemple 4 bits) sont utilisés.
4. Déploiement et utilisation du modèle
Une fois le modèle formé, nous pouvons le déployer localement ou sur une plate-forme cloud telle que Hugging Face Model Hub, AWS ou Azure.
Le chiffon et le réglage fin ont des avantages et des inconvénients différents et conviennent donc à différents cas d'utilisation:
Le chiffon est particulièrement adapté lorsque le contenu est mis à jour dynamiquement ou fréquemment.
Par exemple, dans les chatbots FAQ où les informations doivent être récupérées dans une base de données de connaissances qui est constamment en expansion. La documentation technique qui est régulièrement mise à jour peut également être intégrée efficacement à l'aide de RAG - sans que le modèle ait à être constamment recyclé.
Un autre point est les ressources: si une puissance de calcul limitée ou un budget plus petit est disponible, RAG est plus logique car aucun processus de formation complexe n'est requis.
Le réglage fin, en revanche, convient lorsqu'un modèle doit être adapté à une entreprise ou à une industrie spécifique.
La qualité et le style de la réponse peuvent être améliorés grâce à une formation ciblée. Par exemple, le LLM peut ensuite générer des rapports médicaux avec une terminologie précise.
La règle de base est: le chiffon est utilisé lorsque les connaissances sont trop étendues ou trop dynamiques pour être pleinement intégrées dans le modèle, tandis que le réglage fin est le meilleur choix lorsque un comportement cohérent spécifique à la tâche est requis.
Et si nous combinons les deux?
C'est exactement ce qui se passe avec le réglage fin augmenté de récupération (radeau).
Le modèle est d'abord enrichi de connaissances spécifiques au domaine par un réglage fin afin qu'il comprenne la terminologie et la structure correctes. Le modèle est ensuite étendu avec RAG afin qu'il puisse intégrer des informations spécifiques et à jour provenant de sources de données externes. Cette combinaison assure à la fois une expertise approfondie et une adaptabilité en temps réel.
Les entreprises utilisent les avantages des deux méthodes.
Les deux méthodes - RAG et fins fins - étendent les capacités d'un LLM de base de différentes manières.
Fine-Tuning spécialise le modèle pour un domaine spécifique, tandis que RAG lui équipe de connaissances externes. Les deux méthodes ne s'excluent pas mutuellement et peuvent être combinées dans des approches hybrides. En regardant les coûts de calcul, le réglage fin est à l'avance à forte intensité de ressources mais efficace pendant le fonctionnement, tandis que RAG nécessite moins de ressources initiales mais consomme plus pendant l'utilisation.
Le chiffon est idéal lorsque la connaissance est trop vaste ou dynamique pour être intégrée directement dans le modèle. Le réglage fin est le meilleur choix lorsque la stabilité et l'optimisation cohérente pour une tâche spécifique sont nécessaires. Les deux approches servent des objectifs distincts mais complémentaires, ce qui en fait de précieux outils dans les applications d'IA.
Sur ma substitution, j'écris régulièrement des résumés sur les articles publiés dans les domaines de la technologie, du python, de la science des données, de l'apprentissage automatique et de l'IA. Si vous êtes intéressé, jetez un œil ou abonnez-vous.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!