Comment réduire les hallucinations des grands modèles de langage-IA-php.cn

Maison

Périphériques technologiques

Comment réduire les hallucinations des grands modèles de langage

DDD

Nov 03, 2023 am 10:47 AM

大型语言模型

L'hallucination LLM est le phénomène par lequel les grands modèles de langage (LLM) génèrent des résultats dénués de sens ou inexacts qui ne sont pas conformes aux modèles ou objets réels. Ces résultats erronés de l'IA proviennent de divers facteurs, notamment :

Surajustement : LLM apprend le bruit et les biais dans les données d'entraînement sous forme de modèles, ce qui amène le modèle à produire des résultats erronés sur les données de test.
Haute complexité du modèle : les LLM ont une grande complexité de modèle, ce qui leur permet de percevoir des corrélations inexistantes, créant ainsi des illusions.

Les grandes entreprises développant des systèmes d'IA génératives prennent des mesures pour résoudre le problème des hallucinations de l'IA, bien que certains experts estiment qu'il pourrait être impossible d'éliminer complètement les résultats erronés.

Google connecte ses modèles à Internet pour entraîner les réponses au sol à partir des données et des informations du réseau, réduisant ainsi le surapprentissage.

OpenAI utilise la rétroaction humaine et l'apprentissage par renforcement pour affiner le résultat de ChatGPT. Ils proposent une « supervision des processus » qui récompense les modèles pour les étapes de raisonnement correctes, et pas seulement pour la réponse finale. Cela peut améliorer l’explicabilité, mais certains remettent en question son efficacité contre la fabrication.

Malgré les risques d'hallucinations de l'IA, les entreprises et les utilisateurs peuvent toujours prendre des mesures pour compenser et limiter leurs dommages potentiels. Voici quelques façons de le résoudre :

Utilisez des données d'entraînement de haute qualité

L'utilisation de données d'entraînement de haute qualité est la clé pour réduire les hallucinations de l'IA. Les données de formation de haute qualité doivent être diversifiées, équilibrées, bien structurées et refléter des situations du monde réel.

Utilisation prévue claire

Définir clairement l'objectif spécifique et les utilisations autorisées d'un système d'IA peut aider à l'éloigner du contenu hallucinatoire. Les développeurs et les utilisateurs doivent clairement comprendre les fonctions et les utilisations des modèles d'intelligence artificielle et les respecter strictement lorsqu'ils les utilisent.

Utilisez des modèles de données pour guider les résultats de l'intelligence artificielle

L'utilisation de modèles de données structurées peut aider les modèles d'intelligence artificielle à générer une sortie conforme aux modèles attendus. Ces modèles fournissent un format cohérent pour la saisie des données dans le modèle et limitent la portée des inférences du modèle.

Réaction limite

Définir des contraintes et des limites sur les sorties potentielles du modèle peut réduire la spéculation incontrôlée. Par exemple, vous pouvez définir des seuils de probabilité clairs et utiliser des outils de filtrage pour filtrer les réponses qui ne répondent pas aux attentes.

Testez et améliorez continuellement le système

Grâce à des tests complets et à une surveillance continue, les performances du système d'intelligence artificielle peuvent être continuellement améliorées. L'évaluation des résultats peut identifier les domaines qui nécessitent des ajustements, tandis que de nouvelles données peuvent être utilisées pour recycler le modèle et mettre à jour ses connaissances.

Comptez sur la supervision humaine

L'inclusion de la supervision humaine peut fournir une protection essentielle. Lorsque des experts humains examinent le résultat, ils peuvent capturer et corriger tout contenu illusoire grâce à un jugement contextuel.

Chaîne d'invites de pensée

La chaîne d'invites de pensée est une technologie qui aide les modèles d'intelligence artificielle à effectuer un raisonnement en plusieurs étapes en fournissant une chaîne de pensée logique. Cette approche peut améliorer les performances des modèles d’intelligence artificielle dans des tâches telles que les mathématiques.

Décomposition des tâches et agents

La décomposition des tâches et agents est une méthode permettant d'améliorer les performances des modèles d'intelligence artificielle en décomposant des tâches complexes en plusieurs sous-tâches. Cette méthode peut tirer parti des avantages de différents modèles d’intelligence artificielle et améliorer les capacités de raisonnement des modèles d’intelligence artificielle.

L'hallucination de l'intelligence artificielle est un défi pour le développement de l'intelligence artificielle, mais en prenant des mesures efficaces, son risque peut être efficacement réduit.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

1 Il y a quelques semaines By DDD

R.E.P.O. Comment réparer l'audio si vous n'entendez personne

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Où trouver la courte de la grue à atomide atomique

1 Il y a quelques semaines By DDD

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7444

Tutoriel CakePHP

1371

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

Afficher plus

Related knowledge

Pourquoi les grands modèles linguistiques utilisent-ils SwiGLU comme fonction d'activation ? Apr 08, 2024 pm 09:31 PM

Si vous avez prêté attention à l'architecture des grands modèles de langage, vous avez peut-être vu le terme « SwiGLU » dans les derniers modèles et documents de recherche. SwiGLU peut être considéré comme la fonction d'activation la plus couramment utilisée dans les grands modèles de langage. Nous la présenterons en détail dans cet article. SwiGLU est en fait une fonction d'activation proposée par Google en 2020, qui combine les caractéristiques de SWISH et de GLU. Le nom chinois complet de SwiGLU est « unité linéaire à porte bidirectionnelle ». Il optimise et combine deux fonctions d'activation, SWISH et GLU, pour améliorer la capacité d'expression non linéaire du modèle. SWISH est une fonction d'activation très courante et largement utilisée dans les grands modèles de langage, tandis que GLU a montré de bonnes performances dans les tâches de traitement du langage naturel.

Le réglage fin peut-il vraiment permettre au LLM d'apprendre de nouvelles choses : l'introduction de nouvelles connaissances peut amener le modèle à produire davantage d'hallucinations Jun 11, 2024 pm 03:57 PM

Les grands modèles linguistiques (LLM) sont formés sur d'énormes bases de données textuelles, où ils acquièrent de grandes quantités de connaissances du monde réel. Ces connaissances sont intégrées à leurs paramètres et peuvent ensuite être utilisées en cas de besoin. La connaissance de ces modèles est « réifiée » en fin de formation. À la fin de la pré-formation, le modèle arrête effectivement d’apprendre. Alignez ou affinez le modèle pour apprendre à exploiter ces connaissances et répondre plus naturellement aux questions des utilisateurs. Mais parfois, la connaissance du modèle ne suffit pas, et bien que le modèle puisse accéder à du contenu externe via RAG, il est considéré comme bénéfique de l'adapter à de nouveaux domaines grâce à un réglage fin. Ce réglage fin est effectué à l'aide de la contribution d'annotateurs humains ou d'autres créations LLM, où le modèle rencontre des connaissances supplémentaires du monde réel et les intègre.

Visualisez l'espace vectoriel FAISS et ajustez les paramètres RAG pour améliorer la précision des résultats Mar 01, 2024 pm 09:16 PM

À mesure que les performances des modèles de langage open source à grande échelle continuent de s'améliorer, les performances d'écriture et d'analyse du code, des recommandations, du résumé de texte et des paires questions-réponses (QA) se sont toutes améliorées. Mais lorsqu'il s'agit d'assurance qualité, le LLM ne répond souvent pas aux problèmes liés aux données non traitées, et de nombreux documents internes sont conservés au sein de l'entreprise pour garantir la conformité, les secrets commerciaux ou la confidentialité. Lorsque ces documents sont interrogés, LLM peut halluciner et produire un contenu non pertinent, fabriqué ou incohérent. Une technique possible pour relever ce défi est la génération augmentée de récupération (RAG). Cela implique le processus d'amélioration des réponses en référençant des bases de connaissances faisant autorité au-delà de la source de données de formation pour améliorer la qualité et la précision de la génération. Le système RAG comprend un système de récupération permettant de récupérer des fragments de documents pertinents du corpus

Optimisation du LLM à l'aide de la technologie SPIN pour la formation de mise au point du jeu personnel Jan 25, 2024 pm 12:21 PM

2024 est une année de développement rapide pour les grands modèles de langage (LLM). Dans la formation du LLM, les méthodes d'alignement sont un moyen technique important, notamment le réglage fin supervisé (SFT) et l'apprentissage par renforcement avec rétroaction humaine qui s'appuie sur les préférences humaines (RLHF). Ces méthodes ont joué un rôle crucial dans le développement du LLM, mais les méthodes d’alignement nécessitent une grande quantité de données annotées manuellement. Face à ce défi, la mise au point est devenue un domaine de recherche dynamique, les chercheurs travaillant activement au développement de méthodes permettant d’exploiter efficacement les données humaines. Par conséquent, le développement de méthodes d’alignement favorisera de nouvelles percées dans la technologie LLM. L'Université de Californie a récemment mené une étude introduisant une nouvelle technologie appelée SPIN (SelfPlayfInetuNing). S

Utiliser des graphiques de connaissances pour améliorer les capacités des modèles RAG et atténuer les fausses impressions des grands modèles Jan 14, 2024 pm 06:30 PM

Les hallucinations sont un problème courant lorsque l'on travaille avec de grands modèles de langage (LLM). Bien que LLM puisse générer un texte fluide et cohérent, les informations qu'il génère sont souvent inexactes ou incohérentes. Afin d'éviter les hallucinations du LLM, des sources de connaissances externes, telles que des bases de données ou des graphiques de connaissances, peuvent être utilisées pour fournir des informations factuelles. De cette manière, LLM peut s’appuyer sur ces sources de données fiables, ce qui permet d’obtenir un contenu textuel plus précis et plus fiable. Base de données vectorielles et base de données vectorielles Knowledge Graph Une base de données vectorielles est un ensemble de vecteurs de grande dimension qui représentent des entités ou des concepts. Ils peuvent être utilisés pour mesurer la similarité ou la corrélation entre différentes entités ou concepts, calculées à travers leurs représentations vectorielles. Une base de données vectorielles peut vous indiquer, sur la base de la distance vectorielle, que « Paris » et « France » sont plus proches que « Paris » et

Explication détaillée de GQA, le mécanisme d'attention couramment utilisé dans les grands modèles, et l'implémentation du code Pytorch Apr 03, 2024 pm 05:40 PM

Grouped Query Attention (GroupedQueryAttention) est une méthode d'attention multi-requêtes dans les grands modèles de langage. Son objectif est d'atteindre la qualité du MHA tout en maintenant la vitesse du MQA. GroupedQueryAttention regroupe les requêtes et les requêtes au sein de chaque groupe partagent le même poids d'attention, ce qui permet de réduire la complexité de calcul et d'augmenter la vitesse d'inférence. Dans cet article, nous expliquerons l'idée de GQA et comment la traduire en code. GQA est dans le document GQA:TrainingGeneralizedMulti-QueryTransformerModelsfromMulti-HeadCheckpoint

RoSA : une nouvelle méthode pour un réglage fin efficace des paramètres de grands modèles Jan 18, 2024 pm 05:27 PM

À mesure que les modèles de langage évoluent à une échelle sans précédent, un réglage précis des tâches en aval devient prohibitif. Afin de résoudre ce problème, les chercheurs ont commencé à s’intéresser à la méthode PEFT et à l’adopter. L'idée principale de la méthode PEFT est de limiter la portée du réglage fin à un petit ensemble de paramètres afin de réduire les coûts de calcul tout en atteignant des performances de pointe sur les tâches de compréhension du langage naturel. De cette manière, les chercheurs peuvent économiser des ressources informatiques tout en maintenant des performances élevées, ouvrant ainsi la voie à de nouveaux points chauds de recherche dans le domaine du traitement du langage naturel. RoSA est une nouvelle technique PEFT qui, grâce à des expériences sur un ensemble de références, s'est avérée surpasser les précédentes méthodes adaptatives de bas rang (LoRA) et de réglage fin clairsemé pur utilisant le même budget de paramètres. Cet article approfondira

LLMLingua : intégrez LlamaIndex, compressez les astuces et fournissez des services d'inférence de modèles de langage étendus efficaces Nov 27, 2023 pm 05:13 PM

L'émergence de grands modèles linguistiques (LLM) a stimulé l'innovation dans de multiples domaines. Cependant, la complexité croissante des invites, motivée par des stratégies telles que les invites de chaîne de pensée (CoT) et l'apprentissage contextuel (ICL), pose des défis informatiques. Ces longues invites nécessitent des ressources de raisonnement importantes et nécessitent donc des solutions efficaces. Cet article présentera l'intégration de LLMLingua avec le propriétaire LlamaIndex pour effectuer un raisonnement efficace. LLMLingua est un article publié par des chercheurs de Microsoft lors de l'EMNLP2023. LongLLMLingua est une méthode qui améliore la capacité de llm à percevoir des informations clés dans de longues scènes de contexte grâce à une compression rapide. LLMLingua et llamindex

See all articles