Maison > Périphériques technologiques > IA > Génération de données synthétiques avec LLMS

Génération de données synthétiques avec LLMS

PHPz
Libérer: 2025-02-25 16:54:10
original
324 Les gens l'ont consulté

Génération auprès de la récupération (RAG): révolutionner l'analyse des données financières

Cet article explore la popularité croissante de la génération (RAG) de la récupération (RAG) dans les entreprises financières, en se concentrant sur la façon dont il rationalise l'accès aux connaissances et relève des défis clés dans les solutions axées sur la LLM. RAG combine un retriever (localiser les documents pertinents) avec un modèle de langue large (LLM) (synthèse des réponses), se révélant inestimable pour les tâches telles que le support client, la recherche et la gestion interne des connaissances.

L'évaluation LLM efficace est cruciale. Inspiré par le développement axé sur les tests (TDD), une approche axée sur l'évaluation utilise des repères mesurables pour valider et affiner les flux de travail AI. Pour RAG, cela implique de créer des paires d'entrée-sortie représentatives (par exemple, des paires de questions et réponses pour les chatbots, ou des documents source et des résumés attendus). Traditionnellement, cette création d'ensembles de données reposait fortement sur des experts en la matière (PME), ce qui conduit à des processus longs, incohérents et coûteux. De plus, les limites des LLMS dans la gestion des éléments visuels dans les documents (tableaux, diagrammes) entravaient la précision, avec des outils d'OCR standard qui ne tombent souvent pas.

surmonter les défis avec les capacités multimodales

L'émergence de modèles de fondations multimodales offre une solution. Ces modèles traitent à la fois du texte et du contenu visuel, éliminant le besoin d'extraction de texte séparée. Ils peuvent ingérer des pages entières, reconnaître les structures de mise en page, les graphiques et les tables, améliorant ainsi la précision, l'évolutivité et la réduction de l'effort manuel.

Étude de cas: Analyse du rapport de recherche de gestion de la patrimoine

Cette étude utilise le rapport Cerulli 2023 (un document de gestion de patrimoine typique combinant du texte et des visuels complexes) pour démontrer la génération automatisée de questions et réponses. L'objectif était de générer des questions incorporant des éléments visuels et de produire des réponses fiables. Le processus a utilisé Claude Sonnet 3.5 d'Anthropic, qui gère la conversion PDF-image en interne, simplifiant le flux de travail et réduisant la complexité du code.

L'invite a demandé au modèle d'analyser des pages spécifiques, d'identifier les titres de page, de créer des questions faisant référence au contenu visuel ou textuel et à générer deux réponses distinctes pour chaque question. Une approche d'apprentissage comparative a été mise en œuvre, présentant deux réponses pour l'évaluation et la sélection de la réponse supérieure. Cela reflète la prise de décision humaine, où la comparaison des alternatives simplifie le processus. Cela s'aligne sur les meilleures pratiques mises en évidence dans «Ce que nous avons appris d'une année de construction avec les LLM», mettant l'accent sur la stabilité des comparaisons par paires pour l'évaluation LLM.

Claude Opus, avec ses capacités de raisonnement avancé, a agi comme le «juge», sélectionnant la meilleure réponse en fonction de critères comme la clarté et la franchise. Cela réduit considérablement l'examen manuel des PME, améliorant l'évolutivité et l'efficacité. Alors que la vérification initiale des SME est essentielle, cette dépendance diminue avec le temps à mesure que la confiance du système augmente.

Optimisation du flux de travail: mise en cache, lots et sélection des pages

Plusieurs optimisations ont été implémentées:

  • Cache: La mise en cache a considérablement réduit les coûts. Traiter le rapport sans mise en cache coûte 9 $; Avec la mise en cache, cela a coûté 3 $ (une économie 3X). Les économies de coûts sont encore plus dramatiques à grande échelle.
  • Traitement par lots: en utilisant les coûts de production en deux de lots d'Anthropic, se révélant beaucoup plus rentable que le traitement individuel.
  • Sélection de pages: Le traitement du document en lots de 10 pages a donné le meilleur équilibre entre précision et efficacité. L'utilisation de titres de page claire comme ancres s'est avéré plus fiable que de s'appuyer uniquement sur les numéros de page pour lier les paires de questions / réponses à leur source.

Exemple de sortie et d'avantages

Un exemple montre comment le LLM a synthétisé avec précision les informations des tables du rapport pour répondre à une question sur la distribution AUM. Les avantages globaux comprennent:

  • Réduction significative des coûts par la mise en cache et le traitement par lots.
  • réduit le temps et les efforts pour les PME , leur permettant de se concentrer sur des tâches de plus grande valeur.

Cette approche démontre une solution évolutive et rentable pour créer des ensembles de données d'évaluation pour les systèmes de chiffon, en tirant parti de la puissance des LLM multimodaux pour améliorer la précision et l'efficacité de l'analyse des données financières. Les images du texte d'origine sont incluses ci-dessous:

Synthetic Data Generation with LLMs Synthetic Data Generation with LLMs

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal