


Stratégies et méthodes de regroupement de documents d'assurance à l'aide du traitement du langage naturel
Traducteur | Li Rui
Réviseur | Sun Shujuan
Le traitement du langage naturel (NLP) dans le secteur de l'assurance peut bénéficier d'une approche hybride apprentissage automatique/symbolique pour améliorer l'évolutivité tout en tirant parti du raisonnement symbolique avancé.
Documents et polices d'assurance : cas d'utilisation complexes
On sait que jusqu'à 87 % des projets de science des données ne parviennent pas à passer de la preuve de concept à la production. Les projets de traitement du langage naturel (NLP) dans le domaine de l'assurance ne le sont pas ; exception. Ils doivent surmonter certaines des difficultés inévitablement associées à cet espace et à ses subtilités.
Les principales difficultés viennent de :
- La présentation complexe des documents liés à l'assurance.
- Manque de corpus volumineux avec des annotations pertinentes.
La complexité de la mise en page est si grande qu'un même concept linguistique peut changer radicalement de sens et de valeur selon l'endroit où il est placé dans le document.
Regardez un exemple simple ci-dessous : Si vous essayez de construire un moteur pour identifier si une couverture « terrorisme » est présente dans une police, vous devrez attribuer une valeur différente quel que soit l'endroit où elle est placée :
(1) Déclaration page Partie sous-limite.
(2) Section « Exclusion » de la police.
(3) Ajoutez un ou plusieurs avenants d'assurance.
(4) Ajoutez des mentions spécifiques à la couverture.
Le manque de corpus de documents d'assurance annotés de haute qualité et de taille appropriée est directement lié à la difficulté inhérente à l'annotation de documents aussi complexes et à la quantité d'efforts requis pour annoter des dizaines de milliers de polices.
Et ce n'est que la pointe de l'iceberg. Au-delà de cela, il faut également considérer la nécessité de normaliser la notion d’assurance.
La normalisation du langage : une force invisible mais puissante dans le langage de l'assurance
Lorsqu'il s'agit de bases de données, la normalisation des concepts est un processus bien compris. Parce qu’elle est essentielle pour appliquer le raisonnement et augmenter la vitesse du processus d’annotation, elle est également cruciale pour la PNL dans le domaine de l’assurance.
Le concept de normalisation signifie le regroupement sous les mêmes éléments de langage de balises, qui peuvent sembler très différents. Bien qu’il existe de nombreux exemples, les plus importants proviennent des polices d’assurance couvrant les catastrophes naturelles.
Dans ce cas, différentes sous-limites s'appliqueront aux différentes zones inondables. Les zones présentant le risque d'inondation le plus élevé sont souvent appelées « zones d'inondation à haut risque ». Ce concept peut être représenté comme suit :
(1) Zone inondable de niveau 1
(2) Zone à risque d'inondation (SFHA)
(3) Zone inondable A
et ainsi de suite
En fait, n'importe quelle couverture d'assurance peut y avoir Il existe de nombreux termes qui peuvent être regroupés, la couverture des catastrophes naturelles la plus importante ayant même deux ou trois niveaux de distinction (I, II et III) en fonction de la zone géographique spécifique et des risques inhérents.
Multipliez cela par tous les éléments possibles que vous pouvez trouver et le nombre de variantes peut vite devenir très important. Cela entraîne l'enlisement des annotateurs d'apprentissage automatique et des moteurs de traitement du langage naturel (NLP) lorsqu'ils tentent de récupérer, de déduire ou même d'étiqueter les informations correctes.
Un nouveau type de clustering linguistique : une approche hybride
Une meilleure façon de résoudre des tâches complexes de traitement du langage naturel (NLP) repose sur des techniques hybrides (apprentissage automatique/symbolique) qui améliorent le travail d'assurance grâce au clustering microlinguistique basé sur l'apprentissage automatique. les résultats et le cycle de vie du processus sont ensuite hérités par le moteur symbolique.
Alors que le regroupement de textes traditionnel est utilisé dans les méthodes d'apprentissage non supervisées pour déduire des modèles sémantiques et regrouper des documents ayant des sujets similaires, des phrases ayant des significations similaires, etc., les méthodes hybrides sont assez différentes. Les clusters microlinguistiques sont créés à un niveau granulaire à l'aide d'algorithmes d'apprentissage automatique entraînés sur des données étiquetées à l'aide de valeurs normalisées prédéfinies. Une fois qu'un cluster microlinguistique est déduit, il peut être utilisé dans d'autres activités d'apprentissage automatique ou dans une logique d'inférence pilotée par des pipelines hybrides basée sur des couches symboliques.
Cela s'inscrit dans la règle d'or traditionnelle de la programmation : « décomposer le problème ». La première étape pour résoudre un cas d’utilisation complexe (comme la plupart des cas d’utilisation dans le domaine de l’assurance) consiste à le diviser en morceaux plus petits et plus acceptables.
Quelles tâches le clustering multilingue peut-il accomplir et dans quelle mesure est-il évolutif ?
Les moteurs symboliques sont souvent qualifiés d'extrêmement précis mais non évolutifs car ils n'ont pas la flexibilité de l'apprentissage automatique lorsqu'il s'agit de gérer des situations non vues pendant la phase de formation.
Cependant, ce type de clustering de langage résout ce problème en tirant parti de l'apprentissage automatique pour identifier les concepts qui sont ensuite transmis à la logique complexe et précise du moteur symbolique suivant dans le pipeline.
Les possibilités sont infinies : par exemple, des étapes symboliques peuvent modifier la valeur intrinsèque de la reconnaissance par apprentissage automatique en fonction du segment de document auquel appartient le concept.
Voici un exemple d'utilisation du processus de notation de « segmentation » (divisation du texte en régions pertinentes) pour voir comment utiliser les étiquettes transmises par le module d'apprentissage automatique.
Imaginez que le modèle doive comprendre si certaines couvertures sont exclues d'une police de 100 pages.
Le moteur d'apprentissage automatique regroupera dans un premier temps toutes les variantes possibles de la couverture « Arts » :
- « Beaux-Arts »
- « Œuvre d'Art »
- « Objets artistiques d'art
- Bijoux
- et ainsi de suite.
Suite à cela, la partie symboles du pipeline vérifiera si la section « Exclusions » mentionne la balise « Arts » pour comprendre si la couverture est exclue de la police, ou si elle est couverte (sous forme de liste de sous-limites) partie).
Pour cette raison, les annotateurs de machine learning n'ont pas à se soucier d'attribuer des étiquettes différentes à toutes les variantes « Arts » en fonction de leur position dans la politique : il leur suffit d'annoter leurs variantes avec « Arts » ( Arts), ce qui servir de cluster de micro-langages.
Un autre exemple utile de tâches complexes est l'agrégation de données. Si le moteur hybride est conçu pour extraire les sous-restrictions d'une couverture spécifique, ainsi que les problèmes de normalisation de la couverture, il existe un niveau de complexité supplémentaire à gérer : l'ordre des éléments de langue utilisés pour l'agrégation.
Considérez que la tâche à accomplir est d'extraire non seulement les sous-limites d'une couverture spécifique, mais également ses qualificatifs (par événement, agrégation, etc.). Ces trois articles peuvent être disposés dans plusieurs ordres différents :
- Beaux-Arts 100 000 $ par article
- Beaux-Arts par article 100 000 $
- Par article 100 000 $ Beaux-Arts
- 100 000 $ Beaux-Arts
- Beaux-Arts 100 000 $
Dans l'ensemble Exploiter tout ces permutations simultanées de données peuvent augmenter considérablement la complexité des modèles d’apprentissage automatique. Une approche hybride, en revanche, permettrait au modèle d'apprentissage automatique d'identifier les étiquettes normalisées, puis au raisonnement symbolique d'identifier l'ordre correct en fonction des données d'entrée de la partie d'apprentissage automatique.
Ce ne sont là que deux exemples qui montrent qu'une quantité illimitée de logique et de raisonnement symboliques complexes peuvent être appliqués en plus d'algorithmes d'apprentissage automatique évolutifs pour identifier des concepts normalisés.
Des workflows évolutifs plus faciles à créer et à maintenir
En plus de l'évolutivité, le raisonnement symbolique apporte d'autres avantages au workflow global du projet :
- Pas besoin d'implémenter différents workflows d'apprentissage automatique pour des tâches complexes, différentes balises doivent être implémentées et entretenu. De plus, le recyclage d’un seul modèle d’apprentissage automatique est plus rapide et consomme moins de ressources que le recyclage de plusieurs modèles.
- Étant donné que les parties complexes de la logique métier sont traitées symboliquement, il est beaucoup plus facile pour les annotateurs de données d'ajouter des annotations humaines aux pipelines d'apprentissage automatique.
- Pour les mêmes raisons mentionnées ci-dessus, il est également plus facile pour les testeurs de fournir des commentaires directement au processus de standardisation du machine learning. De plus, étant donné que la partie apprentissage automatique du flux de travail normalise les éléments de langage, les utilisateurs disposeront d'une liste plus petite de balises avec lesquelles étiqueter les documents.
- Les règles symboliques n'ont pas besoin d'être mises à jour fréquemment : ce qui est fréquemment mis à jour, c'est la partie machine learning, qui bénéficie également des retours des utilisateurs.
Conclusion
- L'apprentissage automatique dans les projets complexes dans le domaine de l'assurance peut en souffrir car la logique d'inférence est difficile à compresser en simples balises ; cela rend également la vie de l'annotateur plus difficile ;
- Le placement du texte et les inférences peuvent changer radicalement le sens réel des concepts ayant la même forme linguistique.
- Dans un flux de travail d'apprentissage automatique pur, plus la logique est complexe, plus de documents de formation sont généralement nécessaires pour atteindre une précision au niveau de la production.
- Pour cette raison, le machine learning nécessite des milliers (voire des dizaines de milliers) de documents pré-étiquetés pour construire des modèles efficaces.
- Une approche hybride réduit la complexité : l'apprentissage automatique et les annotations des utilisateurs créent des clusters/balises de langage, et ceux-ci sont ensuite utilisés comme points de départ ou éléments de base pour que le moteur symbolique atteigne ses objectifs.
- Les retours utilisateurs, une fois validés, peuvent être utilisés pour recycler le modèle sans modifier les parties les plus granulaires (qui peuvent être gérées par la partie symbolique du workflow).
Titre original : Politiques d'assurance : regroupement de documents via la PNL hybride, auteur : Stefano Reitano
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Dans les domaines de l’apprentissage automatique et de la science des données, l’interprétabilité des modèles a toujours été au centre des préoccupations des chercheurs et des praticiens. Avec l'application généralisée de modèles complexes tels que l'apprentissage profond et les méthodes d'ensemble, la compréhension du processus décisionnel du modèle est devenue particulièrement importante. Explainable AI|XAI contribue à renforcer la confiance dans les modèles d'apprentissage automatique en augmentant la transparence du modèle. L'amélioration de la transparence des modèles peut être obtenue grâce à des méthodes telles que l'utilisation généralisée de plusieurs modèles complexes, ainsi que les processus décisionnels utilisés pour expliquer les modèles. Ces méthodes incluent l'analyse de l'importance des caractéristiques, l'estimation de l'intervalle de prédiction du modèle, les algorithmes d'interprétabilité locale, etc. L'analyse de l'importance des fonctionnalités peut expliquer le processus de prise de décision du modèle en évaluant le degré d'influence du modèle sur les fonctionnalités d'entrée. Estimation de l’intervalle de prédiction du modèle

En termes simples, un modèle d’apprentissage automatique est une fonction mathématique qui mappe les données d’entrée à une sortie prédite. Plus précisément, un modèle d'apprentissage automatique est une fonction mathématique qui ajuste les paramètres du modèle en apprenant à partir des données d'entraînement afin de minimiser l'erreur entre la sortie prédite et la véritable étiquette. Il existe de nombreux modèles dans l'apprentissage automatique, tels que les modèles de régression logistique, les modèles d'arbre de décision, les modèles de machines à vecteurs de support, etc. Chaque modèle a ses types de données et ses types de problèmes applicables. Dans le même temps, il existe de nombreux points communs entre les différents modèles, ou il existe une voie cachée pour l’évolution du modèle. En prenant comme exemple le perceptron connexionniste, en augmentant le nombre de couches cachées du perceptron, nous pouvons le transformer en un réseau neuronal profond. Si une fonction noyau est ajoutée au perceptron, elle peut être convertie en SVM. celui-ci

Dans les années 1950, l’intelligence artificielle (IA) est née. C’est à ce moment-là que les chercheurs ont découvert que les machines pouvaient effectuer des tâches similaires à celles des humains, comme penser. Plus tard, dans les années 1960, le Département américain de la Défense a financé l’intelligence artificielle et créé des laboratoires pour poursuivre son développement. Les chercheurs trouvent des applications à l’intelligence artificielle dans de nombreux domaines, comme l’exploration spatiale et la survie dans des environnements extrêmes. L'exploration spatiale est l'étude de l'univers, qui couvre l'ensemble de l'univers au-delà de la terre. L’espace est classé comme environnement extrême car ses conditions sont différentes de celles de la Terre. Pour survivre dans l’espace, de nombreux facteurs doivent être pris en compte et des précautions doivent être prises. Les scientifiques et les chercheurs pensent qu'explorer l'espace et comprendre l'état actuel de tout peut aider à comprendre le fonctionnement de l'univers et à se préparer à d'éventuelles crises environnementales.

Cet article présentera comment identifier efficacement le surajustement et le sous-apprentissage dans les modèles d'apprentissage automatique grâce à des courbes d'apprentissage. Sous-ajustement et surajustement 1. Surajustement Si un modèle est surentraîné sur les données de sorte qu'il en tire du bruit, alors on dit que le modèle est en surajustement. Un modèle surajusté apprend chaque exemple si parfaitement qu'il classera mal un exemple inédit/inédit. Pour un modèle surajusté, nous obtiendrons un score d'ensemble d'entraînement parfait/presque parfait et un score d'ensemble/test de validation épouvantable. Légèrement modifié : "Cause du surajustement : utilisez un modèle complexe pour résoudre un problème simple et extraire le bruit des données. Parce qu'un petit ensemble de données en tant qu'ensemble d'entraînement peut ne pas représenter la représentation correcte de toutes les données."

Les défis courants rencontrés par les algorithmes d'apprentissage automatique en C++ incluent la gestion de la mémoire, le multithread, l'optimisation des performances et la maintenabilité. Les solutions incluent l'utilisation de pointeurs intelligents, de bibliothèques de threads modernes, d'instructions SIMD et de bibliothèques tierces, ainsi que le respect des directives de style de codage et l'utilisation d'outils d'automatisation. Des cas pratiques montrent comment utiliser la bibliothèque Eigen pour implémenter des algorithmes de régression linéaire, gérer efficacement la mémoire et utiliser des opérations matricielles hautes performances.

Traducteur | Revu par Li Rui | Chonglou Les modèles d'intelligence artificielle (IA) et d'apprentissage automatique (ML) deviennent aujourd'hui de plus en plus complexes, et le résultat produit par ces modèles est une boîte noire – impossible à expliquer aux parties prenantes. L'IA explicable (XAI) vise à résoudre ce problème en permettant aux parties prenantes de comprendre comment fonctionnent ces modèles, en s'assurant qu'elles comprennent comment ces modèles prennent réellement des décisions et en garantissant la transparence des systèmes d'IA, la confiance et la responsabilité pour résoudre ce problème. Cet article explore diverses techniques d'intelligence artificielle explicable (XAI) pour illustrer leurs principes sous-jacents. Plusieurs raisons pour lesquelles l’IA explicable est cruciale Confiance et transparence : pour que les systèmes d’IA soient largement acceptés et fiables, les utilisateurs doivent comprendre comment les décisions sont prises

L'apprentissage automatique est une branche importante de l'intelligence artificielle qui donne aux ordinateurs la possibilité d'apprendre à partir de données et d'améliorer leurs capacités sans être explicitement programmés. L'apprentissage automatique a un large éventail d'applications dans divers domaines, de la reconnaissance d'images et du traitement du langage naturel aux systèmes de recommandation et à la détection des fraudes, et il change notre façon de vivre. Il existe de nombreuses méthodes et théories différentes dans le domaine de l'apprentissage automatique, parmi lesquelles les cinq méthodes les plus influentes sont appelées les « Cinq écoles d'apprentissage automatique ». Les cinq grandes écoles sont l’école symbolique, l’école connexionniste, l’école évolutionniste, l’école bayésienne et l’école analogique. 1. Le symbolisme, également connu sous le nom de symbolisme, met l'accent sur l'utilisation de symboles pour le raisonnement logique et l'expression des connaissances. Cette école de pensée estime que l'apprentissage est un processus de déduction inversée, à travers les connaissances existantes.

MetaFAIR s'est associé à Harvard pour fournir un nouveau cadre de recherche permettant d'optimiser le biais de données généré lors de l'apprentissage automatique à grande échelle. On sait que la formation de grands modèles de langage prend souvent des mois et utilise des centaines, voire des milliers de GPU. En prenant comme exemple le modèle LLaMA270B, sa formation nécessite un total de 1 720 320 heures GPU. La formation de grands modèles présente des défis systémiques uniques en raison de l’ampleur et de la complexité de ces charges de travail. Récemment, de nombreuses institutions ont signalé une instabilité dans le processus de formation lors de la formation des modèles d'IA générative SOTA. Elles apparaissent généralement sous la forme de pics de pertes. Par exemple, le modèle PaLM de Google a connu jusqu'à 20 pics de pertes au cours du processus de formation. Le biais numérique est à l'origine de cette imprécision de la formation,
