Übersetzer |. Li Rui
Rezensent |. Die Verarbeitung natürlicher Sprache (NLP) in der Versicherungsbranche kann von einem hybriden maschinellen Lern-/Symbolansatz profitieren, um die Skalierbarkeit zu verbessern und gleichzeitig fortgeschrittenes symbolisches Denken zu nutzen.
Versicherungsdokumente und -policen: Komplexe Anwendungsfälle
Die Hauptschwierigkeiten ergeben sich aus:
Der komplexen Gestaltung versicherungsbezogener Dokumente.Sehen Sie sich unten ein einfaches Beispiel an: Wenn Sie versuchen, eine Engine zu erstellen, um festzustellen, ob in einer Police eine Abdeckung „Terrorismus“ vorhanden ist, müssen Sie unabhängig von der Platzierung einen anderen Wert zuweisen:
(1) Erklärung Seite Sub-Limit-Teil.
(2) Abschnitt „Ausschluss“ der Richtlinie.
(3) Fügen Sie einen oder mehrere Versicherungsvermerke hinzu.
(4) Fügen Sie der Berichterstattung spezifische Vermerke hinzu.
Der Mangel an qualitativ hochwertigen, angemessen großen, kommentierten Korpora von Versicherungsdokumenten steht in direktem Zusammenhang mit der inhärenten Schwierigkeit, solche komplexen Dokumente zu kommentieren, und mit dem Aufwand, der für die Kommentierung Zehntausender Policen erforderlich ist.
Und das ist nur die Spitze des Eisbergs. Darüber hinaus ist auch die Notwendigkeit einer Normalisierung des Versicherungsbegriffs zu berücksichtigen.
Sprachnormalisierung: eine unsichtbare, aber mächtige Kraft in der Versicherungssprache
Normalisierungskonzept bedeutet, Sprachelemente unter demselben Tag zu gruppieren, die sehr unterschiedlich aussehen können. Obwohl es viele Beispiele gibt, stammen die wichtigsten aus Versicherungspolicen, die Naturkatastrophen abdecken.
In diesem Fall gelten für verschiedene Überschwemmungsgebiete unterschiedliche Untergrenzwerte. Gebiete mit dem höchsten Hochwasserrisiko werden oft als „Hochwasserrisikogebiete“ bezeichnet. Dieses Konzept kann wie folgt dargestellt werden:
(1) Überschwemmungsgebiet der Stufe 1
(2) Überschwemmungsgebiet (SFHA)
(3) Überschwemmungsgebiet A
und so weiter
Eigentlich kann dort jeder Versicherungsschutz bestehen Es gibt viele Begriffe, die in Gruppen zusammengefasst werden können, wobei die wichtigste Naturkatastrophenversicherung je nach geografischem Gebiet und den damit verbundenen Risiken sogar zwei oder drei Unterscheidungsstufen (I, II und III) aufweist.
Multiplizieren Sie dies mit allen möglichen Elementen, die Sie finden können, und die Anzahl der Varianten kann schnell sehr groß werden. Dies führt dazu, dass sowohl Annotatoren für maschinelles Lernen als auch NLP-Engines (Natural Language Processing) beim Versuch, die richtigen Informationen abzurufen, abzuleiten oder sogar zu kennzeichnen, ins Stocken geraten.
Eine neue Art des linguistischen Clusterings: ein hybrider Ansatz
Während traditionelles Text-Clustering in unüberwachten Lernmethoden verwendet wird, um semantische Muster abzuleiten und Dokumente mit ähnlichen Themen, Sätzen mit ähnlicher Bedeutung usw. zu gruppieren, sind Hybridmethoden ganz anders. Mikrolinguistische Cluster werden auf granularer Ebene mithilfe von Algorithmen für maschinelles Lernen erstellt, die auf gekennzeichneten Daten unter Verwendung vordefinierter normalisierter Werte trainiert werden. Sobald ein mikrolinguistischer Cluster abgeleitet ist, kann er in weiteren Aktivitäten des maschinellen Lernens oder in hybrider Pipelines-gesteuerter Inferenzlogik basierend auf symbolischen Schichten verwendet werden.
Dies steht im Einklang mit der traditionellen goldenen Programmierregel: „Brich das Problem auf“. Der erste Schritt bei der Lösung eines komplexen Anwendungsfalls (wie die meisten Anwendungsfälle im Versicherungsbereich) besteht darin, ihn in kleinere, schmackhaftere Teile zu zerlegen.
Welche Aufgaben kann Mixed-Language-Clustering erfüllen und wie skalierbar ist es?
Diese Art der Sprachclusterung löst dieses Problem jedoch, indem sie maschinelles Lernen nutzt, um Konzepte zu identifizieren, die dann an die komplexe und präzise Logik der nächsten symbolischen Engine in der Pipeline übergeben werden.
Die Möglichkeiten sind endlos: Symbolische Schritte können beispielsweise den inneren Wert der Erkennung durch maschinelles Lernen basierend auf dem Dokumentsegment ändern, zu dem das Konzept gehört.
Hier ist ein Beispiel für die Verwendung des Notationsprozesses der „Segmentierung“ (Aufteilen von Text in relevante Bereiche), um zu sehen, wie die vom Modul für maschinelles Lernen übergebenen Beschriftungen verwendet werden.
Stellen Sie sich vor, ein Model muss verstehen, ob bestimmte Deckungen von einer 100-seitigen Police ausgeschlossen sind.
Die Engine für maschinelles Lernen führt zunächst alle möglichen Variationen der „Kunst“-Abdeckung zusammen:
Anschließend prüft der Abschnitt „Symbole“ der Pipeline, ob das Tag „Kunst“ im Abschnitt „Ausschlüsse“ erwähnt wird, um zu verstehen, ob der Versicherungsschutz von der Police ausgeschlossen ist oder ob er abgedeckt ist (als Sub -Limitliste) Teil).
Aus diesem Grund müssen sich Annotatoren für maschinelles Lernen nicht darum kümmern, allen „Arts“-Varianten basierend auf ihrer Position in der Richtlinie unterschiedliche Bezeichnungen zuzuweisen: Sie müssen ihre Varianten lediglich mit „Arts“ (Arts) annotieren, was der Fall ist dienen als Mikrosprachencluster.
Ein weiteres nützliches Beispiel für komplexe Aufgaben ist die Datenaggregation. Wenn die Hybrid-Engine darauf ausgelegt ist, Unterbeschränkungen einer bestimmten Abdeckung sowie Probleme bei der Abdeckungsnormalisierung zu extrahieren, muss mit einer zusätzlichen Komplexitätsebene umgegangen werden: der Reihenfolge der für die Aggregation verwendeten Sprachelemente.
Bedenken Sie, dass die anstehende Aufgabe nicht nur darin besteht, die Untergrenzen einer bestimmten Abdeckung zu extrahieren, sondern auch deren Qualifikationsmerkmale (pro Ereignis, Aggregation usw.). Diese drei Artikel können in verschiedenen Reihenfolgen angeordnet werden:
In Aggregation Alles ausnutzen Diese Datenpermutationen können gleichzeitig die Komplexität von Modellen für maschinelles Lernen erheblich erhöhen. Ein hybrider Ansatz hingegen würde es dem Modell des maschinellen Lernens ermöglichen, die normalisierten Bezeichnungen zu identifizieren und dann die symbolische Argumentation die richtige Reihenfolge basierend auf den Eingabedaten aus dem Teil des maschinellen Lernens ermitteln zu lassen.
Dies sind nur zwei Beispiele, die zeigen, dass eine unbegrenzte Menge komplexer symbolischer Logik und Argumentation auf skalierbare Algorithmen für maschinelles Lernen angewendet werden kann, um normalisierte Konzepte zu identifizieren.
Neben der Skalierbarkeit bringt symbolisches Denken weitere Vorteile für den gesamten Projektworkflow:
Originaltitel: Insurance Policies: Document Clustering Through Hybrid NLP, Autor: Stefano Reitano
Das obige ist der detaillierte Inhalt vonStrategien und Methoden zum Clustering von Versicherungsdokumenten mithilfe natürlicher Sprachverarbeitung. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!