自然言語処理を使用して保険書類をクラスタリングするための戦略と方法
翻訳者|Li Rui
査読者|Sun Shujuan
保険業界の自然言語処理 (NLP) は、高度なシンボリックを活用しながら、ハイブリッド機械学習/シンボリック アプローチの恩恵を受けてスケーラビリティを向上できます。推論。
保険文書と保険契約: 複雑な使用例
データ サイエンス プロジェクトの最大 87% が概念実証から概念実証への移行に失敗していることはよく知られています。言語処理 (NLP) プロジェクトも例外ではありません。彼らは、この空間とその複雑さに必然的に伴ういくつかの困難を克服しなければなりません。
主な問題点は次のとおりです。
- 保険関連書類の複雑なレイアウト。
- 関連する注釈を備えた大規模なコーパスが不足しています。
レイアウトの複雑さは非常に大きいため、同じ言語概念であっても、文書内のどこに配置されるかによって、その意味や価値が大幅に変わる可能性があります。
簡単な例を見てみましょう: 保険に「テロ」補償が存在するかどうかを識別するエンジンを構築しようとすると、それがどこに配置されているかに関係なく、別の値を割り当てる必要があります:
(1) 宣言ページの一部をサブリミットします。
(2) ポリシーの「除外」セクション。
(3) 1 つ以上の保険裏書きを追加します。
(4) 報道内容に具体的な推奨を追加します。
高品質で適切なサイズの注釈付き保険文書コーパスが不足していることは、このような複雑な文書に注釈を付ける固有の難しさと、数万件の保険契約に注釈を付けるのに必要な労力に直接関係しています。
そして、これは氷山の一角にすぎません。これに加えて、保険の概念を正常化する必要性も考慮する必要があります。
言語の標準化: 保険用語における目には見えない強力な力
データベースを扱う場合、概念の標準化はよく理解されているプロセスです。これは推論を適用し、アノテーション プロセスの速度を上げるための鍵であるため、保険分野における NLP にとっても重要です。
正規化の概念は、要素を同じタグ言語の下にグループ化することを意味しますが、見た目は大きく異なる場合があります。多くの例がありますが、最も重要なものは自然災害をカバーする保険契約です。
この場合、異なる浸水ゾーンには異なるサブリミットが適用されます。洪水の危険性が最も高い地域は、「高リスク洪水地帯」と呼ばれることがあります。この概念は次のように表現できます。
(1) レベル 1 洪水エリア
(2) 洪水リスクエリア (SFHA)
(3) 洪水エリア A
etc
実際には、どの保険にも、グループ化できる多くの条件が含まれています。特定の地理的エリアとその固有のリスクに応じて、最も重要な自然災害補償には 2 つの段階または階層間の違いがあります。層 (I、II、III)。
これに、見つかる可能性のあるすべての要素を乗算すると、バリエーションの数がすぐに非常に大きくなる可能性があります。これにより、機械学習アノテーターと自然言語処理 (NLP) エンジンの両方が、正しい情報を取得、推論、さらにはラベル付けしようとすると行き詰まってしまいます。
新しい言語クラスタリング: ハイブリッド アプローチ
複雑な自然言語処理 (NLP) タスクを解決するより良い方法は、機械学習ベースのクラスタリングを使用するハイブリッド (機械学習/記号) 手法に基づいています。マイクロ言語の導入により、保険ワークフローの結果とライフサイクルが改善され、それがシンボリック エンジンに継承されます。
従来のテキスト クラスタリングは、意味パターンを推測し、同様のトピックや同様の意味を持つ文などを含む文書をグループ化する教師なし学習方法で使用されますが、ハイブリッド方法は大きく異なります。微言語クラスターは、事前定義された正規化値を使用してラベル付きデータでトレーニングされた機械学習アルゴリズムを使用して、粒度レベルで作成されます。マイクロ言語クラスターが推論されると、それをさらなる機械学習アクティビティで使用したり、シンボリック レイヤーに基づいたハイブリッド パイプライン駆動の推論ロジックで使用したりできます。
これは、「問題を分解する」というプログラミングの伝統的な黄金律に沿ったものです。複雑なユースケース (保険業界のほとんどのユースケースと同様) を解決するための最初のステップは、それをより小さく、より使いやすい部分に分割することです。
混合言語クラスタリングはどのようなタスクを実行できますか?また、そのスケーラビリティはどのようなものですか?
シンボリック エンジンは、非常に正確であるものの、トレーニング中に見られなかった状況に対処する際の機械学習の柔軟性がないため、スケーラビリティが低いと言われることがよくあります。
ただし、このタイプの言語クラスタリングでは、機械学習を活用して概念を特定し、パイプラインの次のシンボリック エンジンの複雑で正確なロジックに渡すことで、この問題を解決します。
可能性は無限です。たとえば、記号ステップは、概念が属する文書セグメントに基づいて機械学習認識の本質的な価値を変更できます。
ここでは、「セグメンテーション」(テキストを関連する領域に分割する) の表記プロセスを使用して、機械学習モジュールによって渡されたラベルを使用する方法を示す例を示します。
モデルが、100 ページの保険契約から特定の補償範囲が除外されているかどうかを理解する必要があると想像してください。
機械学習エンジンはまず、「芸術」の対象範囲の考えられるすべてのバリエーションをクラスター化します:
- 「美術」
- 「芸術作品」
- 「アートアイテム」
- 「ジュエリー」
- など。
これに続いて、パイプラインのシンボル部分は、「除外」セクションに「芸術」タグが記載されているかどうかを確認して、その対象範囲がポリシーから除外されているかどうか、または対象となっているかどうかを確認します。 (サブリミットリストの一部として)。
これのおかげで、機械学習のアノテーターは、ポリシー内での位置に基づいてすべてのアーツ バリアントに異なるラベルを割り当てることを心配する必要はありません。バリアントの「アーツ」の正規化された値にアノテーションを付けるだけで済みます。マイクロ言語クラスターとして機能します。
複雑なタスクのもう 1 つの有用な例は、データの集計です。ハイブリッド エンジンが特定のカバレッジのサブ制限やカバレッジの正規化の問題を抽出するように設計されている場合、処理する複雑な層がさらに 1 つあります。それは、集計に使用される言語項目の順序です。
現在のタスクは、特定のカバレッジのサブリミットだけでなく、その修飾子 (イベントごと、集計など) も抽出することであると考えてください。 3 つのアイテムは、いくつかの異なる順序で並べることができます。
- アイテムあたり $100,000 の美術品
- アイテムあたり $100,000
- アイテムあたり $100,000 の美術品
- $100,000 Fine Arts
- Fine Arts $100,000
データを集約する際にこれらの順列をすべて利用すると、機械学習モデルの複雑さが大幅に増加する可能性があります。一方、ハイブリッド アプローチでは、機械学習モデルで正規化されたラベルを識別し、機械学習部分からの入力データに基づいて記号推論で正しい順序を識別します。
これらは、標準的な概念を識別するために、スケーラブルな機械学習アルゴリズムに無制限の量の複雑な記号ロジックと推論を適用できることを示す 2 つの例にすぎません。
構築と保守が容易なスケーラブルなワークフロー
スケーラビリティに加えて、シンボリック推論はプロジェクト ワークフロー全体に次のような利点をもたらします。
- さまざまな実装を行う代わりに、複雑なタスクの機械学習ワークフローでは、さまざまなタグを実装して維持する必要があります。さらに、単一の機械学習モデルを再トレーニングする方が、複数のモデルを再トレーニングするよりも高速で、消費するリソースが少なくなります。
- ビジネス ロジックの複雑な部分は記号的に処理されるため、データ アノテーターが機械学習パイプラインにヒューマン アノテーションを追加するのがはるかに簡単になります。
- 上記と同じ理由により、テスト担当者が機械学習の標準化プロセスに直接フィードバックを提供することも容易になります。さらに、ワークフローの機械学習部分が言語要素を正規化するため、ユーザーがドキュメントにラベルを付けるためのタグのリストが少なくなります。
- シンボル ルールは頻繁に更新する必要はありません。頻繁に更新されるのは機械学習部分であり、ユーザーのフィードバックからも恩恵を受けます。
結論
- 保険分野の複雑なプロジェクトにおける機械学習は、推論ロジックを単純なタグに圧縮することが難しいため、苦しむ可能性があります。これにより、アノテーターの作業もより困難になります。 。
- テキストの位置と推論により、同じ言語形式でも概念の実際の意味が劇的に変わる可能性があります。
- 純粋な機械学習ワークフローでは、ロジックが複雑になればなるほど、実稼働レベルの精度を達成するためにより多くのトレーニング ドキュメントが必要になります。
- このため、機械学習では効果的なモデルを構築するために、事前にラベル付けされた数千 (または数万) のドキュメントが必要になります。
- ハイブリッド アプローチを採用することで複雑さが軽減されます。機械学習とユーザー アノテーションによって言語クラスター/タグが作成され、これらはシンボリック エンジンが目標を達成するための開始点または構成要素として使用されます。
- ユーザー フィードバックは、検証されると、最も詳細な部分 (ワークフローのシンボリック部分で処理できます) を変更することなく、モデルを再トレーニングするために使用できます。
原題: Insurance Policies: Document Clustering Through Hybrid NLP 、著者: Stefano Reitano
以上が自然言語処理を使用して保険書類をクラスタリングするための戦略と方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











機械学習とデータ サイエンスの分野では、モデルの解釈可能性が常に研究者や実務家に焦点を当ててきました。深層学習やアンサンブル手法などの複雑なモデルが広く適用されるようになったことで、モデルの意思決定プロセスを理解することが特に重要になってきました。 Explainable AI|XAI は、モデルの透明性を高めることで、機械学習モデルに対する信頼と自信を構築するのに役立ちます。モデルの透明性の向上は、複数の複雑なモデルの普及や、モデルを説明するための意思決定プロセスなどの方法によって実現できます。これらの方法には、特徴重要度分析、モデル予測間隔推定、ローカル解釈可能性アルゴリズムなどが含まれます。特徴重要度分析では、入力特徴に対するモデルの影響度を評価することで、モデルの意思決定プロセスを説明できます。モデルの予測間隔の推定

この記事では、学習曲線を通じて機械学習モデルの過学習と過小学習を効果的に特定する方法を紹介します。過小適合と過適合 1. 過適合 モデルがデータからノイズを学習するためにデータ上で過学習されている場合、そのモデルは過適合していると言われます。過学習モデルはすべての例を完璧に学習するため、未確認の新しい例を誤って分類してしまいます。過適合モデルの場合、完璧/ほぼ完璧なトレーニング セット スコアとひどい検証セット/テスト スコアが得られます。若干修正: 「過学習の原因: 複雑なモデルを使用して単純な問題を解決し、データからノイズを抽出します。トレーニング セットとしての小さなデータ セットはすべてのデータを正しく表現できない可能性があるため、2. 過学習の Heru。」

平たく言えば、機械学習モデルは、入力データを予測された出力にマッピングする数学関数です。より具体的には、機械学習モデルは、予測出力と真のラベルの間の誤差を最小限に抑えるために、トレーニング データから学習することによってモデル パラメーターを調整する数学関数です。機械学習には、ロジスティック回帰モデル、デシジョン ツリー モデル、サポート ベクター マシン モデルなど、多くのモデルがあります。各モデルには、適用可能なデータ タイプと問題タイプがあります。同時に、異なるモデル間には多くの共通点があったり、モデル進化の隠れた道が存在したりすることがあります。コネクショニストのパーセプトロンを例にとると、パーセプトロンの隠れ層の数を増やすことで、それをディープ ニューラル ネットワークに変換できます。パーセプトロンにカーネル関数を追加すると、SVM に変換できます。これです

1950 年代に人工知能 (AI) が誕生しました。そのとき、研究者たちは、機械が思考などの人間と同じようなタスクを実行できることを発見しました。その後、1960 年代に米国国防総省は人工知能に資金を提供し、さらなる開発のために研究所を設立しました。研究者たちは、宇宙探査や極限環境での生存など、多くの分野で人工知能の応用を見出しています。宇宙探査は、地球を超えた宇宙全体を対象とする宇宙の研究です。宇宙は地球とは条件が異なるため、極限環境に分類されます。宇宙で生き残るためには、多くの要素を考慮し、予防策を講じる必要があります。科学者や研究者は、宇宙を探索し、あらゆるものの現状を理解することが、宇宙の仕組みを理解し、潜在的な環境危機に備えるのに役立つと信じています。

C++ の機械学習アルゴリズムが直面する一般的な課題には、メモリ管理、マルチスレッド、パフォーマンスの最適化、保守性などがあります。解決策には、スマート ポインター、最新のスレッド ライブラリ、SIMD 命令、サードパーティ ライブラリの使用、コーディング スタイル ガイドラインの遵守、自動化ツールの使用が含まれます。実践的な事例では、Eigen ライブラリを使用して線形回帰アルゴリズムを実装し、メモリを効果的に管理し、高性能の行列演算を使用する方法を示します。

翻訳者 | Li Rui によるレビュー | 今日、人工知能 (AI) および機械学習 (ML) モデルはますます複雑になっており、これらのモデルによって生成される出力はブラックボックスになっており、関係者に説明することができません。 Explainable AI (XAI) は、利害関係者がこれらのモデルがどのように機能するかを理解できるようにし、これらのモデルが実際に意思決定を行う方法を確実に理解できるようにし、AI システムの透明性、信頼性、およびこの問題を解決するための説明責任を確保することで、この問題を解決することを目指しています。この記事では、さまざまな説明可能な人工知能 (XAI) 手法を検討して、その基礎となる原理を説明します。説明可能な AI が重要であるいくつかの理由 信頼と透明性: AI システムが広く受け入れられ、信頼されるためには、ユーザーは意思決定がどのように行われるかを理解する必要があります

機械学習の分野における Go 言語の応用可能性は次のとおりです。 同時実行性: 並列プログラミングをサポートし、機械学習タスクにおける計算量の多い操作に適しています。効率: ガベージ コレクターと言語機能により、大規模なデータ セットを処理する場合でもコードの効率が保証されます。使いやすさ: 構文が簡潔なので、機械学習アプリケーションの学習と作成が簡単です。

MetaFAIR はハーバード大学と協力して、大規模な機械学習の実行時に生成されるデータの偏りを最適化するための新しい研究フレームワークを提供しました。大規模な言語モデルのトレーニングには数か月かかることが多く、数百、さらには数千の GPU を使用することが知られています。 LLaMA270B モデルを例にとると、そのトレーニングには合計 1,720,320 GPU 時間が必要です。大規模なモデルのトレーニングには、これらのワークロードの規模と複雑さにより、特有のシステム上の課題が生じます。最近、多くの機関が、SOTA 生成 AI モデルをトレーニングする際のトレーニング プロセスの不安定性を報告しています。これらは通常、損失スパイクの形で現れます。たとえば、Google の PaLM モデルでは、トレーニング プロセス中に最大 20 回の損失スパイクが発生しました。数値的なバイアスがこのトレーニングの不正確さの根本原因です。
