翻訳者 | Cui Hao
査読者 | Sun Shujuan
冒頭
##機械学習は企業によってさまざまなビジネス シナリオに適用され、さまざまな問題を解決しますビジネス上の問題: 機械学習の応用が広範に行われているため、組織は学習方法の選択に困惑しています。
多くの組織は、機械学習の応用において高度な学習方法と古典的な学習方法を使用しています。教師あり学習と教師なし学習というよく知られた二分法があり、また、対照学習、強化学習、自己教師あり学習などの機械学習の新たなバリエーションも存在します。
さらに、グラフ分析、ディープ ニューラル ネットワーク、セグメンテーション、行動分析、その他の技術が関係します。金融犯罪と戦うためのマネーロンダリング対策の強化など、大規模で複雑なビジネス上の問題に直面したとき、組織はどの機械学習手法を使用するかをどのように決定するのでしょうか?
統合モデリングを使用すると、この問題はそれほど重要ではなくなります。この機械学習アプローチにより、組織はさまざまなモデルを活用し、それらを予測精度と組み合わせて最適な結果を達成することができます。
このアプローチは、金融サービス、不正行為検出、サイバーセキュリティにおける高次元データの完全なコンテキストを提供するのに役立ちます。統合モデリングを使用する組織は、「統合モデリングにより、モデル構築の多様性がさらに高まる」と述べており、Resistant AI の CEO である Martin Rehak 氏は、「単一のモデルが目立つことを望んでいない」と認めています。モデル使用の多様性 組織は、十分な情報に基づいた、説明可能な一貫した意思決定方法を採用するために、さまざまなアルゴリズムを使用してビジネス上の問題のさまざまな側面を評価できます。
コンセンサスに基づくモデルの意思決定
前述の統合モデリングの原則に疑問の余地はありません。データ サイエンティストは、ビジネス ケースに合わせた完璧なモデルの設計に多くの時間を費やす必要はありません。これらの不完全なモデルを組み合わせて、予測力を生み出します。 「機械学習をアンサンブル アプローチで見ると、小さなアルゴリズムから意思決定を行うことになります」と Rehak 氏は述べています。 「そして、私たちの場合、最良の決定を下すために、これらのアルゴリズムは取引ごとに動的に結合されます。」 さらに、おそらくこれらのモデルのそれぞれは、マネーロンダリング事件の特定など、特定の分野に特化することができます。
たとえば、あるモデルはトランザクションのサイズのみに焦点を当てています。別のモデルは、トランザクションの場所に焦点を当てています。さまざまなモデルで、どの特定の参加者がトランザクションに関与したかを調べることができます。目標は「スパイクが存在しない」状況だとレハク氏は説明する。 「モデルの分布は非常に平坦であり、モデルに対応する証拠は比較的弱いです。多くの弱い証拠要素を組み合わせることで、より強力な意思決定を行うことができます。」 もう 1 つの利点は、古典的な機械学習とより単純なモデルを通じて、トレーニングが少なくて済むことです。モデルを運用環境に導入するにはデータ (および注釈) が必要です。このようなモデルは、大量のトレーニング データを必要とするディープ ニューラル ネットワークよりも解釈が容易です。
コンテキスト モデリング
Rehak によって説明された分布フラット モデリング アプローチを、他のアンサンブル モデリング手法と区別することが重要です。アンサンブル モデリングの最も一般的な例には、バギングまたはブースティングが含まれます (後者には、Xtreme Gradient Boosting が必要になる場合があります)。ランダム フォレストは、さまざまなデシジョン ツリーの組み合わせに基づくブースティングの一例です。このアプローチでは、「コレクション内の以前のバージョンに基づいてコレクションを 1 つずつ構築します」と Rehak 氏はコメントしています。これは、高い予測精度を備えたモデルを構築する迅速な方法ですが、過剰適合のリスクがあります (トレーニング データ セットが小さすぎるため、モデルは運用データに適用できにくくなります)。
Rehak の統合アプローチは、これらのイベントに影響を与えるコンテキストに基づいているため、AML のユースケースにより適しています。 「マネーロンダリングの専門家に取引が悪意のあるものだったかどうかを尋ねると、彼らはまず口座の履歴と、その人物が過去にどのような行動をとったのかを調べます」とレハク氏は語った。彼のアプローチを通じて、地理的位置、時刻、利害関係者、金融機関に関連する要素が、個別の機械学習モデルを使用して検査されます。これらの各モデルの結果を組み合わせることでのみ、AI システムは誤検知を大幅に減らして犯罪取引が発生したかどうかを判断できます。 「機械学習を使えば、マネーロンダリング対策チームが圧倒されてしまうような異常値のほとんどを説明できます」とレハク氏は言う。
意思決定境界
モデリングのユースケースを統合する場合、分析トランザクションのさまざまな側面をモデル化するために 60 を超えるモデルを使用するのが一般的です。統合されたアプローチのリアルタイム結果は、このアプリケーション シナリオに最適です。 「これら 60 個のアルゴリズムの 1 つでは、すべてをセグメントに分割し、1 秒あたりの平均トランザクション サイズをモデル化できます」と Rehak 氏は明らかにします。 「同時に動的に更新される何千ものクリップを作成できます。」
多数のモデルがアンサンブルに結合され、それぞれのモデルが取引のさまざまな側面を評価して潜在的な犯罪行為を明らかにするため、より包括的なアプローチを作成することはできません。 「私たちはあなたを非常に多くの角度から見ているので、これらすべての犯罪行為を回避しながら、あなたの行動を形作ることが非常に困難になっています。なぜなら、『犯罪者』が特定されないためには、回避する必要があるからです」とレハク氏は明らかにした。決定境界は複数ありますが、動的な決定境界は多数あります。これらのアルゴリズムの各モデルは個別に学習され、その後、それらを組み合わせます。"
説明可能な人工知能
多数の決定境界が存在します。これらのセットがどのように解釈可能性を高めるか、またそれらが何に対応するかについての側面。まず、高度な機械学習にあまり依存しておらず、より単純で解釈しやすいアルゴリズムのみが含まれています (従来の機械学習を含む)。これらのモデルは、取引犯罪を評価するための基礎となりました。 「何かが重要だと言うとき、私たちはその理由を伝えることができます」とレハク氏は言う。 「どの指標がこれを示しているかを知ることができます。これらの要因により取引犯罪のリスクが高いことを示す、それぞれの結果についてレポートを書くことができます。」 各アルゴリズムは特性に焦点を当てていますが、すべてのアルゴリズムがすべて同じ重み付けをしているわけではありません。モデル。一般に、グラフ分析を含むアルゴリズム (関係性の調査に優れている) には、他のモデルよりも大きな重みが与えられます。
モデルは、疑わしい動作を説明するだけでなく、外れ値が発生する理由も明らかにします。 「通常、アンサンブルには 4 つまたは 5 つの支配的なアルゴリズムがあります。つまり、私がそれが外れ値であると信じても、その背後にあるアルゴリズムのせいで他の人も同意することになります」と Rehak 氏は述べました。 「また、トリガーが 4 つまたは 5 つあるため、結果が異常に偏っていることが保証されます。」 個々のモデルはトランザクション内の 1 つの要素のみを評価するため、解釈可能性とスコアの単語の解釈可能性が提供されます。 「私たちはセット、マイクロセグメンテーション、ボリュームを知っているので、その情報をスコアの横の質問で簡単に表示できます。ボリュームは企業の財務部門にとって非常に重要です」と Rehak 氏は付け加えました。
統合パターン
最終的には、統合モデリングは 1 つのアプリケーションよりも多く使用されますが、AML アクティビティには非常に役立ちます。このテクノロジーを正しく適用すると、ビジネスクリティカルな問題を解決するために必要なトレーニング データと注釈の量を削減しながら、解釈可能性を向上させることができます。
アンサンブル モデリングは、さまざまなデータ サイエンス手法を活用して、問題を 1 つまたは 2 つに限定するのではなく、複数のビジネス上の問題を解決します。結果として、この統合された問題解決アプローチが AI 導入の申し子となる可能性があります。
翻訳者紹介
Cui Hao は、51CTO コミュニティ編集者兼シニア アーキテクトであり、ソフトウェア開発とアーキテクチャに 18 年の経験と、分散アーキテクチャに 10 年の経験があります。元HPの技術専門家。彼は喜んで共有し、600,000 回以上読まれる人気の技術記事を多数執筆してきました。 『分散アーキテクチャの原則と実践』の著者。
元のタイトル: 機械学習モデル管理: アンサンブル モデリング
以上が機械学習モデル管理: 統合モデリングの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。