近年、グラフは、医療、交通、バイオインフォマティクス、レコメンデーション システムなど、多くの分野で複雑なデータを表現および処理するために広く使用されています。グラフ機械学習テクノロジーは、複雑なデータに隠された豊富な情報を取得するための強力なツールであり、ノード分類やリンク予測などのタスクで強力なパフォーマンスを実証しています。
グラフ機械学習テクノロジーは大幅に進歩しましたが、そのほとんどではグラフ データを 1 台のマシンに集中的に保存する必要があります。しかし、データのセキュリティとユーザーのプライバシーが重視されるようになり、データを一元的に保管することは安全でなくなり、実行不可能になりました。グラフ データは複数のデータ ソース (データ サイロ) に分散されることが多く、プライバシーとセキュリティ上の理由により、必要なグラフ データをさまざまな場所から収集することが不可能になります。
たとえば、サードパーティ企業は、潜在的な金融犯罪や詐欺的な顧客を検出できるように、一部の金融機関向けにグラフ機械学習モデルをトレーニングしたいと考えています。すべての金融機関は、人口統計データや取引記録などの個人的な顧客データを保持しています。各金融機関の顧客は顧客グラフを形成し、エッジは取引記録を表します。厳格なプライバシー ポリシーとビジネス競争のため、各組織の個人的な顧客データをサードパーティ企業や他の組織と直接共有することはできません。同時に、機関間の関係も存在する可能性があり、これは機関間の構造情報と見なすことができます。したがって、主な課題は、各機関の個人顧客データに直接アクセスせずに、個人顧客グラフと政府機関間の構造情報に基づいて、金融犯罪検出のためのグラフ機械学習モデルをトレーニングすることです。
Federated Learning (FL) は、協調トレーニングを通じてデータアイランドの問題を解決する分散型機械学習ソリューションです。これにより、参加者 (つまり顧客) は、プライベート データを共有することなく、機械学習モデルを共同でトレーニングできるようになります。したがって、FL とグラフ機械学習を組み合わせることが、上記の問題に対する有望な解決策になります。
この記事では、バージニア大学の研究者が Federated Graph Machine Learning (FGML) を提案しています。一般的に、FGML は構造情報のレベルに基づいて 2 つの設定に分けることができます: 1 つ目は構造化データを使用した FL です。構造化データを使用した FL では、顧客はグラフ データに基づいてグラフ機械学習モデルを共同でトレーニングしますが、グラフ データはローカルに保持されます。 。 2 つ目は構造化 FL で、クライアント間に構造情報が存在し、クライアント グラフを形成します。クライアント グラフを利用して、より効率的な結合最適化方法を設計できます。
#論文アドレス: https://arxiv.org/pdf/2207.11812.pdf
FGML は有望な青写真を提供しますが、まだいくつかの課題があります:
#1. クライアント全体にわたる情報の不足。構造化データを使用する FL では、各クライアント マシンがグローバル グラフのサブグラフを持ち、一部のノードが他のクライアントに属する近接ノードを持つ可能性があるという一般的なシナリオが考えられます。プライバシー上の理由から、ノードはクライアント内の直近のノードのフィーチャのみを集約できますが、他のクライアントにあるフィーチャにはアクセスできないため、ノードの表現が過小評価されます。
2. グラフ構造のプライバシー漏洩。従来の FL では、クライアントはデータ サンプルの特徴とラベルを公開することはできません。構造化データを使用する FL では、構造情報のプライバシーも考慮する必要があります。構造情報は、共有隣接行列を通じて直接公開することも、送信ノードの埋め込みを通じて間接的に公開することもできます。
3. クライアント間のデータの異質性。データの異質性が非 IID データ サンプルから生じる従来の FL とは異なり、FGML のグラフ データには豊富な構造情報が含まれています。同時に、さまざまな顧客のグラフ構造もグラフ機械学習モデルのパフォーマンスに影響します。
4. パラメータの使用戦略。構造化 FL では、クライアント グラフにより、クライアントは隣接するクライアントから情報を取得できます。構造化された FL では、中央サーバーによって調整される、または完全に分散された近隣情報を十分に活用するための効果的な戦略を設計する必要があります。
上記の課題に対処するために、研究者は多数のアルゴリズムを開発しました。現在、さまざまなアルゴリズムは主に標準 FL の課題と手法に焦点を当てており、FGML の特定の問題と手法に対処する試みはわずかです。誰かが FGML を分類するレビュー論文を発表しましたが、FGML の主要なテクニックは要約されていませんでした。レビュー記事の中には、フロリダ州の限られた数の関連論文のみを取り上げ、現在のテクノロジーを非常に簡単に紹介しているものもあります。
今回紹介する論文では、著者はまずFGMLにおける2つの問題設計の概念を紹介します。次に、各Shezhiの下での最新の技術進歩をレビューし、FGMLの実際の応用も紹介します。また、FGML アプリケーションで利用できるアクセス可能なグラフ データセットとプラットフォームをまとめています。最後に、著者はいくつかの有望な研究の方向性を示しています。この記事の主な貢献内容は次のとおりです。
FGML テクノロジーの分類: この記事では、さまざまな問題に基づいて FGML の分類を示し、各設定における主要な課題を要約しています。
包括的なテクノロジーのレビュー: この記事では、FGML の既存のテクノロジーの包括的な概要を提供します。他の既存のレビュー論文と比較して、著者はより広範囲の関連研究を研究しているだけでなく、単に各手法の手順を列挙するのではなく、より詳細な技術分析も提供しています。
実践的な応用: この記事では、FGML の実践的な応用について初めてまとめます。著者はそれらを応用分野に応じて分類し、各分野の関連研究を紹介します。
データセットとプラットフォーム: この記事では、FGML の既存のデータセットとプラットフォームを紹介します。これは、FGML でアルゴリズムを開発し、アプリケーションを展開したいエンジニアや研究者にとって非常に役立ちます。
将来の方向性: この記事では、既存の手法の限界を指摘するだけでなく、FGML の将来の開発の方向性も示しています。
#FGML 技術概要 記事の主な構成は次のとおりです。導入。
セクション 2 では、グラフ機械学習の定義と、FGML の両方の設定における概念と課題を簡単に紹介します。
セクション 3 と 4 では、両方の設定における主要なテクニックを確認します。セクション 5 では、FGML の現実世界への応用をさらに検討します。セクション 6 では、Open Graph Dataset と、関連する FGML 論文で使用される FGML 用の 2 つのプラットフォームを紹介します。考えられる将来の方向性はセクション 7 に記載されています。
最後にセクション 8 で全文を要約します。詳細については元の論文を参照してください。
以上がFederated Learning テクノロジーとその画像処理への応用の現状の概要の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。