データ マイニング テクノロジには、1. 統計テクノロジ、2. アソシエーション ルール、3. 履歴ベースの分析、4. 遺伝的アルゴリズム、5. 集合検出、6. 接続分析、7. デシジョン ツリー、8.ニューラルネットワーク; 9. ラフ集合; 10. ファジー集合; 11. 回帰分析; 12. 差分分析; 13. 概念説明など
このチュートリアルの動作環境: Windows 7 システム、Dell G3 コンピューター。
データマイニングとは、大量の不完全、ノイズ、ファジー、ランダムなデータから、人々が事前には知らないものの、潜在的に役立つ可能性がある情報や知識を抽出するプロセスです。
データ マイニングのタスクは、データ セットからパターンを発見することです。発見できるパターンには多くの種類があります。それらは、その機能に応じて、予測 (Predictive) パターンと記述 (説明的な) パターン。
データマイニング技術には多くの種類があり、分類に応じて分類方法も異なります。以下では、データ マイニングで一般的に使用されるいくつかの手法に焦点を当てます: 統計手法、相関ルール、履歴ベースの分析、遺伝的アルゴリズム、集計検出、接続分析、デシジョン ツリー、ニューラル ネットワーク、ラフ セット、ファジー セット、回帰分析、差分分析、概念の説明とその他の一般的に使用される 13 のデータ マイニング手法。
1. 統計技術
データマイニングには、統計技術などの多くの科学分野と技術が関係します。統計テクノロジーを使用してデータセットをマイニングする主なアイデアは、統計手法が特定のデータセットの分布または確率モデル (正規分布など) を想定し、対応するメソッドを使用してそのモデルに従ってマイニングするというものです。
2. 関連付けルール
データの関連付けは、データベース内に存在する重要なタイプの発見可能な知識です。 2 つ以上の変数の値に何らかの規則性がある場合、それを相関と呼びます。関連は、単純な関連、時間的な関連、および因果的な関連に分類できます。相関分析の目的は、データベース内の隠れた相関ネットワークを見つけることです。データベース内のデータの相関関数が不明な場合や、たとえわかっていたとしても不確実な場合があるため、相関分析によって生成されるルールには信頼性があります。
3. 過去の MBR (記憶に基づく推論) 分析
まず経験的知識に基づいて類似の状況を探し、次にこれらの状況からの情報を現在の状況に適用します。状況例。これがMBR(Memory Based Reasoning)の本質です。 MBR は、まず新しいレコードに類似する近傍を検索し、次にこれらの近傍を使用して新しいデータを分類し、評価します。 MBR の使用には、特定の履歴データの検索、履歴データを表現する最も効率的な方法の決定、距離関数、結合関数、近傍数の決定という 3 つの主な問題があります。
4. 遺伝的アルゴリズム GA (Genetic Algorithms)
は、進化理論に基づいた、遺伝子の組み合わせ、遺伝的変異、自然選択などの設計手法を用いた最適化技術です。 。主なアイデアは、適者生存の原則に従って、現在のグループ内の最も適切なルールと、これらのルールの子孫で構成される新しいグループを形成することです。通常、ルールの適合性は、トレーニング サンプル セットでの分類精度によって評価されます。
5. 集合体の検出
物理的または抽象的なオブジェクトのコレクションを、類似したオブジェクトで構成される複数のクラスにグループ化するプロセスは、クラスタリングと呼ばれます。クラスタリングによって生成されるクラスタは、同じクラスタ内で互いに類似しており、他のクラスタ内のオブジェクトとは異なるデータ オブジェクトの集合です。非類似度は記述されたオブジェクトの属性値に基づいて計算され、距離は一般的に使用される測定方法です。
6. リンク分析
リンク分析、その基礎理論はグラフ理論です。グラフ理論の考え方は、完璧な解決策を持つアルゴリズムを見つけることではなく、良好な結果が得られるが完璧な結果は得られないアルゴリズムを見つけることです。接続分析では、不完全な結果が実現可能であれば、そのような分析は優れた分析であるという考えが使用されます。接続分析を使用すると、一部のユーザーの行動からいくつかのパターンを分析でき、同時に、生成された概念をより幅広いユーザー グループに適用できます。
7. デシジョン ツリー
デシジョン ツリーは、どのような条件でどのような値が得られるかなどのルールを表示する方法を提供します。
8. ニューラル ネットワーク
構造的には、ニューラル ネットワークは入力層、出力層、隠れ層に分けることができます。入力層の各ノードは予測変数に対応します。出力層のノードはターゲット変数に対応し、複数のノードが存在する可能性があります。入力層と出力層の間には隠れ層 (ニューラル ネットワーク ユーザーには見えません) があり、隠れ層の数と各層のノードの数によってニューラル ネットワークの複雑さが決まります。
入力層のノードに加えて、ニューラル ネットワークの各ノードは、その前にある多くのノード (このノードの入力ノードと呼ばれます) に接続されています。各接続は重み Wxy に対応します。このノードの値。すべての入力ノードの値と、関数の入力として対応する接続重みの積の合計を取ることによって取得されます。この関数をアクティビティ関数またはスクイーズ関数と呼びます。
9.大まかなセット
ラフ集合理論は、与えられたトレーニング データ内での同値クラスの確立に基づいています。等価クラスを形成するすべてのデータ サンプルは無差別です。つまり、これらのサンプルは、データを記述する属性に関して等価です。実際のデータでは、利用可能な属性によって区別できないクラスが存在することがよくあります。ラフセットは、このクラスを近似または大まかに定義するために使用されます。
10. ファジー集合
ファジー集合理論は、データ マイニング分類システムにファジー ロジックを導入し、「ファジー」ドメイン値または境界の定義を可能にします。ファジー ロジックでは、クラスやセットの正確なカットオフではなく、0.0 から 1.0 までの真理値を使用して、特定の値が特定のメンバーである程度を表します。ファジー ロジックは、高い抽象レベルでの処理機能を提供します。
11. 回帰分析
回帰分析は、線形回帰、重回帰、非線形回帰に分けられます。線形回帰ではデータは直線でモデル化されますが、重回帰は複数の予測変数を含む線形回帰の拡張です。非線形回帰は、基本線形モデルに多項式項を追加して非線形モデルを形成することです。
12. 差分分析
差分分析の目的は、ノイズ データ、不正データ、その他の異常なデータなど、データ内の異常を見つけようとすることです。有益な情報を得るために。
13. 概念の説明
概念の説明は、特定のタイプのオブジェクトの意味を説明し、このタイプのオブジェクトの関連特性を要約することです。概念記述は、特性記述と差分記述に分けられます。前者は、あるタイプのオブジェクトの共通の特性を記述し、後者は、異なるタイプのオブジェクト間の差異を記述します。クラスの特性記述の生成には、すべてのクラスの共通の特性のみが含まれます。そのタイプのオブジェクト内のオブジェクト。
関連知識の詳細については、FAQ 列をご覧ください。
以上がデータマイニング技術とは何ですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。