データマイニングの基本的な手順は何ですか-よくある問題-php.cn

データマイニングの基本的な手順は何ですか

王林

リリース： 2023-01-13 00:36:12

オリジナル

33030 人が閲覧しました

データマイニングの基本手順は次のとおりです: 1. 問題を定義する; 2. データマイニングライブラリを確立する; 3. データを分析する; 4. データを準備する; 5. モデルを構築する; 6. モデルを評価するモデル; 7. 実装します。

データマイニングの基本的な手順は何ですか

#この記事の動作環境: Windows10 システム、Thinkpad t480 コンピューター。

具体的な手順は次のとおりです:

1. 問題の定義

知識の発見を始める前の最初で最も重要な要件は、データとビジネスの問題を理解することです。自分の目標、つまり何をしたいのかを明確に定義する必要があります。例えば、メールの利用率を向上させたい場合、「ユーザーの利用率を高める」か、「1ユーザーの利用価値を高める」か、この2つの課題を解決するために確立されたモデルはほぼ次のとおりです。全く違うので、決断が必要です。

2. データマイニングライブラリの確立

データマイニングライブラリの確立には、データ収集、データの説明、選択、データ品質評価とデータクリーニング、マージと統合、構築の手順が含まれます。メタデータ、データマイニングライブラリのロード、およびデータマイニングライブラリの保守を行います。

3. データの分析

分析の目的は、予測出力に最も大きな影響を与えるデータフィールドを見つけて、エクスポートフィールドを定義するかどうかを決定することです。データセットに数百または数千のフィールドが含まれている場合、データの参照と分析は非常に時間がかかり、面倒な作業になります。この場合、優れたインターフェイスと強力な機能を備えたツールソフトウェアを選択する必要があります。これらのタスクを完了します。

4. データの準備

これは、モデルを構築する前のデータ準備の最後のステップです。このステップは、変数の選択、レコードの選択、新しい変数の作成、変数の変換の 4 つの部分に分けることができます。

5. モデルの構築

モデルの構築は反復的なプロセスです。直面しているビジネス上の問題に対してどのモデルが最も役立つかを判断するには、さまざまなモデルを慎重に検討する必要があります。まずデータの一部を使用してモデルを構築し、次に残りのデータを使用して結果のモデルをテストおよび検証します。テストセットはモデルの特性の影響を受ける可能性があり、モデルの精度を検証するには独立したデータセットが必要になるため、検証セットと呼ばれる 3 番目のデータセットが存在する場合があります。データマイニングモデルのトレーニングとテストでは、データを少なくとも 2 つの部分 (1 つはモデルのトレーニング用、もう 1 つはモデルのテスト用) に分割する必要があります。

6. 評価モデル

モデルを構築した後は、得られた結果を評価し、モデルの価値を説明する必要があります。テストセットから得られる精度は、モデルの構築に使用されるデータに対してのみ意味を持ちます。実際のアプリケーションでは、エラーの種類とそれに起因する関連コストをさらに理解する必要があります。経験上、有効なモデルが必ずしも正しいモデルであるとは限らないことが証明されています。この直接の理由は、モデル構築に暗黙的に含まれるさまざまな仮定にあるため、現実世界でモデルを直接テストすることが重要です。最初は小さな領域に塗布し、テストデータを取得し、満足してから広い領域に拡張します。

7. 実装

モデルを確立して検証した後、それを使用する主な方法は 2 つあります。 1 つ目はアナリストにリファレンスを提供すること、もう 1 つはこのモデルをさまざまなデータセットに適用することです。

無料の学習ビデオ共有: プログラミング入門

以上がデータマイニングの基本的な手順は何ですかの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。