分類アルゴリズム

(*-*)浩
リリース: 2019-06-05 09:28:47
オリジナル
4542 人が閲覧しました

分類は重要なデータ マイニング テクノロジです。分類の目的は、データセットの特性に基づいて分類関数または分類モデル (分類子とも呼ばれる) を構築することです。これにより、未知のカテゴリのサンプルを特定のカテゴリの 1 つにマッピングできます。分類と回帰の両方を予測に使用できます。回帰手法との違いは、分類の出力が離散的なカテゴリ値であるのに対し、回帰の出力は連続値または順序付けされた値であることです。

分類アルゴリズム

#モデルを構築するプロセスは、通常、トレーニングとテストの 2 つの段階に分かれています。モデルを構築する前に、データセットをトレーニング データ セットとテスト データ セットにランダムに分割する必要があります。トレーニング フェーズでは、トレーニング データ セットを使用して、各タプルがクラス ラベル属性と呼ばれる属性によって決定される事前定義されたクラスに属していると仮定して、属性によって記述されたデータベース タプルを分析することによってモデルが構築されます。トレーニング データ セット内の単一のタプルは、トレーニング サンプルとも呼ばれます。特定のサンプルの形式は次のとおりです: (u1, u2,...un;c); ここで、ui は属性値を表し、c はカテゴリを表します。各トレーニング サンプルのクラス ラベルが提供されるため、この段階はガイド付き学習とも呼ばれ、通常、モデルは分類ルール、決定木、または数式の形式で提供されます。テスト段階では、テスト データ セットを使用してモデルの分類精度が評価され、モデルの精度が許容範囲内であると判断された場合は、そのモデルを他のデータ タプルの分類に使用できます。一般に、テスト段階のコストはトレーニング段階のコストよりもはるかに低くなります。 (推奨される学習: Python ビデオ チュートリアル )

分類の精度、有効性、スケーラビリティを向上させるために、通常、データは分類の前に次のような前処理が行われます。

(1 ) データクリーニング。その目的は、データ ノイズを除去または軽減し、欠損値に対処することです。

(2) 相関分析。データセット内の多くの属性は分類タスクに関連しない可能性があるため、これらの属性を含めると学習プロセスが遅くなり、誤解を招く可能性があります。相関分析の目的は、これらの無関係または冗長な属性を削除することです。

(3) データ変換。データはより高いレベルの概念に一般化できます。たとえば、連続値属性「収入」の値は、低、中、高の離散値に一般化できます。別の例として、名目値属性「市」は、上位概念「県」に一般化できます。さらに、データを正規化することもできます。これにより、特定の属性の値が [0,1] などのより小さい間隔にスケールされます。

分類アルゴリズムの種類と特徴

分類モデルの構築方法には、決定木、統計的手法、機械学習手法、ニューラルネットワーク手法などが含まれます。一般的な方向性によれば、それらには主に、決定木、相関ルール、ベイジアン、ニューラル ネットワーク、ルール学習、k-nearby 法、遺伝的アルゴリズム、ラフ セットおよびファジー ロジック テクノロジが含まれます。

デシジョン ツリー分類アルゴリズム

デシジョン ツリーは、例に基づく帰納的学習アルゴリズムです。これは、順序付けされていないルールのないタプルのセットから、決定木表現の形式で分類ルールを推論します。トップダウン再帰的方法を使用して決定木の内部ノードで属性値を比較し、異なる属性値に応じてノードから下方向に分岐し、葉ノードは分割することを学習するクラスです。ルートからリーフ ノードまでのパスは結合ルールに対応し、決定木全体は一連の選言式ルールに対応します。 1986 年に、Quinlan は有名な ID3 アルゴリズムを提案しました。 ID3 アルゴリズムに基づいて、Quinlan は 1993 年に C4.5 アルゴリズムを提案しました。大規模なデータセットを処理するニーズを満たすために、その後、いくつかの改良されたアルゴリズムが提案されました。その中で、SLIQ (Supervised Learning in Quest) と SPRINT (ScalableParallelizable Induction of Decision Tree) は、より代表的なアルゴリズムの 2 つです。

ベイジアン分類アルゴリズム

ベイジアン分類アルゴリズムは、統計学の分類手法であり、分類に確率と統計の知識を使用するアルゴリズムの一種です。多くの場合、ナイーブ ベイズ (NB) 分類アルゴリズムは、決定木およびニューラル ネットワーク分類アルゴリズムに匹敵します。このアルゴリズムは大規模なデータベースに適用でき、方法は単純で、分類精度が高く、速度が優れています。速い。

ベイズの定理は、特定のクラスに対する属性値の影響が他の属性の値から独立していることを前提としており、この前提は実際の状況では当てはまらないことが多いため、その分類精度が低下する可能性があります。このため、TAN (ツリー拡張ベイズ ネットワーク) アルゴリズムなど、独立性の仮定を軽減する多くのベイズ分類アルゴリズムが導出されてきました。

Python 関連の技術記事の詳細については、Python チュートリアル 列にアクセスして学習してください。

以上が分類アルゴリズムの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート