ID3 アルゴリズムは、決定木学習の基本アルゴリズムの 1 つです。各特徴の情報ゲインを計算して決定木を生成することにより、最適な分割点を選択します。情報ゲインは ID3 アルゴリズムの重要な概念であり、分類タスクに対する特徴の寄与を測定するために使用されます。この記事では、ID3 アルゴリズムにおける情報ゲインの概念、計算方法、応用について詳しく紹介します。
情報エントロピーは、確率変数の不確実性を測定する情報理論の概念です。離散確率変数の場合
このうち、n は確率変数 X の取り得る値の数を表し、p(x_i) は確率変数 X が取り得る確率を表します値 x_i をとります。情報エントロピーの単位はビットであり、確率変数を平均的にエンコードするために必要な最小ビット数を測定するために使用されます。
情報エントロピーの値が大きいほど、確率変数はより不確実になり、その逆も同様です。たとえば、可能な値が 2 つだけある確率変数の場合、2 つの値の確率が等しい場合、その情報エントロピーは 1 になります。これは、それをエンコードするには 1 ビットのコーディング長が必要であることを意味します。値の 1 つが 1 で、別の値の確率が 0 の場合、その情報エントロピーは 0 になります。これは、その値をコーディングせずに決定できることを意味します。
2. 条件付きエントロピーの概念
#H(Y|X)=\sum_{i=1}^{m}\frac{|X_i|}{|X|}H(Y|X=X_i)
#このうち、|X| は、A_i の条件における対象変数 Y の情報エントロピーであるサンプル集合のサイズを表します。 3. 情報利得の概念 情報利得とは、特徴 A が次の条件でサンプル集合 X を分割するために A を使用することを指します。得られる情報エントロピーの削減量は既知です。情報ゲインが大きいほど、特徴 A を使用してサンプル セット X を分割することによって得られる情報エントロピーが減少します。つまり、分類タスクに対する特徴 A の寄与が大きくなります。情報ゲインの定義は次のとおりです。 IG(Y,X)=H(Y)-H(Y|X) ここで、H(Y) はターゲット変数 Y の情報エントロピー、H(Y|X) は特徴 A の条件下でのターゲット変数 Y の条件付きエントロピーです。 4. ID3 アルゴリズムでの情報ゲインの計算 ID3 アルゴリズムでは、サンプル セット X を分割するために最適な特徴を選択する必要があります。 。各特徴 A について、その情報ゲインを計算し、最大の情報ゲインを持つ特徴を分割点として選択できます。具体的には、各特徴 A について、まず特徴の各値を持つサンプルの数を計算し、次に特徴の各値を持つターゲット変数の確率分布を計算し、対応する情報エントロピーを計算します。次に、特徴 A の条件付きエントロピーを計算し、情報エントロピーから条件付きエントロピーを減算して情報ゲインを取得します。最後に、最大の情報利得を持つ特徴を分割点として選択します。 実際のアプリケーションでは、過学習を防ぐために、ゲイン比を使用して最適な特徴を選択するなど、情報ゲインを最適化します。ゲイン比は、特徴エントロピーに対する情報ゲインの比率であり、特徴 A 自体の情報量に対するサンプル セット X を分割するために特徴 A を使用することによって得られる情報ゲインを表します。ゲイン比は、特徴がより多くの値を持つ場合、情報ゲインがより多くの値を持つ特徴を選択する傾向があるという問題を解決できます。 つまり、情報獲得は ID3 アルゴリズムにおける非常に重要な概念であり、分類タスクに対する特徴の寄与を測定するために使用されます。 ID3 アルゴリズムでは、各特徴の情報利得を計算することによって最適な分割点を選択し、それによって決定木を生成します。実際のアプリケーションでは、ゲイン比を使用して最適な特徴を選択するなど、情報ゲインを最適化できます。以上がid3 アルゴリズムにおける情報獲得の役割は何ですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。