L'algorithme ID3 est l'un des algorithmes de base dans l'apprentissage des arbres de décision. Il sélectionne le meilleur point de partage en calculant le gain d'informations de chaque fonctionnalité pour générer un arbre de décision. Le gain d'informations est un concept important dans l'algorithme ID3, utilisé pour mesurer la contribution des caractéristiques à la tâche de classification. Cet article présentera en détail le concept, la méthode de calcul et l'application du gain d'information dans l'algorithme ID3.
L'entropie de l'information est un concept de la théorie de l'information qui mesure l'incertitude des variables aléatoires. Pour une variable aléatoire discrète Le nombre de valeurs possibles pour la variable X, et p(x_i) représente la probabilité que la variable aléatoire X prenne la valeur x_i. L'unité d'entropie de l'information est le bit, qui est utilisé pour mesurer le nombre minimum de bits requis pour coder en moyenne une variable aléatoire.
Plus la valeur de l'entropie de l'information est grande, plus la variable aléatoire est incertaine, et vice versa. Par exemple, pour une variable aléatoire avec seulement deux valeurs possibles, si les probabilités des deux valeurs sont égales, alors son entropie d'information est de 1, ce qui signifie qu'une longueur de codage de 1 bit est nécessaire pour la coder si la probabilité ; de l'une des valeurs est 1, et la probabilité d'une autre valeur est 0, alors son entropie d'information est 0, ce qui signifie que sa valeur peut être déterminée sans codage.
2. Le concept d'entropie conditionnelle
Dans l'apprentissage des arbres de décision, nous devons calculer la contribution des caractéristiques à la tâche de classification. Afin de mesurer la capacité de classification d'une caractéristique, nous pouvons calculer l'incertitude de classification avec la caractéristique étant donné la caractéristique, qui est l'entropie conditionnelle. Supposons que la caractéristique A ait m valeurs. Pour chaque valeur, nous pouvons calculer la distribution de probabilité de la variable cible sous cette valeur, calculer l'entropie d'information correspondante et enfin trouver l'entropie conditionnelle, qui est définie comme suit :
où |X| X, |X_i| représente le nombre d'échantillons dans lesquels la caractéristique A prend la valeur A_i, et H(Y|
3. Le concept de gain d'information
Le gain d'information fait référence à la réduction de l'entropie de l'information qui peut être obtenue en divisant l'ensemble d'échantillons X par A à condition que la caractéristique A soit connue. Plus le gain d'informations est important, plus la réduction de l'entropie de l'information obtenue en utilisant la caractéristique A pour diviser l'ensemble d'échantillons X est grande, c'est-à-dire plus la contribution de la caractéristique A à la tâche de classification est grande. La définition du gain d'information est la suivante :
où, H(Y) est l'entropie informationnelle de la variable cible Y , H(Y| X) est l'entropie conditionnelle de la variable cible Y sous la condition de la caractéristique A.
IV. Calcul du gain d'information dans l'algorithme ID3
Dans l'algorithme ID3, nous devons sélectionner les meilleures caractéristiques pour diviser l'ensemble d'échantillons X. Pour chaque fonctionnalité A, nous pouvons calculer son gain d'informations et sélectionner la fonctionnalité avec le gain d'informations le plus important comme point de division. Plus précisément, pour chaque caractéristique A, nous pouvons d'abord calculer le nombre d'échantillons avec chaque valeur sous la caractéristique, puis calculer la distribution de probabilité de la variable cible avec chaque valeur sous la caractéristique et calculer l'entropie des informations correspondante. Ensuite, nous pouvons calculer l'entropie conditionnelle de la caractéristique A et soustraire l'entropie conditionnelle de l'entropie de l'information pour obtenir le gain d'information. Enfin, nous sélectionnons la caractéristique avec le gain d’informations le plus important comme point de division.
En bref, le gain d'information est un concept très important dans l'algorithme ID3, qui est utilisé pour mesurer la contribution d'une fonctionnalité à la tâche de classification. Dans l'algorithme ID3, nous sélectionnons le meilleur point de partage en calculant le gain d'informations de chaque fonctionnalité, générant ainsi un arbre de décision. Dans des applications pratiques, nous pouvons optimiser le gain d'informations, par exemple en utilisant le rapport de gain pour sélectionner les meilleures fonctionnalités.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!