La mise à l'échelle des fonctionnalités joue un rôle important dans l'apprentissage automatique et entretient une relation étroite avec l'optimalité locale. La mise à l'échelle des fonctionnalités fait référence à la mise à l'échelle des données de fonctionnalités afin qu'elles aient une plage numérique similaire. Le but est d'éviter que certaines fonctionnalités aient un impact excessif sur les résultats lors de la formation du modèle, rendant ainsi le modèle plus stable et plus précis. L'optimalité locale fait référence à la solution optimale trouvée dans une zone locale, mais il ne s'agit pas nécessairement de la solution optimale globale. En apprentissage automatique, les algorithmes d’optimisation trouvent souvent la solution optimale de manière itérative. Si la gamme de données de caractéristiques est très différente, alors pendant le processus de formation du modèle, certaines caractéristiques peuvent avoir un impact plus important sur la convergence de l'algorithme d'optimisation, ce qui fait que l'algorithme tombe dans l'optimalité locale et ne parvient pas à trouver la solution optimale globale. Pour résoudre ce problème, nous pouvons faire évoluer les fonctionnalités. Le but de la mise à l'échelle des fonctionnalités en ajustant la proportion de données de fonctionnalités à un niveau similaire
est de garantir que les plages numériques des différentes fonctionnalités sont similaires et d'éviter que certaines fonctionnalités n'aient un impact excessif sur les résultats de formation du modèle.
Supposons que nous ayons un simple problème de régression linéaire, caractérisé par la superficie de la maison (unité : mètres carrés) et le prix de la maison (unité : 10 000 yuans). Si nous ne mettons pas à l'échelle les fonctionnalités et n'utilisons pas directement les données d'origine pour la modélisation, nous pouvons rencontrer des problèmes optimaux locaux. En effet, les plages numériques des caractéristiques peuvent être différentes, ce qui amène le modèle à privilégier les caractéristiques avec des valeurs plus élevées dans les calculs. Afin de résoudre ce problème, nous pouvons mettre à l'échelle les caractéristiques, par exemple en utilisant la normalisation ou la standardisation moyenne, pour mettre à l'échelle les valeurs des caractéristiques dans la même plage de valeurs. Cela garantit que le modèle accorde la même importance à toutes les fonctionnalités lors du calcul,
import numpy as np from sklearn.linear_model import LinearRegression # 原始数据 area = np.array([100, 150, 200, 250, 300]).reshape(-1, 1) price = np.array([50, 75, 100, 125, 150]) # 不进行特征缩放的线性回归 model_unscaled = LinearRegression() model_unscaled.fit(area, price) # 缩放数据 area_scaled = (area - np.mean(area)) / np.std(area) price_scaled = (price - np.mean(price)) / np.std(price) # 进行特征缩放的线性回归 model_scaled = LinearRegression() model_scaled.fit(area_scaled, price_scaled)
Dans le code ci-dessus, nous utilisons d'abord les données non mises à l'échelle des fonctionnalités pour effectuer une modélisation de régression linéaire, puis utilisons les données mises à l'échelle des fonctionnalités pour effectuer une régression linéaire. modélisation Modélisation de régression.
Étant donné que les unités de surface et de prix sont différentes, l'algorithme de régression linéaire peut s'adapter de manière plus significative à la caractéristique de surface et ignorer le prix. La mise à l'échelle des caractéristiques est nécessaire pour éviter un mauvais ajustement du modèle proche de l'optimum local.
Ce problème peut être évité en mettant à l'échelle les fonctionnalités afin que les deux fonctionnalités aient la même échelle. En effectuant une modélisation de régression linéaire sur les données à l'échelle des caractéristiques, le modèle peut traiter les deux caractéristiques de manière plus égale, réduisant ainsi le problème des points optimaux locaux provoqué par l'influence de différentes échelles.
Il convient de noter que la mise à l'échelle des fonctionnalités dans le code utilise la normalisation et la standardisation moyennes, et que la méthode de mise à l'échelle des fonctionnalités appropriée peut être sélectionnée en fonction de la situation réelle.
En résumé, la mise à l'échelle des fonctionnalités permet d'éviter l'optimalité locale en unifiant l'échelle, elle garantit l'équilibre des poids des fonctionnalités et améliore la capacité du modèle à mieux se débarrasser des points optimaux locaux pendant le processus d'entraînement, améliorant ainsi la possibilité de. optimisation globale.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!