fit()
et fit_transform()
? Ces deux fonctions apparaissent souvent lors du prétraitement des données. Examinons de plus près leurs différences et illustrons-les par des exemples.
La standardisation des données est une étape de prétraitement importante qui nécessite généralement le calcul de divers paramètres des données, tels que la moyenne, le minimum, le maximum et la variance. fit_transform()
calculera ces paramètres et les appliquera à l'ensemble de données, tandis que fit()
calculera uniquement ces paramètres et ne les appliquera pas à l'ensemble de données.
Supposons que nous ayons un petit tableau de données :
data = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
Utilisez fit()
et transform()
respectivement :
<code class="language-python">from sklearn.preprocessing import StandardScaler # 步骤 1 scaler = StandardScaler() # 步骤 2 scaler.fit(data) # 此处仅计算均值和标准差,不进行数据缩放 # 步骤 3 scaled_data = scaler.transform(data) # 现在 scaled_data 包含标准化后的数据</code>
Utiliser fit_transform()
:
<code class="language-python">from sklearn.preprocessing import StandardScaler # 步骤 1 scaler = StandardScaler() # 步骤 2 scaled_data = scaler.fit_transform(data) # scaled_data 包含标准化后的数据</code>
On voit que l'utilisation de fit_transform()
élimine une étape supplémentaire.
La fonction à choisir dépend de votre scénario d'application spécifique. Si vous devez d'abord calculer les paramètres, puis appliquer la transformation à plusieurs ensembles de données (tels que des ensembles d'entraînement et de test), il est plus approprié d'utiliser fit()
et transform()
respectivement. Mais si vous n'avez besoin d'appliquer la transformation qu'à un seul ensemble de données, fit_transform()
peut rendre le processus de prétraitement plus propre.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!