Encodage d'étiquettes en ML

王林
Libérer: 2024-08-23 06:01:08
original
1211 Les gens l'ont consulté

Le

Label Encoding est l’une des techniques les plus utilisées en apprentissage automatique. Il est utilisé pour convertir les données catégorielles sous forme numérique. Ainsi, les données peuvent être intégrées au modèle.

Comprenons pourquoi nous utilisons le Label Encoding. Imaginez avoir les données, contenant les colonnes essentielles sous forme de chaîne. Mais vous ne pouvez pas intégrer ces données dans le modèle, car la modélisation ne fonctionne que sur des données numériques, que fait-on ? Voici la technique qui sauve des vies et qui est évaluée lors de l'étape de prétraitement lorsque nous préparons les données pour l'ajustement, à savoir le Codage des étiquettes.

Nous utiliserons l'ensemble de données iris de la bibliothèque Scikit-Learn, pour comprendre le fonctionnement de Label Encoder. Assurez-vous que les bibliothèques suivantes sont installées.

pandas
scikit-learn
Copier après la connexion

Pour l'installation en tant que bibliothèques, exécutez la commande suivante :

$ python install -U pandas scikit-learn
Copier après la connexion

Ouvrez maintenant Google Colab Notebook et plongez-vous dans le codage et l'apprentissage de Label Encoder.

Codons

  • Commencez par importer les bibliothèques suivantes :
import pandas as pd
from sklearn import preprocessing
Copier après la connexion
  • Importez l'ensemble de données iris et initialisez-le pour l'utiliser :
from sklearn.datasets import load_iris
iris = load_iris()
Copier après la connexion
  • Maintenant, nous devons sélectionner les données que nous voulons Encoder, nous allons encoder les noms espèces pour les iris.
species = iris.target_names
print(species)
Copier après la connexion

Sortie :

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')
Copier après la connexion
Copier après la connexion
  • Instancions la classe LabelEncoder à partir du prétraitement :
label_encoder = preprocessing.LabelEncoder()
Copier après la connexion
  • Maintenant, nous sommes prêts à ajuster les données à l'aide de l'encodeur d'étiquette :
label_encoder.fit(species)
Copier après la connexion

Vous obtiendrez un résultat similaire à ceci :

Label Encoding in ML

Si vous obtenez ce résultat, vous avez réussi à ajuster les données. Mais la question est de savoir comment découvrir quelles valeurs sont attribuées à chaque espèce et dans quel ordre.

L'ordre dans lequel Label Encoder correspond aux données est stocké dans l'attribut classes_. L'encodage commence de 0 à data_length-1.

label_encoder.classes_
Copier après la connexion

Sortie :

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')
Copier après la connexion
Copier après la connexion

L'encodeur d'étiquettes triera automatiquement les données et démarrera l'encodage depuis le côté gauche. Ici :

setosa -> 0
versicolor -> 1
virginica -> 2
Copier après la connexion
  • Maintenant, testons les données ajustées. Nous allons transformer l'espèce d'iris setosa.
label_encoder.transform(['setosa'])
Copier après la connexion

Sortie : tableau([0])

Encore une fois, si vous transformez l'espèce virginica.

label_encoder.transform(['virginica'])
Copier après la connexion

Sortie : tableau([2])

Vous pouvez également saisir la liste des espèces, telles que ["setosa", "virginica"]

Documentation Scikit Learn pour l'encodeur d'étiquettes >>>

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

source:dev.to
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal
À propos de nous Clause de non-responsabilité Sitemap
Site Web PHP chinois:Formation PHP en ligne sur le bien-être public,Aidez les apprenants PHP à grandir rapidement!