Maison > développement back-end > Tutoriel Python > Apprentissage automatique en Python à l'aide de Scikit-Learn : guide du débutant

Apprentissage automatique en Python à l'aide de Scikit-Learn : guide du débutant

PHPz
Libérer: 2024-08-16 18:02:33
original
689 Les gens l'ont consulté

Machine Learning in Python Using Scikit-Learn: A Beginner

Êtes-vous intéressé à en savoir plus sur l'apprentissage automatique à l'aide de Python ? Ne cherchez pas plus loin que la bibliothèque Scikit-Learn ! Cette bibliothèque Python populaire est conçue pour une exploration, une analyse et une création de modèles efficaces. Dans ce guide, nous vous présenterons les bases de Scikit-Learn et comment vous pouvez commencer à l'utiliser pour vos projets d'apprentissage automatique.

Qu'est-ce que Scikit-Learn ?
Scikit-Learn est un outil puissant et facile à utiliser pour l'exploration et l'analyse de données. Il est construit sur d'autres bibliothèques populaires telles que NumPy, SciPy et Matplotlib. Il est open source et dispose d'une licence BSD disponible dans le commerce, ce qui le rend accessible à tous.

Que pouvez-vous faire avec Scikit-Learn ?
Scikit-Learn est largement utilisé pour trois tâches principales en apprentissage automatique :

1. Classement
La classification consiste à identifier à quelle catégorie appartient un objet. Par exemple, prédire si un e-mail est du spam ou non.

2. Régression
La régression est le processus de prédiction d'une variable continue basée sur des variables indépendantes pertinentes. Par exemple, utiliser les cours boursiers passés pour prédire les prix futurs.

3. Clustering
Le clustering consiste à regrouper automatiquement des objets similaires dans différents clusters. Par exemple, segmenter les clients en fonction des modèles d'achat.

Comment installer Scikit-Learn ?
Si vous utilisez un système d'exploitation Windows, voici un guide étape par étape pour installer Scikit-Learn :

  1. Installez Python en le téléchargeant depuis https://www.python.org/downloads/. Ouvrez le terminal en recherchant « cmd » et entrez python --version pour vérifier la version installée.

  2. Installez NumPy en téléchargeant le programme d'installation depuis https://sourceforge.net/projects/numpy/files/NumPy/1.10.2/.

  3. Téléchargez le programme d'installation de SciPy depuis SciPy : Bibliothèque scientifique pour Python - Parcourez /scipy/0.16.1 sur SourceForge.net.

  4. Installez Pip en tapant python get_pip.py dans le terminal de ligne de commande.

  5. Enfin, installez scikit-learn en tapant pip install scikit-learn dans la ligne de commande.

Qu'est-ce qu'un ensemble de données Scikit ?
Un ensemble de données Scikit est un ensemble de données intégré fourni par la bibliothèque permettant aux utilisateurs de pratiquer et de tester leurs modèles. Vous pouvez trouver les noms de ces ensembles de données sur https://scikit-learn.org/stable/datasets/index.html. Pour ce guide, nous utiliserons l'ensemble de données qualité du vin-rouge, qui peut également être téléchargé depuis Kaggle.

Importation de l'ensemble de données et des modules
Pour commencer à utiliser Scikit-Learn, nous devons d'abord importer les modules nécessaires et l'ensemble de données.

Importez le module pandas et utilisez la méthode read_csv() pour lire le fichier .csv et convertissez-le en DataFrame pandas.

Les modules que nous utiliserons sont :

  • NumPy pour les calculs algébriques et numériques
  • Pandas pour travailler avec des trames de données
  • Le module model_selection pour sélectionner entre différents modèles
  • Le module de prétraitement pour faire évoluer et transformer nos données
  • Le RandomForestRegressor pour comparer les mesures de performances de notre ensemble de données

Ensembles d'entraînement et ensembles de tests
La division des données en ensembles d'entraînement et de test est cruciale pour estimer les performances de votre modèle. L'ensemble d'entraînement est utilisé pour construire et tester notre algorithme, tandis que l'ensemble de test est utilisé pour évaluer l'exactitude de nos prédictions.

Pour diviser nos données, nous utiliserons la fonction train_test_split() fournie par Scikit-Learn.

Données de prétraitement
Le prétraitement des données est l'étape initiale et la plus importante qui améliore la qualité d'un modèle. Il s'agit de rendre les données adaptées à une utilisation dans un modèle d'apprentissage automatique.

Une technique de prétraitement courante est la standardisation, qui standardise la gamme de fonctionnalités de données d'entrée avant d'appliquer des modèles d'apprentissage automatique. Pour cela, nous pouvons utiliser l'API Transformer fournie par Scikit-Learn.

Comprendre les hyperparamètres et la validation croisée
Les hyperparamètres sont des concepts de niveau supérieur, tels que la complexité et le taux d'apprentissage, qui ne peuvent pas être directement appris à partir des données et doivent être prédéfinis.

Pour évaluer les performances de généralisation d'un modèle et éviter le surajustement, la validation croisée est une technique d'évaluation importante. Cela implique de diviser l'ensemble de données en N parties aléatoires de volume égal.

Évaluation des performances du modèle
Après avoir entraîné et testé notre modèle, il est temps d'évaluer ses performances à l'aide de diverses mesures. Pour cela, nous importerons les métriques dont nous avons besoin, telles que r2_score et Mean_squared_error.

La fonction r2_score calcule la variance de la variable dépendante pour la variable indépendante, tandis que la fonction Mean_squared_error calcule la moyenne du carré des erreurs. Il est essentiel de garder à l'esprit l'objectif du modèle pour déterminer si les performances sont suffisantes.

N'oubliez pas de sauvegarder votre modèle pour une utilisation future !

En conclusion, nous avons couvert les bases de l'utilisation de Scikit-Learn pour l'apprentissage automatique en Python. En suivant les étapes décrites dans ce guide, vous pouvez commencer à explorer et à utiliser Scikit-Learn pour vos propres projets d'exploration et d'analyse de données. Avec son interface conviviale et son large éventail de fonctionnalités, Scikit-Learn est un outil puissant pour les data scientists débutants et expérimentés.

Améliorez vos capacités de codage Python en utilisant les tests pratiques de certification Python disponibles sur MyExamCloud.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

source:dev.to
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal