Cet article vous apprend à diviser un ensemble de données en données de formation et de test et à enregistrer cette division dans un fichier .pkl, essentiel pour former et évaluer les modèles de Machine Learning de manière organisée. Le processus utilise les bibliothèques sklearn et pickle, vous permettant de réutiliser les données traitées dans de futurs projets. Cet article est la prochaine étape d'une série de tutoriels sur le prétraitement des données.
Important : Pour suivre cet article, lisez d'abord les articles ci-dessous dans l'ordre suggéré. Chaque article fournit les bases dont vous avez besoin pour comprendre le suivant, vous assurant ainsi de comprendre l'ensemble du flux de travail jusqu'à présent.
Article 1 : Appliquer l'apprentissage automatique : un guide pour démarrer en tant que modèles en classification
Article 2 :Explorer la classification dans l'apprentissage automatique : types de variables
Article 3 :Explorer Google Colab : votre allié pour coder des modèles de machine learning
Article 4 :Explorer les données avec Python sur Google Colab : un guide pratique utilisant l'ensemble de données adult.csv
Article 5 : Démystifier le prédicteur, la division de classe et la gestion des attributs catégoriels avec LabelEncoder et OneHotEncoder
Article 6 : Mise à l'échelle des données : les bases de modèles efficaces
Dans cet article, vous apprendrez à diviser un ensemble de données en formation et tests, ainsi qu'à enregistrer cette division dans un fichier .pkl. Ce processus est essentiel pour assurer une séparation nette entre les données qui seront utilisées pour entraîner le modèle et celles qui seront utilisées pour évaluer ses performances.
Tout d'abord, accédez à ce lien de bloc-notes et sélectionnez Fichier > Enregistrez une copie dans Drive. N'oubliez pas que l'ensemble de données (adult.csv) doit être chargé à nouveau à chaque nouvelle publication (plus d'informations dans l'article 4 ci-dessus), car chaque tutoriel crée un nouveau notebook, en ajoutant uniquement le code nécessaire présenté dans cet article, mais le notebook est avec tout le code généré jusqu'à présent. Une copie du bloc-notes sera enregistrée sur Google Drive, dans le dossier Colab Notebooks, gardant le processus organisé et continu.
La division de l'ensemble de données est une étape fondamentale dans tout projet de Machine Learning, car elle permet au modèle "d'apprendre" à partir d'une partie des données (entraînement) puis d'être évalué sur de nouvelles données, jamais vues auparavant (tests). Cette pratique est essentielle pour mesurer la généralisation du modèle. Pour faciliter le suivi, nous utiliserons les variables suivantes :
Vous trouverez ci-dessous le code Python pour effectuer la répartition entre les données d'entraînement et de test :
from sklearn.model_selection import train_test_split X_adult_treinamento, X_adult_teste, y_adult_treinamento, y_adult_teste = train_test_split(X_adult, y_adult, test_size=0.2, random_state=0) # Dados para o treinamento X_adult_treinamento.shape, y_adult_treinamento.shape # Dados para o teste X_adult_teste.shape, y_adult_teste.shape
La figure ci-dessous montre le code précédent avec ses sorties après exécution.
train_test_split : Fonction de la bibliothèque sklearn qui divise l'ensemble de données.
test_size=0.2 : Indique que 20 % des données seront réservées aux tests, et les 80 % restants à l'entraînement.
random_state=0 : Garantit que la division est toujours la même, générant des résultats cohérents pour chaque exécution.
forme : Vérifie la forme des données après le fractionnement pour confirmer que le fractionnement s'est produit correctement.
Pour faciliter le travail et assurer la cohérence entre les différentes exécutions, nous enregistrerons les variables d'entraînement et de test dans un fichier .pkl. Cela permet de réutiliser les données chaque fois que nécessaire, sans avoir à refaire la division.
Code pour enregistrer les variables à l'aide de pickle :
import pickle with open('adult.pkl', mode='wb') as fl: pickle.dump([X_adult_treinamento, y_adult_treinamento, X_adult_teste, y_adult_teste], fl)
Pour afficher le fichier adult.pkl sur le cahier, cliquez simplement sur l'icône du dossier sur le côté gauche, comme indiqué dans la figure ci-dessous.
pickle : Bibliothèque Python utilisée pour sérialiser des objets, permettant d'enregistrer des variables complexes dans des fichiers.
dump : Enregistre les variables dans un fichier appelé adult.pkl. Ce fichier sera lu à l'avenir pour charger l'ensemble de données divisé en formation et tests, optimisant ainsi le flux de travail.
Dans cet article, vous avez appris à diviser un ensemble de données en données d'entraînement et de test et à l'enregistrer dans un fichier .pkl. Ce processus est fondamental dans les projets de Machine Learning, garantissant une structure organisée et efficace. Dans le prochain article, nous aborderons la création de modèles, en commençant par l'algorithme Naive Bayes, en utilisant le fichier adult.pkl pour poursuivre le développement.
1. Statistiques pratiques pour les data scientists
2. Introduction à l'informatique avec Python
3. 2041 : Comment l'intelligence artificielle changera votre vie au cours des prochaines décennies
4. Cours Python intensif
5. Comprendre les algorithmes. Un guide illustré pour les programmeurs et autres curieux
6. Intelligence artificielle - Kai-Fu Lee
7. Introduction à l'intelligence artificielle - Une approche non technique - Tom Taulli
J'ai fait une analyse détaillée des nouveaux Kindle lancés cette année, mettant en évidence leurs principales innovations et avantages pour les lecteurs numériques. Consultez le texte intégral sur le lien suivant : Le monde fascinant de la lecture numérique : les avantages d'avoir un Kindle.
Rejoindre Amazon Prime offre une série d'avantages, notamment un accès illimité à des milliers de films, séries et musiques, ainsi que la livraison gratuite sur des millions de produits avec livraison rapide. Les membres bénéficient également d'offres exclusives, d'un accès anticipé aux promotions et d'avantages sur des services tels que Prime Video, Prime Music et Prime Reading, rendant l'expérience de shopping et de divertissement beaucoup plus pratique et riche.
Si vous êtes intéressé, utilisez le lien suivant : AMAZON PRIME, qui m'aide à continuer à promouvoir l'intelligence artificielle et la programmation informatique.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!