Avec l'avènement de l'ère du big data, l'analyse des données et l'apprentissage automatique sont devenus des domaines populaires. Cependant, comment obtenir l’ensemble de données, l’analyser et entraîner le modèle peut être une tâche difficile pour les débutants. Pour résoudre ce problème, la communauté open source a fourni de riches ensembles de données et Python, en tant que langage de programmation populaire, propose également diverses méthodes pour utiliser ces ensembles de données.
Cet article présente les méthodes et outils d'utilisation des ensembles de données open source en Python, tels que le chargement, la navigation, le nettoyage, la visualisation et l'analyse des données. Nous utiliserons des ensembles de données accessibles au public pour des démonstrations pratiques afin d'aider les lecteurs à maîtriser ces compétences.
Tout d'abord, nous devons charger l'ensemble de données dans le programme Python. Il existe de nombreux ensembles de données open source qui peuvent être téléchargés sur le Web, tels que UCI Machine Learning Repository, Kaggle, etc. Ces ensembles de données sont généralement enregistrés dans divers formats tels que CSV, JSON et XML.
En Python, pandas est une bibliothèque très utile, on peut utiliser pandas pour charger un jeu de données au format CSV avec quelques lignes de code :
import pandas as pd data = pd.read_csv("example.csv")
Une fois le jeu de données chargé dans Python, il est temps pour commencer à explorer les données. Nous pouvons utiliser la méthode head() des pandas pour afficher les premières lignes de données :
print(data.head())
Si nous voulons afficher les dernières lignes de l'ensemble de données, nous pouvons utiliser la méthode tail().
Nous pouvons également utiliser l'attribut shape pour obtenir la taille de l'ensemble de données :
print(data.shape)
De plus, nous pouvons utiliser la méthode décrire() pour obtenir des statistiques simples de l'ensemble de données, telles que la valeur minimale, la valeur maximale, la valeur moyenne, etc. :
print(data.describe())
Lorsque nous parcourons l'ensemble de données, nous pouvons constater qu'il y a des problèmes tels que des valeurs manquantes, des valeurs aberrantes ou des valeurs en double dans l'ensemble de données. En analyse de données et en apprentissage automatique, ces problèmes sont très graves et nous devons donc les résoudre.
Pour les valeurs manquantes, nous pouvons utiliser la méthode fillna() pour remplir avec 0 ou la moyenne :
data.fillna(0, inplace=True)
Si nous voulons supprimer les lignes en double dans l'ensemble de données, nous pouvons utiliser la méthode drop_duplicates() :
data.drop_duplicates(inplace=True)
Pour valeur des exceptions, nous pouvons utiliser l'écart type pour déterminer s'il est anormal et le remplacer par la moyenne :
mean = data["col"].mean() std = data["col"].std() cut_off = std * 3 lower, upper = mean - cut_off, mean + cut_off new_data = [x if x > lower and x < upper else mean for x in data["col"]] data["col"] = new_data
La visualisation des données est l'une des étapes importantes de l'analyse des données. En Python, nous pouvons utiliser Matplotlib. et Seaborn Attendez que les bibliothèques effectuent la visualisation des données.
Par exemple, nous pouvons utiliser la bibliothèque Matplotlib pour dessiner un graphique linéaire dans l'ensemble de données :
import matplotlib.pyplot as plt plt.plot(data["col"]) plt.show()
ou utiliser la méthode Pairplot de la bibliothèque Seaborn pour réaliser un diagramme de distribution de plusieurs variables :
import seaborn as sns sns.pairplot(data)
Après la visualisation des données, nous pouvons effectuer une analyse des données plus approfondie, telle que la création de modèles, de modèles de formation, de prédictions, etc. Python fournit de nombreuses bibliothèques pour prendre en charge ces opérations, telles que Scikit-learn et TensorFlow, entre autres.
Par exemple, nous pouvons utiliser la bibliothèque Scikit-learn pour construire un modèle de régression linéaire :
from sklearn.linear_model import LinearRegression from sklearn.model_selection import train_test_split X = data[["col1", "col2"]] y = data["target_col"] X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2) model = LinearRegression() model.fit(X_train, y_train) y_pred = model.predict(X_test)
Dans l'exemple ci-dessus, nous utilisons la méthode train_test_split pour diviser l'ensemble de données en un ensemble d'entraînement et un ensemble de test, puis utilisons le Classe LinearRegression pour construire le modèle, et enfin utiliser La méthode prédire fait des prédictions sur l'ensemble de test.
Conclusion
Cet article explique comment utiliser des ensembles de données open source en Python pour l'analyse des données et l'apprentissage automatique. Nous utilisons la bibliothèque pandas pour charger et parcourir des ensembles de données, les bibliothèques Matplotlib et Seaborn pour la visualisation des données et la bibliothèque Scikit-learn pour créer et entraîner des modèles. Ces techniques et outils ne sont pas seulement applicables aux ensembles de données open source mentionnés dans cet article, mais également à d'autres types d'ensembles de données, tels que les données Web, les données de capteurs, etc. À mesure que l’analyse des données et l’apprentissage automatique se développent, ces technologies et outils continueront d’être mis à jour et améliorés, offrant ainsi de meilleures performances et une plus grande facilité d’utilisation.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!