Une fois les données collectées et stockées, il est nécessaire de les analyser pour en tirer une compréhension significative. C’est pour cette raison que l’analyse exploratoire des données (EDA) entre en jeu. Comme son nom l'indique, nous 'explorons' les données, c'est-à-dire en obtenons un aperçu général.
Les données collectées peuvent être du texte, des vidéos ou des images et seront généralement stockées de manière non structurée. Vous trouverez rarement des données 100 % propres, c’est-à-dire sans aucune anomalie. De plus, les données peuvent être dans différents formats comme Excel, CSV (valeurs séparées par des virgules), Json, Parquet, etc.
Dans le monde des données, l'EDA peut également être appelée manipulation de données ou nettoyage de données. Les praticiens du secteur soulignent l'importance de nettoyer les données pour éliminer les « indésirables », car cela peut avoir un impact négatif sur les résultats ainsi que sur les prédictions. Les données structurées, généralement sous forme de tableau, peuvent être analysées à l'aide de plusieurs techniques et outils (comme Excel, Power BI, SQL) mais nous nous concentrerons sur Python pour cette illustration.
EDA utilisant Python
Le langage de programmation Python est l'un des outils les plus largement utilisés en EDA en raison de sa polyvalence qui permet son utilisation dans plusieurs secteurs, qu'il s'agisse de la finance, de l'éducation, de la santé, des mines, de l'hôtellerie, entre autres.
Les bibliothèques intégrées, à savoir Pandas et NumPy, sont très efficaces à cet égard et fonctionnent dans tous les domaines (que ce soit en utilisant Anaconda/Jupyter Notebook, Google Collab ou un IDE comme Visual Studio)
Vous trouverez ci-dessous les étapes courantes et les lignes de code exécutables lors de l'exécution d'EDA :
Tout d'abord, vous importerez les bibliothèques python nécessaires à la manipulation/analyse :
importer des pandas en tant que PD
importer numpy en tant que np
Deuxièmement, chargez l'ensemble de données
df = pd.read_excel('Chemin du fichier')
Remarque : df est la fonction standard pour convertir des données tabulaires en un bloc de données.
Une fois chargé, vous pouvez prévisualiser les données à l'aide du code :
df.head()
Cela affichera les 5 premières lignes de l'ensemble de données
Alternativement, vous pouvez simplement exécuter df qui affichera quelques lignes sélectionnées (en haut et en bas) de l'ensemble de données ainsi que de toutes les colonnes qu'il contient.
Troisièmement, comprenez tous les types de données en utilisant :
df.info()
Remarque : les types de données incluent des entiers (nombres entiers), des flotteurs (décimaux) ou des objets (données qualitatives/mots descriptifs).
A cette étape, il est conseillé d'obtenir des statistiques récapitulatives des données en utilisant :
df.describe()
Cela vous donnera des statistiques telles que Moyenne, mode, écart type, valeurs maximales/minimales et quartiles.
Quatrièmement, identifiez si des valeurs nulles existent dans l'ensemble de données en utilisant :
df.isnull()
Cela peut ensuite être suivi d'une vérification des doublons (entrées répétitives)
df.duplicate()
D'autres aspects clés de l'EDA consistent à vérifier la relation entre les différentes variables d'un ensemble de données (Corrélation) et leur distribution.
La corrélation peut être positive ou négative et varie de -1 à 1. Son code est :
df.corr()
Remarque : Un chiffre de corrélation proche de 1 indique une forte corrélation positive, tandis qu'un chiffre proche de -1 indique un forte corrélation négative.
La distribution vérifie à quel point les données sont symétriques ou asymétriques, ainsi que l'asymétrie des données et peut être soit normale, binomiale, Bernoulli ou Poisson.
En résumé, l'analyse exploratoire des données est un processus important pour mieux comprendre les données. Il permet de meilleures visualisations et de création de modèles.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!