Pourquoi utiliser les données
Lorsque vous devez travailler avec une nouvelle source de données, avec une énorme quantité de données, il peut être important d'utiliser la visualisation des données pour mieux comprendre les données.
Le processus d'analyse des données se déroule la plupart du temps en 5 étapes :
- Extraire - Obtenez les données à partir d'une feuille de calcul, de SQL, du Web, etc.
- Clean - Ici, nous pourrions utiliser des visuels exploratoires.
- Explorer - Ici, nous utilisons des visuels exploratoires.
- Analyser - Ici, nous pouvons utiliser des visuels exploratoires ou explicatifs.
- Partager - C'est ici que se trouvent les visuels explicatifs.
Types de données
Pour pouvoir choisir un tracé approprié pour une mesure donnée, il est important de savoir de quelles données vous disposez.
Types qualitatifs ou catégoriques
Données qualitatives nominales
Étiquettes sans ordre ni classement associés aux articles eux-mêmes.
Exemples : Sexe, état civil, éléments de menu
Données qualitatives ordinales
Étiquettes qui ont un ordre ou un classement.
Exemples : notes alphabétiques, notation
Types quantitatifs ou numériques
Valeurs quantitatives discrètes
Les nombres ne peuvent pas être divisés en unités plus petites
Exemples : Pages dans un livre, nombre d'arbres dans un parc
Valeurs quantitatives continues
Les nombres peuvent être divisés en unités plus petites
Exemples : Taille, Âge, Revenu, Heures de travail
Statistiques récapitulatives
Données numériques
Moyenne : La valeur moyenne.
Médiane : La valeur moyenne lorsque les données sont triées.
Mode : La valeur la plus fréquente.
Variance/Écart type : Mesures de propagation ou de dispersion.
Plage : Différence entre les valeurs maximales et minimales.
Données catégorielles
Fréquence : Le nombre d'occurrences de chaque catégorie.
Mode : La catégorie la plus fréquente.
Visualisations
Vous pouvez obtenir très rapidement des informations sur une nouvelle source de données et également voir plus facilement les connexions entre différents types de données.
Parce que lorsque vous utilisez uniquement les statistiques standard pour résumer vos données, vous obtiendrez le min, le max, la moyenne, la médiane et le mode, mais cela peut être trompeur à d'autres égards. Comme le montre le Quatuor d'Anscombe : la moyenne et l'écart sont toujours les mêmes, mais la distribution des données est toujours différente.
En visualisation de données, nous en avons deux types :
- Visualisation exploratoire des données
Nous l'utilisons pour obtenir des informations sur les données. Il n'est pas nécessaire qu'il soit visuellement attrayant.
- Visualisation explicative des données
Ces visualisations doivent être précises, perspicaces et visuellement attrayantes lorsqu'elles sont présentées aux utilisateurs.
Graphiques indésirables, taux d'encre des données et intégrité de la conception
Graphiques indésirables
Pour pouvoir lire les informations fournies via l'intrigue sans distraction, il est important d'éviter les graphiques inutiles. Comme :
- Lignes de quadrillage épaisses
- Photos dans les visuels
- Nuances
- Composants 3D
- Ornements
- Textes superflus
Rapport d'encre de données
Plus vos graphiques inutiles dans un visuel sont bas, plus le taux d'encre des données est élevé. Cela signifie simplement que plus « d’encre » dans le visuel est utilisée pour transporter le message des données, mieux c’est.
Intégrité de la conception
Le Facteur de mensonge est calculé comme suit :
$$
text{Facteur de mensonge} = frac{text{Taille de l'effet affichée dans le graphique}}{text{Taille de l'effet dans les données}}
$$
Le delta représente la différence. Il s'agit donc du changement relatif indiqué dans le graphique divisé par le changement relatif réel des données. Idéalement, il devrait être 1. Si ce n'est pas le cas, cela signifie qu'il y a une certaine disparité dans la façon dont les données sont présentées et dans le changement réel.
Dans l'exemple ci-dessus, tiré du wiki, le facteur de mensonge est de 3, lorsque l'on compare les pixels de chaque médecin, représentant le nombre de médecins en Californie.
Des données ordonnées
assurez-vous que vos données sont correctement nettoyées et prêtes à être utilisées :
- chaque variable est une colonne
- chaque observation est une ligne
- chaque type d'unité d'observation est une table
Exploration univariée des données
Il s'agit de l'analyse d'une seule variable (ou caractéristique) dans un ensemble de données.
Graphique à barres
- Toujours tracer en commençant par 0 pour présenter les valeurs de manière réellement comparable.
- trier les données nominales
- ne triez pas les données ordinales - ici, il est plus important de savoir à quelle fréquence la catégorie la plus importante apparaît que la plus fréquente
- si vous avez beaucoup de catégories, utilisez un graphique à barres horizontales : placez les catégories sur l'axe des y, pour le rendre plus lisible.
Histogramme
- version quantitative d'un graphique à barres. Ceci est utilisé pour tracer des valeurs numériques.
- les valeurs sont regroupées dans des compartiments continus, une barre pour chacune est tracée
KDE - Estimation de la densité du noyau
- souvent une distribution gaussienne ou normale, pour estimer la densité en chaque point.
- Les tracés KDE peuvent révéler plus clairement les tendances et la forme de la distribution, en particulier pour les données qui ne sont pas uniformément distribuées.
Graphique circulaire et tracé en beignet
- les données doivent être en fréquences relatives
- Les diagrammes circulaires fonctionnent mieux avec 3 tranches au maximum. S'il y a plus de coins à afficher, cela devient illisible et les différents montants sont difficiles à comparer. Alors vous préféreriez un graphique à barres.
Exploration bivariée des données
Analyse la relation entre deux variables dans un ensemble de données.
Graphiques à barres groupées
- affiche la relation entre deux valeurs catégorielles. Les barres sont organisées en clusters en fonction du niveau de la première variable.
Nuages de points
- chaque point de données est tracé individuellement sous forme de point, sa position x correspondant à une valeur de caractéristique et sa position y correspondant à la seconde.
- si le tracé souffre de surtraçage (trop de points de données se chevauchent) : vous pouvez utiliser la transparence et la gigue (chaque point est légèrement déplacé par rapport à sa vraie valeur)
Cartes thermiques
- Version 2D d'un histogramme
- les points de données sont placés avec leur position x correspondant à une valeur de caractéristique et sa position y correspondant à la seconde.
- la zone de traçage est divisée en une grille, et les nombres de points s'y additionnent et les décomptes sont indiqués par couleur
Intrigues de violon
- montrer la relation entre les variables quantitatives (numériques) et qualitatives (catégorielles) à un niveau d'abstraction inférieur.
- la distribution est tracée comme une estimation de la densité du noyau, nous pouvons donc avoir une idée claire
- pour afficher les statistiques clés en même temps, vous pouvez intégrer un box plot dans un violon plot.
Boîtes à moustaches
- il trace également la relation entre les variables quantitatives (numériques) et qualitatives (catégorielles) à un niveau d'abstraction inférieur.
- par rapport au tracé en violon, le tracé en boîte s'appuie davantage sur la synthèse des données, rapportant principalement un ensemble de statistiques descriptives pour les valeurs numériques à chaque niveau catégoriel.
- il visualise le résumé en cinq chiffres des données : minimum, premier quartile (Q1), médiane (Q2), troisième quartile (Q3) et maximum.
Éléments clés d'un boxplot :
Encadré : La partie centrale du graphique représente l'intervalle interquartile (IQR), qui est l'intervalle entre le premier quartile (Q1, 25e centile) et le troisième quartile (Q3, 75e centile). Celui-ci contient les 50 % centraux des données.
Ligne médiane : À l'intérieur de la boîte, une ligne représente la médiane (Q2, 50e percentile) de l'ensemble de données.
Whiskers : les lignes s'étendant à partir de la boîte, appelées « moustaches », montrent la plage des données qui se situent dans 1,5 fois l'IQR des premier et troisième trimestres. Ils s'étendent généralement aux valeurs les plus petites et les plus grandes de cette plage.
Valeurs aberrantes : tous les points de données qui se situent en dehors de 1,5 fois l'IQR sont considérés comme des valeurs aberrantes et sont souvent représentés par des points ou des marques individuels au-delà des moustaches.
Violon combiné et intrigue en boîte
Le tracé en violon montre la densité dans différentes catégories, et le tracé en boîte fournit les statistiques récapitulatives
Facettage
- les données sont divisées en sous-ensembles disjoints, le plus souvent par différents niveaux d'une variable catégorielle. Pour chacun de ces sous-ensembles de données, le même type de tracé est rendu sur d'autres variables, c'est-à-dire plusieurs histogrammes les uns à côté des autres avec des valeurs catégorielles différentes.
Tracé linéaire
- utilisé pour tracer la tendance d'une variable numérique par rapport à une seconde variable.
Graphique Quantile-Quantile (Q-Q)
- est un type de tracé utilisé pour comparer la distribution d'un ensemble de données avec une distribution théorique (comme une distribution normale) ou pour comparer deux ensembles de données pour vérifier s'ils suivent la même distribution.
Terrain d'essaim
- Comme un nuage de points, chaque point de données est tracé avec une position en fonction de sa valeur sur les deux variables tracées. Au lieu de points instables de manière aléatoire comme dans un nuage de points normal, les points sont placés aussi près que possible de leur valeur réelle sans permettre aucun chevauchement.
Complot d'araignée
- comparez plusieurs variables dans différentes catégories sur une grille radiale. Également connu sous le nom de carte radar.
Liens utiles
Mon exemple de carnet
Exemple de code
Bibliothèques utilisées pour les exemples de tracés :
-
Matplotlib : une bibliothèque polyvalente pour les visualisations, mais la création de visualisations communes peut nécessiter un certain effort de code.
- Seaborn : construit sur matplotlib, ajoute un certain nombre de fonctions pour faciliter la génération de visualisations statistiques courantes.
-
pandas : bien que cette bibliothèque comprenne des méthodes pratiques pour visualiser les données liées à matplotlib, nous l'utiliserons principalement dans son objectif principal en tant qu'outil général pour travailler avec des données (https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf ).
Lectures complémentaires :
- Anscombes Quartett : Mêmes statistiques pour les données, mais répartition différente : https://en.wikipedia.org/wiki/Anscombe%27s_quartet
- Chartchunk : https://en.wikipedia.org/wiki/Chartjunk
- Rapport d'encre de données : https://infovis-wiki.net/wiki/Data-Ink_Ratio
- Facteur de mensonge : https://infovis-wiki.net/wiki/Lie_Factor
- Données bien rangées : https://cran.r-project.org/web/packages/tidyr/vignettes/tidy-data.html
- Visualisations adaptées aux daltoniens : https://www.tableau.com/blog/examining-data-viz-rules-dont-use-red-green-together
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!