Bases de la visualisation des données-Tutoriel Python-php.cn

Pourquoi utiliser les données

Lorsque vous devez travailler avec une nouvelle source de données, avec une énorme quantité de données, il peut être important d'utiliser la visualisation des données pour mieux comprendre les données.
Le processus d'analyse des données se déroule la plupart du temps en 5 étapes :

Extraire - Obtenez les données à partir d'une feuille de calcul, de SQL, du Web, etc.
Clean - Ici, nous pourrions utiliser des visuels exploratoires. 
Explorer - Ici, nous utilisons des visuels exploratoires. 
Analyser - Ici, nous pouvons utiliser des visuels exploratoires ou explicatifs. 
Partager - C'est ici que se trouvent les visuels explicatifs.

Types de données

Pour pouvoir choisir un tracé approprié pour une mesure donnée, il est important de savoir de quelles données vous disposez.

Types qualitatifs ou catégoriques

Données qualitatives nominales

Étiquettes sans ordre ni classement associés aux articles eux-mêmes.
Exemples : Sexe, état civil, éléments de menu

Données qualitatives ordinales

Étiquettes qui ont un ordre ou un classement.
Exemples : notes alphabétiques, notation

Types quantitatifs ou numériques

Valeurs quantitatives discrètes

Les nombres ne peuvent pas être divisés en unités plus petites
Exemples : Pages dans un livre, nombre d'arbres dans un parc

Valeurs quantitatives continues

Les nombres peuvent être divisés en unités plus petites
Exemples : Taille, Âge, Revenu, Heures de travail

Statistiques récapitulatives

Données numériques

Moyenne : La valeur moyenne.
Médiane : La valeur moyenne lorsque les données sont triées.
Mode : La valeur la plus fréquente.
Variance/Écart type : Mesures de propagation ou de dispersion.
Plage : Différence entre les valeurs maximales et minimales.

Données catégorielles

Fréquence : Le nombre d'occurrences de chaque catégorie.
Mode : La catégorie la plus fréquente.

Visualisations

Vous pouvez obtenir très rapidement des informations sur une nouvelle source de données et également voir plus facilement les connexions entre différents types de données.
Parce que lorsque vous utilisez uniquement les statistiques standard pour résumer vos données, vous obtiendrez le min, le max, la moyenne, la médiane et le mode, mais cela peut être trompeur à d'autres égards. Comme le montre le Quatuor d'Anscombe : la moyenne et l'écart sont toujours les mêmes, mais la distribution des données est toujours différente.

En visualisation de données, nous en avons deux types :

Visualisation exploratoire des données Nous l'utilisons pour obtenir des informations sur les données. Il n'est pas nécessaire qu'il soit visuellement attrayant.
Visualisation explicative des données Ces visualisations doivent être précises, perspicaces et visuellement attrayantes lorsqu'elles sont présentées aux utilisateurs.

Graphiques indésirables, taux d'encre des données et intégrité de la conception

Graphiques indésirables

Pour pouvoir lire les informations fournies via l'intrigue sans distraction, il est important d'éviter les graphiques inutiles. Comme :

Lignes de quadrillage épaisses
Photos dans les visuels
Nuances
Composants 3D
Ornements
Textes superflus

Rapport d'encre de données

Plus vos graphiques inutiles dans un visuel sont bas, plus le taux d'encre des données est élevé. Cela signifie simplement que plus « d’encre » dans le visuel est utilisée pour transporter le message des données, mieux c’est.

Intégrité de la conception

Le Facteur de mensonge est calculé comme suit :

$$
text{Facteur de mensonge} = frac{text{Taille de l'effet affichée dans le graphique}}{text{Taille de l'effet dans les données}}
$$

Le delta représente la différence. Il s'agit donc du changement relatif indiqué dans le graphique divisé par le changement relatif réel des données. Idéalement, il devrait être 1. Si ce n'est pas le cas, cela signifie qu'il y a une certaine disparité dans la façon dont les données sont présentées et dans le changement réel.

Data Visualisation Basics
Dans l'exemple ci-dessus, tiré du wiki, le facteur de mensonge est de 3, lorsque l'on compare les pixels de chaque médecin, représentant le nombre de médecins en Californie.

Data Visualisation Basics

Des données ordonnées

assurez-vous que vos données sont correctement nettoyées et prêtes à être utilisées :

chaque variable est une colonne
chaque observation est une ligne
chaque type d'unité d'observation est une table

Exploration univariée des données

Il s'agit de l'analyse d'une seule variable (ou caractéristique) dans un ensemble de données.

Graphique à barres

Toujours tracer en commençant par 0 pour présenter les valeurs de manière réellement comparable.
trier les données nominales
ne triez pas les données ordinales - ici, il est plus important de savoir à quelle fréquence la catégorie la plus importante apparaît que la plus fréquente
si vous avez beaucoup de catégories, utilisez un graphique à barres horizontales : placez les catégories sur l'axe des y, pour le rendre plus lisible.

Data Visualisation Basics

Histogramme

version quantitative d'un graphique à barres. Ceci est utilisé pour tracer des valeurs numériques.
les valeurs sont regroupées dans des compartiments continus, une barre pour chacune est tracée

KDE - Estimation de la densité du noyau

souvent une distribution gaussienne ou normale, pour estimer la densité en chaque point.
Les tracés KDE peuvent révéler plus clairement les tendances et la forme de la distribution, en particulier pour les données qui ne sont pas uniformément distribuées.

Graphique circulaire et tracé en beignet

les données doivent être en fréquences relatives
Les diagrammes circulaires fonctionnent mieux avec 3 tranches au maximum. S'il y a plus de coins à afficher, cela devient illisible et les différents montants sont difficiles à comparer. Alors vous préféreriez un graphique à barres.

Exploration bivariée des données

Analyse la relation entre deux variables dans un ensemble de données.

Graphiques à barres groupées

affiche la relation entre deux valeurs catégorielles. Les barres sont organisées en clusters en fonction du niveau de la première variable.

Nuages de points

chaque point de données est tracé individuellement sous forme de point, sa position x correspondant à une valeur de caractéristique et sa position y correspondant à la seconde.
si le tracé souffre de surtraçage (trop de points de données se chevauchent) : vous pouvez utiliser la transparence et la gigue (chaque point est légèrement déplacé par rapport à sa vraie valeur)

Cartes thermiques

Version 2D d'un histogramme
les points de données sont placés avec leur position x correspondant à une valeur de caractéristique et sa position y correspondant à la seconde.
la zone de traçage est divisée en une grille, et les nombres de points s'y additionnent et les décomptes sont indiqués par couleur

Intrigues de violon

montrer la relation entre les variables quantitatives (numériques) et qualitatives (catégorielles) à un niveau d'abstraction inférieur.
la distribution est tracée comme une estimation de la densité du noyau, nous pouvons donc avoir une idée claire
pour afficher les statistiques clés en même temps, vous pouvez intégrer un box plot dans un violon plot.

Boîtes à moustaches

il trace également la relation entre les variables quantitatives (numériques) et qualitatives (catégorielles) à un niveau d'abstraction inférieur.
par rapport au tracé en violon, le tracé en boîte s'appuie davantage sur la synthèse des données, rapportant principalement un ensemble de statistiques descriptives pour les valeurs numériques à chaque niveau catégoriel.
il visualise le résumé en cinq chiffres des données : minimum, premier quartile (Q1), médiane (Q2), troisième quartile (Q3) et maximum.

Éléments clés d'un boxplot :
Encadré : La partie centrale du graphique représente l'intervalle interquartile (IQR), qui est l'intervalle entre le premier quartile (Q1, 25e centile) et le troisième quartile (Q3, 75e centile). Celui-ci contient les 50 % centraux des données.

Ligne médiane : À l'intérieur de la boîte, une ligne représente la médiane (Q2, 50e percentile) de l'ensemble de données.

Whiskers : les lignes s'étendant à partir de la boîte, appelées « moustaches », montrent la plage des données qui se situent dans 1,5 fois l'IQR des premier et troisième trimestres. Ils s'étendent généralement aux valeurs les plus petites et les plus grandes de cette plage.

Valeurs aberrantes : tous les points de données qui se situent en dehors de 1,5 fois l'IQR sont considérés comme des valeurs aberrantes et sont souvent représentés par des points ou des marques individuels au-delà des moustaches.
Data Visualisation Basics

Violon combiné et intrigue en boîte

Le tracé en violon montre la densité dans différentes catégories, et le tracé en boîte fournit les statistiques récapitulatives
Data Visualisation Basics

Facettage

les données sont divisées en sous-ensembles disjoints, le plus souvent par différents niveaux d'une variable catégorielle. Pour chacun de ces sous-ensembles de données, le même type de tracé est rendu sur d'autres variables, c'est-à-dire plusieurs histogrammes les uns à côté des autres avec des valeurs catégorielles différentes.

Tracé linéaire

utilisé pour tracer la tendance d'une variable numérique par rapport à une seconde variable.

Graphique Quantile-Quantile (Q-Q)

est un type de tracé utilisé pour comparer la distribution d'un ensemble de données avec une distribution théorique (comme une distribution normale) ou pour comparer deux ensembles de données pour vérifier s'ils suivent la même distribution.

Terrain d'essaim

Comme un nuage de points, chaque point de données est tracé avec une position en fonction de sa valeur sur les deux variables tracées. Au lieu de points instables de manière aléatoire comme dans un nuage de points normal, les points sont placés aussi près que possible de leur valeur réelle sans permettre aucun chevauchement.

Complot d'araignée

comparez plusieurs variables dans différentes catégories sur une grille radiale. Également connu sous le nom de carte radar.

Liens utiles

Mon exemple de carnet

Exemple de code

Bibliothèques utilisées pour les exemples de tracés :

Matplotlib : une bibliothèque polyvalente pour les visualisations, mais la création de visualisations communes peut nécessiter un certain effort de code.
Seaborn : construit sur matplotlib, ajoute un certain nombre de fonctions pour faciliter la génération de visualisations statistiques courantes.
pandas : bien que cette bibliothèque comprenne des méthodes pratiques pour visualiser les données liées à matplotlib, nous l'utiliserons principalement dans son objectif principal en tant qu'outil général pour travailler avec des données (https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf ).

Lectures complémentaires :

Anscombes Quartett : Mêmes statistiques pour les données, mais répartition différente : https://en.wikipedia.org/wiki/Anscombe%27s_quartet
Chartchunk : https://en.wikipedia.org/wiki/Chartjunk
Rapport d'encre de données : https://infovis-wiki.net/wiki/Data-Ink_Ratio
Facteur de mensonge : https://infovis-wiki.net/wiki/Lie_Factor
Données bien rangées : https://cran.r-project.org/web/packages/tidyr/vignettes/tidy-data.html
Visualisations adaptées aux daltoniens : https://www.tableau.com/blog/examining-data-viz-rules-dont-use-red-green-together

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!