Grundlagen der Datenvisualisierung-Python-Tutorial-php.cn

Warum Datenvis verwenden?

Wenn Sie mit einer neuen Datenquelle mit einer großen Datenmenge arbeiten müssen, kann es wichtig sein, die Datenvisualisierung zu verwenden, um die Daten besser zu verstehen.
Der Datenanalyseprozess erfolgt meist in 5 Schritten:

Extrahieren – Rufen Sie die Daten aus einer Tabelle, SQL, dem Web usw. ab.
Sauber – Hier könnten wir explorative Bilder verwenden. 
Erkunden – Hier verwenden wir explorative Visuals. 
Analysieren – Hier können wir entweder explorative oder erklärende visuelle Elemente verwenden. 
Teilen – Hier finden sich erklärende Bilder.

Arten von Daten

Um ein geeignetes Diagramm für eine bestimmte Maßnahme auswählen zu können, ist es wichtig zu wissen, mit welchen Daten Sie es zu tun haben.

Qualitative bzw. kategoriale Typen

Nominale qualitative Daten

Etiketten ohne Reihenfolge oder Rang, die mit den Artikeln selbst verknüpft sind.
Beispiele: Geschlecht, Familienstand, Menüpunkte

Ordinale qualitative Daten

Labels, die eine Reihenfolge oder Rangfolge haben.
Beispiele: Buchstabennoten, Bewertung

Quantitative, auch numerische Typen genannt

Diskrete quantitative Werte

Zahlen können nicht in kleinere Einheiten aufgeteilt werden
Beispiele: Seiten in einem Buch, Anzahl der Bäume in einem Park

Kontinuierliche quantitative Werte

Zahlen können in kleinere Einheiten aufgeteilt werden
Beispiele: Größe, Alter, Einkommen, Arbeitsstunden

Zusammenfassende Statistik

Numerische Daten

Mittelwert: Der Durchschnittswert.
Median: Der Mittelwert beim Sortieren der Daten.
Modus: Der am häufigsten vorkommende Wert.
Varianz/Standardabweichung: Maße der Ausbreitung oder Streuung.
Bereich: Differenz zwischen den Maximal- und Minimalwerten.

Kategoriale Daten

Häufigkeit: Die Anzahl der Vorkommen jeder Kategorie.
Modus: Die häufigste Kategorie.

Visualisierungen

Sie können sehr schnell Einblicke in eine neue Datenquelle erhalten und auch Zusammenhänge zwischen verschiedenen Datentypen einfacher erkennen.
Denn wenn Sie nur die Standardstatistiken zum Zusammenfassen Ihrer Daten verwenden, erhalten Sie Min., Max., Mittelwert, Median und Modus, dies kann jedoch in anderer Hinsicht irreführend sein. Wie es in Anscombes Quartett gezeigt wird: Mittelwert und Abweichung sind immer gleich, aber die Datenverteilung ist immer unterschiedlich.

Bei der Datenvisualisierung gibt es zwei Arten:

Explorative Datenvisualisierung Wir nutzen dies, um Erkenntnisse über die Daten zu gewinnen. Es muss nicht optisch ansprechend sein.
Erklärende Datenvisualisierung Diese Visualisierungen müssen genau, aufschlussreich und optisch ansprechend sein, wenn sie den Benutzern präsentiert werden.

Diagrammmüll, Datentintenverhältnis und Designintegrität

Kartenschrott

Um die per Plot bereitgestellten Informationen ungestört lesen zu können, ist es wichtig, Diagrammmüll zu vermeiden. Wie:

Schwere Gitterlinien
Bilder in den Visuals
Farbtöne
3D-Komponenten
Ornamente
Überflüssige Texte

Datentintenverhältnis

Je weniger Diagrammmüll in einem Bild vorhanden ist, desto höher ist das Datentintenverhältnis. Dies bedeutet lediglich, dass es umso besser ist, je mehr „Tinte“ in der Visualisierung verwendet wird, um die Botschaft der Daten zu transportieren.

Designintegrität

Der Lügenfaktor wird wie folgt berechnet:

$$
text{Lie Factor} = frac{text{Größe des in der Grafik angezeigten Effekts}}{text{Größe des Effekts in den Daten}}
$$

Das Delta steht für den Unterschied. Es handelt sich also um die in der Grafik angezeigte relative Änderung dividiert durch die tatsächliche relative Änderung der Daten. Im Idealfall sollte der Wert 1 sein. Ist dies nicht der Fall, bedeutet dies, dass die Art und Weise, wie die Daten dargestellt werden, nicht mit der tatsächlichen Änderung übereinstimmt.

Data Visualisation Basics
Im obigen Beispiel aus dem Wiki beträgt der Lügenfaktor 3, wenn man die Pixel jedes Arztes vergleicht, was die Anzahl der Ärzte in Kalifornien darstellt.

Data Visualisation Basics

Ordentliche Daten

Stellen Sie sicher, dass Ihre Daten ordnungsgemäß bereinigt und einsatzbereit sind:

Jede Variable ist eine Spalte
Jede Beobachtung ist eine Zeile
Jede Art von Beobachtungseinheit ist eine Tabelle

Univariate Exploration von Daten

Dies bezieht sich auf die Analyse einer einzelnen Variablen (oder eines Merkmals) in einem Datensatz.

Balkendiagramm

Zeichnen Sie immer beginnend bei 0, um Werte wirklich vergleichbar darzustellen.
Solldaten sortieren
Ordinaldaten nicht sortieren – hier ist es wichtiger zu wissen, wie oft die wichtigste Kategorie vorkommt, als die häufigste
Wenn Sie viele Kategorien haben, verwenden Sie ein horizontales Balkendiagramm: Platzieren Sie die Kategorien auf der Y-Achse, um die Lesbarkeit zu verbessern.

Data Visualisation Basics

Histogramm

Quantitative Version eines Balkendiagramms. Dies wird verwendet, um numerische Werte darzustellen.
Werte werden in fortlaufenden Abschnitten gruppiert, wobei jeweils ein Balken dargestellt wird

KDE – Kernel-Dichteschätzung

oft eine Gauß- oder Normalverteilung, um die Dichte an jedem Punkt abzuschätzen.
KDE-Diagramme können Trends und die Form der Verteilung klarer erkennen lassen, insbesondere bei Daten, die nicht gleichmäßig verteilt sind.

Kreisdiagramm und Donut-Diagramm

Daten müssen in relativen Häufigkeiten vorliegen
Kreisdiagramme funktionieren am besten mit maximal drei Abschnitten. Wenn mehr Keile angezeigt werden müssen, wird es unleserlich und die unterschiedlichen Beträge sind schwer zu vergleichen. Dann bevorzugen Sie ein Balkendiagramm.

Bivariate Exploration von Daten

Analysiert die Beziehung zwischen zwei Variablen in einem Datensatz.

Gruppierte Balkendiagramme

zeigt die Beziehung zwischen zwei kategorialen Werten an. Die Balken sind basierend auf der Ebene der ersten Variablen in Clustern organisiert.

Streudiagramme

Jeder Datenpunkt wird einzeln als Punkt dargestellt, wobei seine x-Position einem Merkmalswert und seine y-Position dem zweiten entspricht.
Wenn der Plot unter Überzeichnung leidet (zu viele Datenpunkte überlappen): Sie können Transparenz und Jitter verwenden (jeder Punkt wird leicht von seinem wahren Wert verschoben).

Heatmaps

2D-Version eines Histogramms
Datenpunkte werden so platziert, dass ihre x-Position einem Merkmalswert und ihre y-Position dem zweiten entspricht.
Der Plotbereich ist in ein Raster unterteilt, die Anzahl der Punkte wird dort addiert und die Zählungen werden farblich angezeigt

Violinplots

Zeigen Sie die Beziehung zwischen quantitativen (numerischen) und qualitativen (kategorialen) Variablen auf einer niedrigeren Abstraktionsebene.
Die Verteilung wird wie eine Schätzung der Kerneldichte dargestellt, sodass wir eine klare Aussage haben können
Um die wichtigsten Statistiken gleichzeitig anzuzeigen, können Sie einen Boxplot in einen Violinplot einbetten.

Boxplots

Es stellt außerdem die Beziehung zwischen quantitativen (numerischen) und qualitativen (kategorialen) Variablen auf einer niedrigeren Abstraktionsebene dar.
Im Vergleich zum Geigendiagramm basiert das Boxdiagramm mehr auf der Zusammenfassung der Daten und meldet in erster Linie nur eine Reihe beschreibender Statistiken für die numerischen Werte auf jeder kategorialen Ebene.
Es visualisiert die fünfstellige Zusammenfassung der Daten: Minimum, erstes Quartil (Q1), Median (Q2), drittes Quartil (Q3) und Maximum.

Schlüsselelemente eines Boxplots:
Kasten: Der zentrale Teil des Diagramms stellt den Interquartilbereich (IQR) dar, der der Bereich zwischen dem ersten Quartil (Q1, 25. Perzentil) und dem dritten Quartil (Q3, 75. Perzentil) ist. Dies enthält die mittleren 50 % der Daten.

Medianlinie: Innerhalb der Box stellt eine Linie den Median (Q2, 50. Perzentil) des Datensatzes dar.

Whisker: Von der Box ausgehende Linien, sogenannte „Whisker“, zeigen den Bereich der Daten an, der innerhalb des 1,5-fachen IQR von Q1 und Q3 liegt. Sie erstrecken sich typischerweise auf die kleinsten und größten Werte innerhalb dieses Bereichs.

Ausreißer: Alle Datenpunkte, die außerhalb des 1,5-fachen IQR liegen, gelten als Ausreißer und werden oft durch einzelne Punkte oder Markierungen jenseits der Whiskers dargestellt.
Data Visualisation Basics

Kombinierter Violin- und Boxplot

Der Violin-Plot zeigt die Dichte über verschiedene Kategorien hinweg und der Boxplot liefert die zusammenfassenden Statistiken
Data Visualisation Basics

Facettieren

Die Daten werden in disjunkte Teilmengen unterteilt, meist nach verschiedenen Ebenen einer kategorialen Variablen. Für jede dieser Teilmengen der Daten wird derselbe Diagrammtyp für andere Variablen gerendert, dh mehrere Histogramme nebeneinander mit unterschiedlichen kategorialen Werten.

Liniendiagramm

wird verwendet, um den Trend einer Zahlenvariablen gegenüber einer zweiten Variablen darzustellen.

Quantil-Quantil-Diagramm (Q-Q).

ist eine Art Diagramm, das verwendet wird, um die Verteilung eines Datensatzes mit einer theoretischen Verteilung (wie einer Normalverteilung) zu vergleichen oder um zwei Datensätze zu vergleichen, um zu überprüfen, ob sie derselben Verteilung folgen.

Schwarmplot

Wie bei einem Streudiagramm wird jeder Datenpunkt mit seiner Position entsprechend seinem Wert für die beiden dargestellten Variablen dargestellt. Anstatt Punkte wie in einem normalen Streudiagramm zufällig zu zittern, werden die Punkte so nah wie möglich an ihrem tatsächlichen Wert platziert, ohne dass es zu Überlappungen kommt.

Spinnenplot

Vergleichen Sie mehrere Variablen verschiedener Kategorien in einem radialen Raster. Auch als Radarkarte bekannt.

Nützliche Links

Mein Beispiel-Notizbuch

Beispielcode

Für die Beispielplots verwendete Bibliotheken:

Matplotlib: eine vielseitige Bibliothek für Visualisierungen, aber das Zusammenstellen gängiger Visualisierungen kann etwas Codeaufwand erfordern.
Seaborn: basiert auf Matplotlib und fügt eine Reihe von Funktionen hinzu, um die Generierung gängiger statistischer Visualisierungen zu vereinfachen.
Pandas: Während diese Bibliothek einige praktische Methoden zur Visualisierung von Daten enthält, die sich in Matplotlib einbinden lassen, werden wir sie hauptsächlich für ihren Hauptzweck als allgemeines Werkzeug für die Arbeit mit Daten verwenden (https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf). ).

Weiterführende Literatur:

Anscombes Quartett: Gleiche Statistiken für die Daten, aber unterschiedliche Verteilung: https://en.wikipedia.org/wiki/Anscombe%27s_quartet
Chartchunk: https://en.wikipedia.org/wiki/Chartjunk
Datentintenverhältnis: https://infovis-wiki.net/wiki/Data-Ink_Ratio
Lügenfaktor: https://infovis-wiki.net/wiki/Lie_Factor
Ordentliche Daten: https://cran.r-project.org/web/packages/tidyr/vignettes/tidy-data.html
Farbenblindfreundliche Visualisierungen: https://www.tableau.com/blog/examining-data-viz-rules-dont-use-red-green-together

Das obige ist der detaillierte Inhalt vonGrundlagen der Datenvisualisierung. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!