Wie man Datenvisualisierung und -exploration in Python durchführt
Datenvisualisierung und -exploration ist einer der wichtigen Aspekte der Datenanalyse. Mithilfe verschiedener leistungsstarker Bibliotheken und Tools in Python können wir Datenvisualisierung und -exploration problemlos durchführen. In diesem Artikel werden häufig verwendete Datenvisualisierungsbibliotheken und -techniken in Python vorgestellt und spezifische Codebeispiele gegeben.
Zuerst müssen Sie die Pandas-Bibliothek für die Datenverarbeitung und -analyse installieren. Verwenden Sie dann den folgenden Code, um den Iris-Datensatz zu lesen und sich auf die einfache Datenvisualisierung vorzubereiten:
Pandas als pd importieren
iris_data = pd.read_csv('iris.csv')
print(iris_data.head())
print(iris_data.info())
Am Beispiel der Sepal-Länge lautet das Codebeispiel für die Verwendung der Matplotlib-Bibliothek zum Zeichnen eines Histogramms wie folgt:
import matplotlib.pyplot as plt
plt.bar(iris_data['Species' ], iris_data['Sepal length'])
plt.xlabel('Species') # Legen Sie die Beschriftung der x-Achse fest
plt.ylabel('Sepal length') # Legen Sie die Beschriftung der y-Achse fest
plt.title('Distribution of Sepal length') # Legen Sie den Diagrammtitel fest
plt.show()
Darüber hinaus können Sie die Seaborn-Bibliothek auch zum Zeichnen von Histogrammen und Boxplots verwenden. Das Folgende ist ein Codebeispiel zum Zeichnen eines Histogramms:
Seaborn als SNS importieren
sns.histplot(data=iris_data, x='Sepal length', kde=True)
plt.xlabel('Sepal length' ) # Legen Sie die Beschriftung der x-Achse fest
plt.ylabel('Count') # Legen Sie die Beschriftung der y-Achse fest
plt.title('Distribution of Sepal length') # Legen Sie den Diagrammtitel fest
plt.show()
Am Beispiel der Kelchblattlänge und der Blütenblattlänge lautet das Codebeispiel für die Verwendung der Matplotlib-Bibliothek zum Zeichnen eines Streudiagramms wie folgt:
plt.scatter(iris_data['Sepal length'], iris_data['Blütenblattlänge' ])
plt.xlabel('Kelchblattlänge') # Legen Sie die Beschriftung der x-Achse fest
plt.ylabel('Blütenblattlänge') # Legen Sie die Beschriftung der y-Achse fest
plt.title('Beziehung zwischen Kelchblattlänge und Blütenblattlänge') # Legen Sie den Diagrammtitel fest
plt.show()
Darüber hinaus können Sie die Seaborn-Bibliothek auch verwenden, um eine Wärmekarte zu zeichnen, um die Korrelation zwischen Variablen anzuzeigen. Das Folgende ist ein Codebeispiel zum Zeichnen einer Wärmekarte:
correlation_matrix = iris_data[['Kelchblattlänge', 'Kelchblattbreite', 'Blütenblattlänge', 'Blütenblattbreite']]. corr( )
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')
plt.title('Correlation Matrix')
plt.show()
Am Beispiel der vier Funktionen des Iris-Datensatzes lautet das Codebeispiel für die Verwendung der Seaborn-Bibliothek zum Zeichnen der Streumatrix wie folgt:
sns.pairplot(iris_data, hue ='Species')
plt.show ()
Darüber hinaus können Sie auch die Plotly-Bibliothek zum Zeichnen paralleler Koordinatendiagramme verwenden. Das Folgende ist ein Codebeispiel zum Zeichnen paralleler Koordinatendiagramme:
plotly.express als px importieren
fig = px.parallel_coordinates(iris_data, color='Species')
fig.show()
Zusammenfassung
Dieser Artikel stellt Methoden der Datenvisualisierung und -exploration in Python vor und gibt spezifische Codebeispiele. Durch Datenvisualisierung und -exploration können wir die Verteilung, Beziehungen und Eigenschaften von Daten besser verstehen und so eine Grundlage und Anleitung für die nachfolgende Datenanalyse und -modellierung bereitstellen. In praktischen Anwendungen können auch geeignete Visualisierungsmethoden und -technologien basierend auf spezifischen Anforderungen und Dateneigenschaften ausgewählt werden, um den Wert von Daten weiter zu untersuchen.
Das obige ist der detaillierte Inhalt vonSo führen Sie Datenvisualisierung und -exploration in Python durch. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!