So verwenden Sie Pandas für die Datenanalyse in Python-Python-Tutorial-php.cn

So verwenden Sie Pandas für die Datenanalyse in Python

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Freigeben： 2023-05-16 18:29:26

nach vorne

1127 Leute haben es durchsucht

Stellen Sie zunächst sicher, dass Sie die Pandas-Bibliothek installiert haben. Wenn nicht, verwenden Sie bitte den folgenden Befehl, um es zu installieren:

pip install pandas

Nach dem Login kopieren

1. Importieren Sie die Pandas-Bibliothek

import pandas as pd

Nach dem Login kopieren

2. Lesen Sie Daten

Mit Pandas kann bequem sein. Lesen Sie problemlos mehrere Datenformate, einschließlich CSV, Excel, JSON und HTML. Das Folgende ist ein Beispiel für das Lesen einer CSV-Datei:

data = pd.read_csv(&#39;data.csv&#39;)

Nach dem Login kopieren

Die Lesemethode anderer Datenformate ist ähnlich, z. B. beim Lesen von Excel-Dateien:

data = pd.read_excel(&#39;data.xlsx&#39;)

Nach dem Login kopieren

3 Daten anzeigen# 🎜🎜#

Sie können die Funktion head() verwenden, um die ersten Datenzeilen anzuzeigen (Standard sind 5 Zeilen):

print(data.head())

Nach dem Login kopieren

head()函数查看数据的前几行（默认为5行）：

print(data.tail())
print(data.info())
print(data.describe())

Nach dem Login kopieren

还可以使用tail()函数查看数据的后几行，以及info()和describe()函数查看数据的统计信息：

pip install matplotlib

Nach dem Login kopieren

四. 选择数据

选择数据的方式有很多，以下是一些常用方法：

选择某列：data['column_name']
选择多列：data[['column1', 'column2']]
选择某行：data.loc[row_index]
选择某个值：data.loc[row_index, 'column_name']
通过条件选择：data[data['column_name'] > value]

五. 数据清洗

在数据分析之前，通常需要对数据进行清洗。以下是一些常用的数据清洗方法：

去除空值：data.dropna()
替换空值：data.fillna(value)
重命名列名：data.rename(columns={'old_name': 'new_name'})
数据类型转换：data['column_name'].astype(new_type)
去除重复值：data.drop_duplicates()

六. 数据分析

Pandas提供了丰富的数据分析功能，以下是一些常用方法：

计算平均值：data['column_name'].mean()
计算中位数：data['column_name'].median()
计算众数：data['column_name'].mode()
计算标准差：data['column_name'].std()
计算相关性：data.corr()
数据分组：data.groupby('column_name')Sie können auch verwenden tail()</ Die Funktion code> prüft die letzten Zeilen der Daten, und die Funktionen <code>info() und describe() prüfen die statistischen Informationen von die Daten:
```
import matplotlib.pyplot as plt

data[&#39;column_name&#39;].plot(kind=&#39;bar&#39;)
plt.show()
```
Nach dem Login kopieren

Es gibt viele Möglichkeiten, Daten auszuwählen. Im Folgenden sind einige gängige Methoden aufgeführt:

Wählen Sie eine Spalte aus: data['column_name']
Wählen Sie mehrere Spalten aus: data[['column1', 'column2']]</code ><p></p><li><h3>Wählen Sie eine Zeile aus: <code>data.loc[row_index]# 🎜🎜#
Wählen Sie eine Zeile aus. Werte: data.loc[row_index, 'column_name']
#🎜🎜 #Nach Bedingung auswählen: data['column_name'] > value]
5 🎜#Vor der Datenanalyse müssen die Daten normalerweise bereinigt werden. Im Folgenden sind einige häufig verwendete Datenbereinigungsmethoden aufgeführt:
- Nullwerte entfernen: data.dropna()# 🎜 🎜#
- Leeren Wert ersetzen: data.fillna(value)
- Spaltennamen umbenennen: data.rename(columns={'old_name': 'new_name'})#🎜🎜##🎜🎜#
- #🎜🎜#Datentypkonvertierung: data['column_name' ].astype(new_type)#🎜🎜##🎜🎜#
- #🎜🎜#Doppelte Werte entfernen: data.drop_duplicates()#🎜🎜##🎜🎜## 🎜🎜##🎜🎜#6. Datenanalyse#🎜🎜##🎜🎜#Pandas bietet umfangreiche Datenanalysefunktionen: #🎜🎜#
  - #🎜🎜#Berechnen Sie den Median: data ['column_name'].median()#🎜🎜##🎜🎜#
  - #🎜🎜#Berechnen Sie den Modus: data['column_name'].mode()</code ># 🎜🎜##🎜🎜#<li>#🎜🎜#Standardabweichung berechnen: <code>data['column_name'].std()#🎜🎜##🎜🎜#
  - #🎜 🎜# Korrelation berechnen: data.corr()#🎜🎜##🎜🎜#
  - #🎜🎜#Datengruppierung: data.groupby('column_name')#🎜 🎜##🎜🎜##🎜🎜##🎜🎜#7. Datenvisualisierung#🎜🎜##🎜🎜#Pandas können Daten problemlos in visuelle Diagramme umwandeln. Zuerst müssen Sie die Matplotlib-Bibliothek installieren: #🎜🎜#
```
data[&#39;column_name&#39;].plot(kind=&#39;line&#39;)
data[&#39;column_name&#39;].plot(kind=&#39;pie&#39;)
data[&#39;column_name&#39;].plot(kind=&#39;hist&#39;)
plt.show()
```
    Nach dem Login kopieren
    #🎜🎜#Dann verwenden Sie den folgenden Code, um ein Diagramm zu erstellen: #🎜🎜#
```
data.to_csv(&#39;output.csv&#39;, index=False)
```
    Nach dem Login kopieren
    #🎜🎜#Andere Visualisierungsdiagrammtypen umfassen Liniendiagramme, Kreisdiagramme, Histogramme usw.: #🎜 🎜#
```
data.to_excel(&#39;output.xlsx&#39;, index=False)
```
    Nach dem Login kopieren
    #🎜🎜#8. Daten exportieren#🎜🎜##🎜🎜#Pandas kann Daten in verschiedene Formate exportieren, wie CSV, Excel, JSON, HTML usw. Das Folgende ist ein Beispiel für den Export von Daten in eine CSV-Datei: #🎜🎜#
```
import pandas as pd

data = pd.read_csv(&#39;sales_data.csv&#39;)
```
    Nach dem Login kopieren
    #🎜🎜#Die Exportmethode für andere Datenformate ist ähnlich, beispielsweise für den Export in eine Excel-Datei: #🎜🎜#
```
data[&#39;sales_amount&#39;] = data[&#39;quantity&#39;] * data[&#39;price&#39;]
```
    Nach dem Login kopieren
    #🎜🎜#9 . Praktischer Fall#🎜🎜 ##🎜🎜#Wir gehen davon aus, dass wir bereits über eine Kopie der Verkaufsdaten (sales_data.csv) verfügen und das nächste Ziel darin besteht, die Daten zu analysieren. Zuerst müssen wir die Daten lesen: #🎜🎜#
```
max_sales = data.groupby(&#39;product_name&#39;)[&#39;sales_amount&#39;].sum().idxmax()
print(f&#39;最高销售额的产品是：{max_sales}&#39;)
```
    Nach dem Login kopieren
    #🎜🎜# Dann können wir die Daten bereinigen und analysieren. Wir können zum Beispiel den Umsatz jedes Produkts berechnen: #🎜🎜#
```
data.to_csv(&#39;sales_analysis.csv&#39;, index=False)
```
    Nach dem Login kopieren
    #🎜🎜# Als nächstes können wir analysieren, welches Produkt den höchsten Umsatz hat: #🎜🎜#rrreee#🎜🎜#Schließlich können wir die Ergebnisse exportieren CSV-Datei: #🎜🎜#rrreee
    Das obige ist der detaillierte Inhalt vonSo verwenden Sie Pandas für die Datenanalyse in Python. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!