Stellen Sie zunächst sicher, dass Sie die Pandas-Bibliothek installiert haben. Wenn nicht, verwenden Sie bitte den folgenden Befehl, um es zu installieren:
pip install pandas
import pandas as pd
Mit Pandas kann bequem sein. Lesen Sie problemlos mehrere Datenformate, einschließlich CSV, Excel, JSON und HTML. Das Folgende ist ein Beispiel für das Lesen einer CSV-Datei:
data = pd.read_csv('data.csv')
Die Lesemethode anderer Datenformate ist ähnlich, z. B. beim Lesen von Excel-Dateien:
data = pd.read_excel('data.xlsx')
head()
verwenden, um die ersten Datenzeilen anzuzeigen (Standard sind 5 Zeilen): print(data.head())
head()
函数查看数据的前几行(默认为5行):print(data.tail()) print(data.info()) print(data.describe())
还可以使用tail()
函数查看数据的后几行,以及info()
和describe()
函数查看数据的统计信息:
pip install matplotlib
选择数据的方式有很多,以下是一些常用方法:
选择某列:data['column_name']
选择多列:data[['column1', 'column2']]
选择某行:data.loc[row_index]
选择某个值:data.loc[row_index, 'column_name']
通过条件选择:data[data['column_name'] > value]
在数据分析之前,通常需要对数据进行清洗。以下是一些常用的数据清洗方法:
去除空值:data.dropna()
替换空值:data.fillna(value)
重命名列名:data.rename(columns={'old_name': 'new_name'})
数据类型转换:data['column_name'].astype(new_type)
去除重复值:data.drop_duplicates()
Pandas提供了丰富的数据分析功能,以下是一些常用方法:
计算平均值:data['column_name'].mean()
计算中位数:data['column_name'].median()
计算众数:data['column_name'].mode()
计算标准差:data['column_name'].std()
计算相关性:data.corr()
数据分组:data.groupby('column_name')
Sie können auch verwenden tail()</ Die Funktion code> prüft die letzten Zeilen der Daten, und die Funktionen <code>info()
und describe()
prüfen die statistischen Informationen von die Daten:
import matplotlib.pyplot as plt data['column_name'].plot(kind='bar') plt.show()
Wählen Sie eine Spalte aus: data['column_name']
data[['column1', 'column2']]</code ><p></p><li><h3>Wählen Sie eine Zeile aus: <code>data.loc[row_index]
# 🎜🎜#Wählen Sie eine Zeile aus. Werte: data.loc[row_index, 'column_name']
data['column_name'] > value]
5 🎜#Vor der Datenanalyse müssen die Daten normalerweise bereinigt werden. Im Folgenden sind einige häufig verwendete Datenbereinigungsmethoden aufgeführt:
Nullwerte entfernen: data.dropna()
# 🎜 🎜#
Leeren Wert ersetzen: data.fillna(value)
data.rename(columns={'old_name': 'new_name'})
#🎜🎜##🎜🎜#data['column_name' ].astype(new_type)
#🎜🎜##🎜🎜#data.drop_duplicates()
#🎜🎜##🎜🎜## 🎜🎜##🎜🎜#6. Datenanalyse#🎜🎜##🎜🎜#Pandas bietet umfangreiche Datenanalysefunktionen: #🎜🎜#data['column_name'].mean()
#🎜🎜##🎜🎜#data ['column_name'].median()
#🎜🎜##🎜🎜#data['column_name'].mode()</code ># 🎜🎜##🎜🎜#<li>#🎜🎜#Standardabweichung berechnen: <code>data['column_name'].std()
#🎜🎜##🎜🎜#data.corr()
#🎜🎜##🎜🎜#data.groupby('column_name')
#🎜 🎜##🎜🎜##🎜🎜##🎜🎜#7. Datenvisualisierung#🎜🎜##🎜🎜#Pandas können Daten problemlos in visuelle Diagramme umwandeln. Zuerst müssen Sie die Matplotlib-Bibliothek installieren: #🎜🎜#data['column_name'].plot(kind='line') data['column_name'].plot(kind='pie') data['column_name'].plot(kind='hist') plt.show()
data.to_csv('output.csv', index=False)
data.to_excel('output.xlsx', index=False)
import pandas as pd data = pd.read_csv('sales_data.csv')
data['sales_amount'] = data['quantity'] * data['price']
max_sales = data.groupby('product_name')['sales_amount'].sum().idxmax() print(f'最高销售额的产品是:{max_sales}')
data.to_csv('sales_analysis.csv', index=False)
Das obige ist der detaillierte Inhalt vonSo verwenden Sie Pandas für die Datenanalyse in Python. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!