首先,請確保您已經安裝了Pandas庫。如果沒有,請使用以下命令安裝:
pip install pandas
import pandas as pd
使用Pandas,可以方便地讀取多種數據格式,包括CSV、Excel、JSON和HTML等。以下是讀取CSV檔案的範例:
data = pd.read_csv('data.csv')
其他資料格式的讀取方法類似,如讀取Excel檔案:
data = pd.read_excel('data.xlsx')
可以使用head()
函數查看資料的前幾行(預設為5行):
print(data.head())
也可以使用tail()
函數來檢視資料的後幾行,以及info()
和describe()
函數查看資料的統計資料:
print(data.tail()) print(data.info()) print(data.describe())
選擇資料的方式有很多,以下是一些常用方法:
選擇某一列:data['column_name']
選擇多列:data[['column1', 'column2']]
#選擇某行:data.loc[row_index]
#選擇某個值:data.loc[row_index, 'column_name']
透過條件選擇:data [data['column_name'] > value]
在資料分析之前,通常需要對資料進行清洗。以下是一些常用的資料清洗方法:
移除空值:data.dropna()
取代空值:data.fillna(value)
重命名列名:data.rename(columns={'old_name': 'new_name'})
資料型別轉換:data['column_name'].astype(new_type)
data.drop_duplicates()
data['column_name'].mean()
data['column_name'].median()
data['column_name'].mode()
data['column_name'].std()
data. corr()
data.groupby('column_name')
pip install matplotlib
import matplotlib.pyplot as plt data['column_name'].plot(kind='bar') plt.show()
data['column_name'].plot(kind='line') data['column_name'].plot(kind='pie') data['column_name'].plot(kind='hist') plt.show()
data.to_csv('output.csv', index=False)
data.to_excel('output.xlsx', index=False)
import pandas as pd data = pd.read_csv('sales_data.csv')
data['sales_amount'] = data['quantity'] * data['price']
max_sales = data.groupby('product_name')['sales_amount'].sum().idxmax() print(f'最高销售额的产品是:{max_sales}')
data.to_csv('sales_analysis.csv', index=False)
以上是Python怎麼使用Pandas進行資料分析的詳細內容。更多資訊請關注PHP中文網其他相關文章!