pandas 是一個強大的python 資料處理庫,在資料分析、清洗和轉換方面大放異彩異彩。其靈活的資料結構和豐富的功能使其成為資料處理的利器。
資料結構:DataFrame
#DataFrame 是 Pandas 的核心資料結構,類似於一個表格,由行和列組成。每一行表示一個資料記錄,每一列表示該記錄的一個屬性。
資料載入與讀取
pd.read_csv("filename.csv")
pd.read_<strong class="keylink">excel</strong>("filename.xlsx")
pd.read_<strong class="keylink">JSON</strong>("filename.<strong class="keylink">js</strong>on")
資料清洗
df.fillna(0)
(以 0 填入缺失值)df.drop_duplicates()
df["column"].astype(int)
(將一列從物件型別轉換為整數型別)資料轉換
pd.merge(df1, df2, on="column_name")
pd.concat([df1, df2], axis=1)
(按列連接)df.groupby("column_name").agg({"column_name": "mean"})
(按列分組並計算平均值)資料分析
df.describe()
(計算平均數、中位數、標準差等)df.plot()
(產生長條圖、折線圖等)df.agg({"column_name": "sum"})
(計算一列的總和)高階功能
df[df["column_name"] > 10]
df[df["column_name"].str.cont<strong class="keylink">ai</strong>ns("pattern")]
df["new_column"] = df["old_column"].apply(my_funct<strong class="keylink">io</strong>n)
範例
import pandas as pd # 從 CSV 檔案載入數據 df = pd.read_csv("sales_data.csv") # 清洗數據 df.fillna(0, inplace=True) # 填充缺失值 # 轉換數據 df["sale_date"] = pd.to_datetime(df["sale_date"]) # 將日期列轉換為 datetime 類型 # 分析數據 print(df.describe()) # 顯示描述性統計 # 視覺化數據 df.plot(x="sale_date", y="sales") # 產生折線圖 # 匯出數據 df.to_csv("sales_data_processed.csv", index=False) # 匯出為 CSV 檔案
結語
Pandas 讓資料處理變得輕而易舉,其強大的功能和靈活的資料結構使其成為資料科學家和分析師的必備工具。透過掌握 Pandas 的基礎知識,您可以快速輕鬆地處理和分析複雜資料集。
以上是Python Pandas 入門速成,庖丁解牛式資料處理!的詳細內容。更多資訊請關注PHP中文網其他相關文章!