Python Pandas 入門速成,庖丁解牛式資料處理!

WBOY
發布: 2024-03-20 16:01:42
轉載
560 人瀏覽過

Python Pandas 入门速成,庖丁解牛式数据处理!

pandas 是一個強大的python 資料處理庫,在資料分析、清洗和轉換方面大放異彩異彩。其靈活的資料結構和豐富的功能使其成為資料處理的利器。

資料結構:DataFrame

#DataFrame 是 Pandas 的核心資料結構,類似於一個表格,由行和列組成。每一行表示一個資料記錄,每一列表示該記錄的一個屬性。

資料載入與讀取

  • #從 CSV 檔案載入:pd.read_csv("filename.csv")
  • #從 Excel 檔案載入:pd.read_<strong class="keylink">excel</strong>("filename.xlsx")
  • 從 JSON 檔案載入:pd.read_<strong class="keylink">JSON</strong>("filename.<strong class="keylink">js</strong>on")

資料清洗

  • #處理缺失值:df.fillna(0)(以 0 填入缺失值)
  • 移除重複:df.drop_duplicates()
  • #型別轉換:df["column"].astype(int)(將一列從物件型別轉換為整數型別)

資料轉換

  • 合併 DataFrame:pd.merge(df1, df2, on="column_name")
  • 連接 DataFrame:pd.concat([df1, df2], axis=1)(按列連接)
  • 分組運算:df.groupby("column_name").agg({"column_name": "mean"})(按列分組並計算平均值)

資料分析

  • 描述性統計:df.describe()(計算平均數、中位數、標準差等)
  • 視覺化:df.plot()(產生長條圖、折線圖等)
  • 資料聚合:df.agg({"column_name": "sum"})(計算一列的總和)

高階功能

  • 條件篩選:df[df["column_name"] > 10]
  • #正規表示式:df[df["column_name"].str.cont<strong class="keylink">ai</strong>ns("pattern")]
  • 自訂函數:df["new_column"] = df["old_column"].apply(my_funct<strong class="keylink">io</strong>n)

範例

import pandas as pd

# 從 CSV 檔案載入數據
df = pd.read_csv("sales_data.csv")

# 清洗數據
df.fillna(0, inplace=True) # 填充缺失值

# 轉換數據
df["sale_date"] = pd.to_datetime(df["sale_date"]) # 將日期列轉換為 datetime 類型

# 分析數據
print(df.describe()) # 顯示描述性統計

# 視覺化數據
df.plot(x="sale_date", y="sales") # 產生折線圖

# 匯出數據
df.to_csv("sales_data_processed.csv", index=False) # 匯出為 CSV 檔案
登入後複製

結語

Pandas 讓資料處理變得輕而易舉,其強大的功能和靈活的資料結構使其成為資料科學家和分析師的必備工具。透過掌握 Pandas 的基礎知識,您可以快速輕鬆地處理和分析複雜資料集。

以上是Python Pandas 入門速成,庖丁解牛式資料處理!的詳細內容。更多資訊請關注PHP中文網其他相關文章!

相關標籤:
來源:lsjlt.com
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
最新問題
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板