Analisis data ialah nadi sains data, dan pustaka Pandas Python ialah alat berkuasa yang menjadikan tugas ini lebih mudah dan cekap. Sama ada anda bekerja dengan hamparan mudah atau set data yang besar, Pandas memberikan anda fleksibiliti untuk memanipulasi, menganalisis dan menggambarkan data anda seperti seorang profesional. Dalam artikel ini, kita akan menyelami perkara penting Panda, merangkumi segala-galanya daripada manipulasi data kepada teknik analisis lanjutan. Mari mulakan perjalanan anda untuk menguasai analisis data dengan Panda!
Sebelum menyelami analisis data, anda perlu memasang Panda. Jika anda belum memasangnya lagi, anda boleh melakukannya menggunakan pip:
pip install pandas
Setelah dipasang, anda boleh mengimport Panda ke dalam skrip Python anda:
import pandas as pd
Langkah pertama dalam mana-mana tugas analisis data ialah memuatkan data anda. Panda memudahkan ini dengan fungsi read_csv()nya:
data = pd.read_csv('data.csv')
Selepas memuatkan data anda, adalah penting untuk memahami strukturnya. Fungsi head() memberi anda pandangan pantas pada beberapa baris pertama set data anda:
print(data.head())
Data mentah jarang sempurna. Pandas menyediakan alatan yang berkuasa untuk membersihkan dan menyediakan data anda untuk analisis.
Data yang tiada boleh memesongkan analisis anda. Gunakan isnull() untuk mengesan nilai yang hilang dan fillna() atau dropna() untuk mengendalikannya:
# Detecting missing values print(data.isnull().sum()) # Filling missing values with the mean data.fillna(data.mean(), inplace=True) # Dropping rows with missing values data.dropna(inplace=True)
Untuk kebolehbacaan yang lebih baik, anda mungkin mahu menamakan semula lajur anda:
data.rename(columns={'OldName': 'NewName'}, inplace=True)
Panda cemerlang dalam memanipulasi data, membolehkan anda membentuk semula dan menyusun semula data anda dalam pelbagai cara.
Anda boleh menapis data anda berdasarkan syarat tertentu:
filtered_data = data[data['Column'] > 50]
Untuk meringkaskan data anda, gunakan groupby() dan agg():
grouped_data = data.groupby('Category').agg({'Value': 'sum'})
Setelah data anda bersih dan teratur, anda boleh melakukan analisis lanjutan.
Jadual pangsi bagus untuk meringkaskan data. Dengan Pandas, membuat jadual pangsi adalah mudah:
pivot_table = data.pivot_table(index='Category', columns='SubCategory', values='Value', aggfunc='sum')
Panda juga menyokong data siri masa, menjadikannya mudah untuk menganalisis arah aliran dari semasa ke semasa:
data['Date'] = pd.to_datetime(data['Date']) time_series = data.set_index('Date').resample('M').mean()
Panda disepadukan dengan lancar dengan Matplotlib, membolehkan anda menggambarkan data anda:
import matplotlib.pyplot as plt data['Value'].plot(kind='line') plt.show()
Menguasai analisis data dengan Pandas membuka dunia kemungkinan untuk mendedahkan cerapan daripada data anda. Daripada pembersihan data kepada teknik analisis lanjutan, Pandas menyediakan set alat yang komprehensif untuk membantu anda menjadi pakar analisis data. Teruskan meneroka dan berlatih, dan tidak lama lagi anda akan memanfaatkan kuasa penuh Panda dalam projek sains data anda!
Atas ialah kandungan terperinci Menguasai Analisis Data dengan Panda: Membuka Kunci Cerapan daripada Data Anda. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!