Pandas ialah salah satu perpustakaan analisis data yang paling biasa digunakan dalam Python, yang menyediakan fungsi yang kaya dan alatan yang cekap untuk pemprosesan dan analisis data. Artikel ini akan memperkenalkan beberapa kaedah analisis data Pandas yang biasa digunakan daripada kemasukan kepada kecekapan, dan memberikan contoh kod khusus.
1. Import data dan operasi asas
import pandas as pd # 加载CSV文件 data = pd.read_csv('data.csv') # 加载Excel文件 data = pd.read_excel('data.xlsx') # 加载SQL数据库表 import sqlite3 conn = sqlite3.connect('database.db') query = 'SELECT * FROM table' data = pd.read_sql(query, conn)
# 预览前5行数据 data.head() # 预览后5行数据 data.tail() # 查看数据集的维度 data.shape # 查看每列的数据类型和非空值数量 data.info() # 查看每列的描述性统计信息 data.describe()
# 使用列标签选择列 data['column_name'] # 使用多列标签选择多列 data[['column1', 'column2']] # 使用行标签选择行 data.loc[row_label] # 使用位置索引选择行 data.iloc[row_index] # 使用条件筛选选择行 data[data['column'] > value]
2. Pembersihan dan pemprosesan data
# 判断每列是否有缺失值 data.isnull().any() # 删除包含缺失值的行 data.dropna() # 填充缺失值为特定值 data.fillna(value) # 使用前一行或后一行的值填充缺失值 data.fillna(method='ffill') data.fillna(method='bfill')
# 将列转换为字符串类型 data['column'] = data['column'].astype(str) # 将列转换为日期时间类型 data['column'] = pd.to_datetime(data['column']) # 将列转换为数值类型 data['column'] = pd.to_numeric(data['column'])
# 转置数据表 data.transpose() # 合并多个数据表 pd.concat([data1, data2]) # 根据指定列的值合并数据表 pd.merge(data1, data2, on='column_name') # 根据指定列的值连接数据表 data1.join(data2, on='column_name')
3. Analisis dan visualisasi data
# 按列进行求和 data.groupby('column').sum() # 按列进行平均值计算 data.groupby('column').mean() # 按列进行计数 data.groupby('column').count() # 按列进行最大值和最小值计算 data.groupby('column').max() data.groupby('column').min()
# 绘制柱状图 data['column'].plot(kind='bar') # 绘制折线图 data['column'].plot(kind='line') # 绘制散点图 data.plot(kind='scatter', x='column1', y='column2') # 绘制箱线图 data.plot(kind='box')
Kesimpulan
Artikel ini membantu pembaca daripada mula mahir dalam analisis data Pandas dengan memperkenalkan beberapa kaedah analisis data biasa perpustakaan Pandas. Melalui contoh kod khusus, pembaca boleh memahami dan menggunakan kaedah ini dengan lebih mendalam. Sudah tentu, Panda mempunyai banyak fungsi dan kaedah lain, dan pembaca boleh mempelajari dan mengaplikasikannya secara mendalam mengikut keperluan mereka sendiri.
Atas ialah kandungan terperinci Analisis komprehensif kemahiran analisis data panda: dari pemula hingga pakar. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!