Pandas は、Python で最もよく使用されるデータ分析ライブラリの 1 つであり、データの処理と分析のための豊富な機能と効率的なツールを提供します。この記事では、入門から熟練に至るまでの一般的に使用される Pandas データ分析方法をいくつか紹介し、具体的なコード例を示します。
1. データのインポートと基本操作
import pandas as pd # 加载CSV文件 data = pd.read_csv('data.csv') # 加载Excel文件 data = pd.read_excel('data.xlsx') # 加载SQL数据库表 import sqlite3 conn = sqlite3.connect('database.db') query = 'SELECT * FROM table' data = pd.read_sql(query, conn)
# 预览前5行数据 data.head() # 预览后5行数据 data.tail() # 查看数据集的维度 data.shape # 查看每列的数据类型和非空值数量 data.info() # 查看每列的描述性统计信息 data.describe()
# 使用列标签选择列 data['column_name'] # 使用多列标签选择多列 data[['column1', 'column2']] # 使用行标签选择行 data.loc[row_label] # 使用位置索引选择行 data.iloc[row_index] # 使用条件筛选选择行 data[data['column'] > value]
2. データ クリーニングと処理
# 判断每列是否有缺失值 data.isnull().any() # 删除包含缺失值的行 data.dropna() # 填充缺失值为特定值 data.fillna(value) # 使用前一行或后一行的值填充缺失值 data.fillna(method='ffill') data.fillna(method='bfill')
# 将列转换为字符串类型 data['column'] = data['column'].astype(str) # 将列转换为日期时间类型 data['column'] = pd.to_datetime(data['column']) # 将列转换为数值类型 data['column'] = pd.to_numeric(data['column'])
# 转置数据表 data.transpose() # 合并多个数据表 pd.concat([data1, data2]) # 根据指定列的值合并数据表 pd.merge(data1, data2, on='column_name') # 根据指定列的值连接数据表 data1.join(data2, on='column_name')
3. データの分析と視覚化
# 按列进行求和 data.groupby('column').sum() # 按列进行平均值计算 data.groupby('column').mean() # 按列进行计数 data.groupby('column').count() # 按列进行最大值和最小值计算 data.groupby('column').max() data.groupby('column').min()
# 绘制柱状图 data['column'].plot(kind='bar') # 绘制折线图 data['column'].plot(kind='line') # 绘制散点图 data.plot(kind='scatter', x='column1', y='column2') # 绘制箱线图 data.plot(kind='box')
結論
この記事では、読者が Pandas データ分析を始めるのに役立つ、Pandas ライブラリの一般的なデータ分析手法をいくつか紹介します。特定のコード例を通じて、読者はこれらのメソッドをより深く理解し、適用することができます。もちろん、Pandas には他にも多くの機能とメソッドがあり、読者は自分のニーズに応じてそれらを深く学び、応用することができます。
以上がpandas データ分析スキルの包括的な分析: 初心者から専門家までの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。