收藏 | 爆肝整理100個Pandas常用基礎指令-Python教學-PHP中文網

首頁

後端開發

Python教學

收藏 | 爆肝整理100個Pandas常用基礎指令

Python当打之年

Aug 10, 2023 pm 02:42 PM

python pandas

###

本期是pandas常用操作指令的一個總結，主要涉及讀取資料和保存資料#、資料詳情資訊、資料處理、資料切片、##篩選、排序、分組、#統計、表格樣式等幾個部分內容，希望對你有幫助。

#1. 導入模組

import pandas as pd
import numpy as np

登入後複製

2. 讀取資料與儲存資料

2.1 從CSV檔案讀取資料,編碼'gbk'

#2.2 讀取前6行,當資料量比較大時，可以只讀取前n行

2.3 第一列作為行索引,忽略列索引

2.4 讀取時忽略第1/3/5行和最後兩行

2.5 從限定分隔符號（','）的檔案或文字讀取資料

2.6 儲存資料

# 2.1 从CSV文件读取数据,编码&#39;gbk&#39;
pd.read_csv(filename, encoding=&#39;gbk&#39;)

# 2.2 读取前6行,当数据量比较大时，可以只读取前n行
pd.read_csv(filename, encoding=&#39;gbk&#39;, nrows = 6)

# 2.3 第一列作为行索引,忽略列索引
pd.read_csv(filename, encoding=&#39;gbk&#39;, header=None, index_col=0)

# 2.4 读取时忽略第1/3/5行和最后两行
pd.read_csv(filename, encoding=&#39;gbk&#39;, skiprows=[1,3,5], skipfooter=2, engine=&#39;python&#39;)

# 2.5 从限定分隔符（&#39;,&#39;）的文件或文本读取数据
pd.read_table(filename, sep=&#39;,&#39;, encoding=&#39;gbk&#39;)

# 2.6 保存数据
# 保存为csv文件
df.to_csv(&#39;test_ison.csv&#39;)
# 保存为xlsx文件
df.to_excel(&#39;test_xlsx.xlsx&#39;,index=False)
# 保存为ison文件
df.to_json(&#39;test_json.txt&#39;)

登入後複製

3. 查看数据信息

3.1 查看前n行

3.2 查看后n行

3.3 查看行数和列数

3.4 查看列索引

3.5 查看行索引

3.6 查看索引、数据类型和内存信息

3.7 查看数值型列的汇总统计

3.8 查看每一列的唯一值和计数

# 3.1 查看前n行
df.head(3)

# 3.2 查看后n行
df.tail(3)

# 3.3 查看行数和列数
df.shape

# 3.4查看列索引
df.columns

# 3.5 查看行索引
df.index

# 3.6 查看索引、数据类型和内存信息
df.info()

# 3.7 查看数值型列的汇总统计
df.describe()

# 3.8 查看每一列的唯一值和计数
df.apply(pd.Series.value_counts)

登入後複製

4. 数据处理

4.1 重命名列名

4.2 选择性更改列名

4.3 批量更改索引

4.4 批量更改列名

4.5 設定姓名列為行索引

4.6 檢查哪些欄位包含缺失值

4.7 統計各列空值

4.8 刪除本列中空值的行

#4.9 只保留本列中是空值的行

#4.10 去掉某行

4.11 去掉某一列

4.12 刪除所有包含空值的行

4.13 刪除行裡全都是空值的行

4.14 刪除所有包含空值的欄位

4.15 保留至少有6個非空值的行

4.16保留至少有11個非空值的欄位

4.17 行資料向下填入

4.18 資料列資料向右填入

#4.19 用0取代所有的空值

4.20 強制轉換資料型別

4.21 看有多少不同的城市

4.22 單一值替換

4.23 多值替換

4.24 多值替換單值

4.25 取代某列，顯示需要加上inplace= True

4.26 拆分某一列,產生新的Dataframe

4.27 某一列类型转换，注意该列类型要一致，包括（NaN）

# 4.1 重命名列名
df.columns = [&#39;姓名&#39;,&#39;性别&#39;,&#39;语文&#39;,&#39;数学&#39;,&#39;英语&#39;,&#39;城市&#39;,&#39;省份&#39;]

# 4.2 选择性更改列名
df.rename(columns={&#39;姓名&#39;: &#39;姓--名&#39;,&#39;性别&#39;: &#39;性--别&#39;},inplace=True)

# 4.3 批量更改索引
df.rename(lambda x: x + 10)

# 4.4 批量更改列名
df.rename(columns=lambda x: x + &#39;_1&#39;)

# 4.5 设置姓名列为行索引
df.set_index(&#39;姓名&#39;)

# 4.6 检查哪些列包含缺失值
df.isnull().any()

# 4.7 统计各列空值
df.isnull().sum()

# 4.8 删除本列中空值的行
df[df[&#39;数学&#39;].notnull()]
df[~df[&#39;数学&#39;].isnull()]

# 4.9 仅保留本列中是空值的行
df[df[&#39;数学&#39;].isnull()]
df[~df[&#39;数学&#39;].notnull()]

# 4.10 去掉某行
df.drop(0, axis=0)

# 4.11 去掉某列
df.drop(&#39;英语&#39;, axis=1)

# 4.12 删除所有包含空值的行
df.dropna()

# 4.13 删除行里全都是空值的行
df.dropna(how = &#39;all&#39;)

# 4.14 删除所有包含空值的列
df.dropna(axis=1)

# 4.15 保留至少有6个非空值的行
df.dropna(thresh=6)

# 4.16 保留至少有11个非空值的列
df.dropna(axis=1,thresh=11)

# 4.17 行数据向下填充
df.fillna(method = &#39;ffill&#39;)

# 4.18 列数据向右填充
df.fillna(method = &#39;ffill&#39;,axis=1)

# 4.19 用0替换所有的空值
df.fillna(0)

# 4.20 强制转换数据类型
df_t1 = df.dropna()
df_t1[&#39;语文&#39;].astype(&#39;int&#39;)

# 4.21 查看有多少不同的城市
df[&#39;城市&#39;].unique()

# 4.22 单值替换
df.replace(&#39;苏州&#39;, &#39;南京&#39;)

# 4.23 多值替换
df.replace({&#39;苏州&#39;:&#39;南京&#39;,&#39;广州&#39;:&#39;深圳&#39;})
df.replace([&#39;苏州&#39;,&#39;广州&#39;],[&#39;南京&#39;,&#39;深圳&#39;])

# 4.24 多值替换单值
df.replace([&#39;深圳&#39;,&#39;广州&#39;],&#39;东莞&#39;)

# 4.25 替换某列，显示需要加inplace=True
df[&#39;城市&#39;] = df[&#39;城市&#39;].replace(&#39;苏州&#39;, &#39;南京&#39;)

# 4.26 拆分某列,生成新的Dataframe
df1 = df[&#39;姓名&#39;].str.split(&#39;-&#39;,expand=True)
df1.columns = [&#39;学号&#39;,&#39;姓名&#39;]

# 4.27 某一列类型转换，注意该列类型要一致，包括（NaN）
df1.dropna(inplace = True)
df1[&#39;语文&#39;] = df1[&#39;语文&#39;].apply(int)

登入後複製

5. 数据切片、筛选

5.1 输出城市为上海

5.2 输出城市为上海或广州

5.3 输出城市名称中含有‘海’字的行

5.4 输出城市名称以‘海’字开头的行

5.5 输出城市名称以‘海’字结尾的行

5.6 輸出所有姓名，缺失值用Null填入

#5.7 重設索引

##5.8 前兩行

5.9 後兩行

5.10 2-8行

5.11 每隔3行讀取

5.12 2-8行,步長為2，即第2/4/6行

5.13 選取'語文','數學','英文'列

5.14 學號為'001'的行，所有欄位

5.15 學號為'001'或'003'的行，所有列

5.16 學號為'001'至'009'的行，所有列

5.17 列索引為'姓名'，所有行

#5.18 列索引為'姓名'至'城市'，所有行

5.19 語言成績大於80的行

#5.20 語言成績大於80的人的學號和姓名

####### ###5.21 輸出'趙四'與'週七'的各科成績############5.22 選取第2行############5.23 選取前3行#######

5.24 选取第2行、第4行、第6行

5.25 选取第2列

5.26 选取前3列

5.27 选取第3行的第3列

5.28 选取第1列、第3列和第4列

5.29 选取第2行的第1列、第3列、第4列

5.30 选取前3行的前3列

# 5.1 输出城市为上海
df[df[&#39;城市&#39;]==&#39;上海&#39;]

# 5.2 输出城市为上海或广州
df[df[&#39;城市&#39;].isin([&#39;上海&#39;,&#39;广州&#39;])]

# 5.3 输出城市名称中含有‘海’字的行
df[df[&#39;城市&#39;].str.contains("海", na=False)]

# 5.4 输出城市名称以‘海’字开头的行
df[df[&#39;城市&#39;].str.startswith("海", na=False)]

# 5.5 输出城市名称以‘海’字结尾的行
df[df[&#39;城市&#39;].str.endswith("海", na=False)]

# 5.6 输出所有姓名，缺失值用Null填充
df[&#39;姓名&#39;].str.cat(sep=&#39;、&#39;,na_rep=&#39;Null&#39;)

# 5.7 重置索引
df2 = df1.set_index(&#39;学号&#39;)

# 5.8 前两行
df2[:2]

# 5.9 后两行
df2[-2:]

# 5.10 2-8行
df2[2:8]

# 5.11 每隔3行读取
df2[::3]

# 5.12 2-8行,步长为2，即第2/4/6行
df2[2:8:2]

# 5.13 选取&#39;语文&#39;,&#39;数学&#39;,&#39;英语&#39;列
df2[[&#39;语文&#39;,&#39;数学&#39;,&#39;英语&#39;]]

# df.loc[]只能使用标签索引，不能使用整数索引，通过便签索引切边进行筛选时，前闭后闭
# 5.14 学号为&#39;001&#39;的行，所有列
df2.loc[&#39;001&#39;, :]

# 5.15 学号为&#39;001&#39;或&#39;003&#39;的行，所有列
df2.loc[[&#39;001&#39;,&#39;003&#39;], :]

# 5.16 学号为&#39;001&#39;至&#39;009&#39;的行，所有列
df2.loc[&#39;001&#39;:&#39;009&#39;, :]

# 5.17 列索引为&#39;姓名&#39;，所有行
df2.loc[:, &#39;姓名&#39;]

# 5.18 列索引为&#39;姓名&#39;至‘城市’，所有行
df2.loc[:, &#39;姓名&#39;:&#39;城市&#39;]

# 5.19 语文成绩大于80的行
df2.loc[df2[&#39;语文&#39;]>80,:]
df2.loc[df2.loc[:,&#39;语文&#39;]>80, :]
df2.loc[lambda df2:df2[&#39;语文&#39;] > 80, :]

# 5.20 语文成绩大于80的人的学号和姓名
df2.loc[df2[&#39;语文&#39;]>80,[&#39;姓名&#39;,&#39;城市&#39;]]

# 5.21 输出&#39;赵四&#39;和&#39;周七&#39;的各科成绩
df2.loc[df2[&#39;姓名&#39;].isin([&#39;赵四&#39;,&#39;周七&#39;]),[&#39;姓名&#39;,&#39;语文&#39;,&#39;数学&#39;,&#39;英语&#39;]]

# # df.iloc[]只能使用整数索引，不能使用标签索引，通过整数索引切边进行筛选时，前闭后开
# 5.22 选取第2行
df2.iloc[1, :]

# 5.23 选取前3行
df2.iloc[:3, :]

# 5.24 选取第2行、第4行、第6行
df2.iloc[[1,3,5],:]

# 5.25 选取第2列
df2.iloc[:, 1]

# 5.26 选取前3列
df2.iloc[:, 0:3]

# 5.27 选取第3行的第3列
df2.iloc[3, 3]

# 5.28 选取第1列、第3列和第4列
df2.iloc[:, [0,2,3]]

# 5.29 选取第2行的第1列、第3列、第4列
df2.iloc[1, [0,2,3]]

# 5.30 选取前3行的前3列
df2.iloc[:3, :3]

登入後複製

6. 資料排序

6.1 重置索引

6.2 依照語言成績升序排序，預設升序排列

##6.3 依照數學成績降序排序

6.4 先依語文成績升序排列，再依數學成績降序排列

6.5 語文成績80以上

###################### #####6.6 語文成績80以上及數學成績90分以上############6.7 語文成績80以上或數學成績90分以上#######

6.8 输出成绩100的行和列号

6.9 增加一列“省份-城市”

6.10 增加一列总分

6.11 按照总分、语文、数学、英语成绩依次排序

6.12 新增一列表示学生语文成绩等级的列（优秀、良好、中等、不及格）

# 6.1 重置索引
df_last = df1.reset_index(drop=True)

# 6.2 按照语文成绩升序排序，默认升序排列
df_last.sort_values(&#39;语文&#39;)

# 6.3 按照数学成绩降序排序
df_last.sort_values(&#39;数学&#39;, ascending=False)

# 6.4 先按语文成绩升序排列，再按数学成绩降序排列
df_last.sort_values([&#39;语文&#39;,&#39;数学&#39;], ascending=[True,False])

# 6.5 语文成绩80及以上
df_last[df_last[&#39;语文&#39;]>=80]
df_last.query(&#39;语文 > 80&#39;)

# 6.6 语文成绩80及以上以及数学成绩90分及以上
df_last[(df_last[&#39;语文&#39;]>=80) & (df_last[&#39;数学&#39;]>=90)]

# 6.7 语文成绩80及以上或数学成绩90分及以上
df_last[(df_last[&#39;语文&#39;]>=80) | (df_last[&#39;数学&#39;]>=90)]

# 6.8 输出成绩100的行和列号
row, col = np.where(df_last.values == 100)

# 6.9 增加一列“省份-城市”
df_last[&#39;省份-城市&#39;] = df_last[&#39;省份&#39;] + &#39;-&#39; + df_last[&#39;城市&#39;]

# 6.10 增加一列总分
df_last[&#39;总分&#39;] = df_last[[&#39;语文&#39;,&#39;数学&#39;,&#39;英语&#39;]].sum(axis = 1)

# 6.11 按照总分、语文、数学、英语成绩依次排序
df_last.sort_values(by =[&#39;总分&#39;,&#39;语文&#39;,&#39;数学&#39;,&#39;英语&#39;],ascending=False )

# 6.12 新增一列表示学生语文成绩等级的列（优秀、良好、中等、不及格）
def get_letter_grade(score):
    &#39;&#39;&#39;
    定义一个函数，根据分数返回相应的等级
    &#39;&#39;&#39;
    if score>=90:
        return &#39;优秀&#39;
    elif score>=80:
        return &#39;良好&#39;
    elif score>=60:
        return &#39;中等&#39;
    else:
        return &#39;不及格&#39;
    
df_last[&#39;语文等级&#39;] = df_last[&#39;语文&#39;].apply(lambda score: get_letter_grade(score))

登入後複製

7. 数据分组

7.1 一列分组

7.2 多列分组

7.3 每組的統計資料（橫向顯示）

7.4 每組的統計資料（縱向顯示）

7.5 查看指定列的統計資料

7.6 分組大小

7.7 分組成績最大值

###### #7.8 分組成績最小值############7.9 分組成績總和############7.10 分組平均成績############ 7.11 按省份分組，計算英語成績總分和平均分數#######

7.12 按省份、城市分组计算平均成绩

7.13 不同列不同的计算方法

7.14 性别分别替换为1/0

7.15 增加一列按省份分组的语文平均分

7.16 输出语文成绩最高的男生和女生（groupby默认会去掉空值）

7.17 按列省份、城市进行分组，计算语文、数学、英语成绩最大值的透视表

# 7.1 一列分组
df2.groupby(&#39;省份&#39;).groups

# 7.2 多列分组
df2.groupby([&#39;省份&#39;,&#39;城市&#39;]).groups

# 7.3 每组的统计数据（横向显示）
df2.groupby(&#39;省份&#39;).describe()

# 7.4 每组的统计数据（纵向显示）
df2.groupby(&#39;省份&#39;).describe().unstack()

# 7.5 查看指定列的统计信息
df2.groupby(&#39;省份&#39;).describe()[&#39;语文&#39;]

# 7.6 分组大小
df2.groupby(&#39;省份&#39;).count()
df2.groupby(&#39;省份&#39;).agg(np.size)

# 7.7 分组成绩最大值
df2.groupby(&#39;省份&#39;).max()
df2.groupby(&#39;省份&#39;).agg(np.max)

# 7.8 分组成绩最小值
df2.groupby(&#39;省份&#39;).min()
df2.groupby(&#39;省份&#39;).agg(np.min)

# 7.9 分组成绩总和
df2.groupby(&#39;省份&#39;).sum()
df2.groupby(&#39;省份&#39;).agg(np.sum)

# 7.10 分组平均成绩
df2.groupby(&#39;省份&#39;).mean()
df2.groupby(&#39;省份&#39;).agg(np.mean)

# 7.11 按省份分组，计算英语成绩总分和平均分
df2.groupby(&#39;省份&#39;)[&#39;英语&#39;].agg([np.sum, np.mean])

# 7.12 按省份、城市分组计算平均成绩
df2.groupby([&#39;省份&#39;,&#39;城市&#39;]).agg(np.mean)

# 7.13 不同列不同的计算方法
df2.groupby(&#39;省份&#39;).agg({&#39;语文&#39;: sum, # 总和
                        &#39;数学&#39;: &#39;count&#39;, # 总数
                        &#39;英语&#39;:&#39;mean&#39;}) # 平均

# 7.14 性别分别替换为1/0
df2 = df2.dropna()
df2[&#39;性别&#39;] = df2[&#39;性别&#39;].map({&#39;男&#39;:1, &#39;女&#39;:0})

# 7.15 增加一列按省份分组的语文平均分
df2[&#39;语文平均分&#39;] = df2.groupby(&#39;省份&#39;)[&#39;语文&#39;].transform(&#39;mean&#39;)

# 7.16 输出语文成绩最高的男生和女生（groupby默认会去掉空值）
def get_max(g):
    df = g.sort_values(&#39;语文&#39;,ascending=True)
    print(df)
    return df.iloc[-1,:]

df2.groupby(&#39;性别&#39;).apply(get_max)

# 7.17 按列省份、城市进行分组，计算语文、数学、英语成绩最大值的透 视表
df.pivot_table(index=[&#39;省份&#39;,&#39;城市&#39;], values=[&#39;语文&#39;,&#39;数学&#39;,&#39;英语&#39;], aggfunc=max)

登入後複製

8. 資料統計

8.1 資料總合統計

8.2 欄位中非空值的數量

8.3 欄位最小值

#8.4 列最大值

8.5 列平均數

##8.6 欄位中位數

# ######8.7 列與列之間的相關係數#######

8.8 列的标准差

8.9 语文成绩指标

8.10 三个科目的指标

# 8.1 数据汇总统计
df.describe()

# 8.2 列中非空值的个数
df.count()

# 8.3 列最小值
df.min()

# 8.4 列最大值
df.max()

# 8.5 列均值
df.mean()

# 8.6 列中位数
df.median()

# 8.7 列与列之间的相关系数
df.corr()

# 8.8 列的标准差
df.std()

# 8.9 语文成绩指标
# 对语文列求和
sum0 = df_last[&#39;语文&#39;].sum()
# 语文成绩方差
var = df_last[&#39;语文&#39;].var()
# 语文成绩标准差
std = df_last[&#39;语文&#39;].std()
# 语文平均分
mean = df_last[&#39;语文&#39;].mean()

print(&#39;语文总分:&#39;,sum0)
print(&#39;语文平均分:&#39;,mean)
print(&#39;语文成绩标准差:&#39;,std)
print(&#39;语文成绩方差:&#39;,var)

# 8.10 三个科目的指标
mean = df_last[[&#39;语文&#39;,&#39;数学&#39;,&#39;英语&#39;]].mean()
var  = df_last[[&#39;语文&#39;,&#39;数学&#39;,&#39;英语&#39;]].var()
total = df_last[[&#39;语文&#39;,&#39;数学&#39;,&#39;英语&#39;]].sum()
std = df_last[[&#39;语文&#39;,&#39;数学&#39;,&#39;英语&#39;]].std()
rows = [total,mean,var,std]
# 索引列表
index = [&#39;总分&#39;,&#39;平均分&#39;,&#39;方差&#39;,&#39;标准差&#39;]
# 根据指定索引和行构造 DataFrame 对象
df_tmp = pd.DataFrame(rows,index=index)

登入後複製

9. 表格样式

9.1 示例数据

9.2 列重命名

9.3 设置空值背景红色

9.4 最大資料高亮

9.5 最小資料高亮

9.6 部分列最大資料高亮

#9.7 部分列資料高亮（Dataframe全為資料）

#9.8 95分以上顯示紅色

#9.9 混合

9.10 設定float型別列資料大於80.0的背景高亮

9.11 設定數學成績大於80.0分的行背景高明亮

9.12 設定數學成績大於95.0的行資料顏色為紅色

9.13 显示热度图

# 9.1 示例数据
df = pd.read_csv(filename, encoding=&#39;gbk&#39;)

# 9.2 列重命名
df.columns = [&#39;姓名&#39;,&#39;性别&#39;,&#39;语文&#39;,&#39;数学&#39;,&#39;英语&#39;,&#39;城市&#39;,&#39;省份&#39;]

# 9.3 设置空值背景红色
df.style.highlight_null(null_color = &#39;red&#39;)

# 9.4 最大数据高亮
df.style.highlight_max()

# 9.5 最小数据高亮
df.style.highlight_min()

# 9.6 部分列最大数据高亮
df.style.apply(highlight_max, subset=[&#39;语文&#39;, &#39;数学&#39;])

# 9.7 部分列数据高亮（Dataframe全为数据）
df3 = df[[&#39;语文&#39;,&#39;数学&#39;,&#39;英语&#39;]]
def highlight_max(s):
    is_max = s == s.max()
    return [&#39;background-color: yellow&#39; if v else &#39;&#39; for v in is_max]

df3.style.apply(highlight_max)

# 9.8 95分以上显示红色
def color_negative_red(val):
    color = &#39;red&#39; if val > 95.0 else &#39;black&#39;
    return &#39;color: %s&#39; % color

df3.style.applymap(color_negative_red)

# 9.9 混合
df3.style.applymap(color_negative_red).apply(highlight_max)

# 9.10 设置float类型列数据大于80.0的背景高亮
yellow_css = &#39;background-color: yellow&#39;
sfun = lambda x: yellow_css if type(x) == float and x > 80.0 else &#39;&#39;
df3.style.applymap(sfun)

# 9.11 设置数学成绩大于80.0分的行背景高亮
yellow_css = &#39;background-color: yellow&#39;
sfun = lambda x: [yellow_css]*len(x) if x.数学 > 80.0 else [&#39;&#39;]*len(x)
df3.style.apply(sfun, axis=1)

# 9.12 设置数学成绩大于95.0的行数据颜色为红色
def row_color(s):
    if s.数学 > 95:
        return [&#39;color: red&#39;]*len(s)
    else:
        return [&#39;&#39;]*len(s)

df3.style.apply(row_color, axis=1)

# 9.13 显示热度图
import seaborn as sns
cm = sns.light_palette("green", as_cmap=True)
df3.style.background_gradient(cmap=cm)

登入後複製

以上是收藏 | 爆肝整理100個Pandas常用基礎指令的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn