目录
iterrows()方法" >iterrows()方法
items()方法" >items()方法
insert()方法" >insert()方法
assign()方法" >assign()方法
eval()方法" >eval()方法
pop()方法" >pop()方法
truncate()方法" >truncate()方法
count()方法" >count()方法
add_prefix()方法/add_suffix()方法" >add_prefix()方法/add_suffix()方法
clip()方法" >clip()方法
filter()方法" >filter()方法
first()方法" >first()方法
isin()方法" >isin()方法
df.plot.area()方法" >df.plot.area()方法
df.plot.bar()方法" >df.plot.bar()方法
df.plot.box()方法" >df.plot.box()方法
df.plot.pie()方法" >df.plot.pie()方法
首页 后端开发 Python教程 4000字详细说明,推荐20个好用到爆的Pandas函数方法

4000字详细说明,推荐20个好用到爆的Pandas函数方法

Aug 10, 2023 pm 02:52 PM
python pandas

今天分享几个不为人知的pandas函数,大家可能平时看到的不多,但是使用起来倒是非常的方便,也能够帮助我们数据分析人员大幅度地提高工作效率,同时也希望大家看完之后能够有所收获

  • items() 方法items()方法
  • iterrows()方法
  • insert()方法
  • assign()方法
  • eval()方法
  • pop()方法
  • truncate()方法
  • count()方法
  • add_prefix()方法/add_suffix()方法
  • clip()方法
  • filter()
  • 🎜iterrows() 方法🎜🎜🎜 🎜insert() 方法🎜🎜🎜🎜 分配()方法🎜🎜🎜🎜eval() 方法🎜🎜🎜🎜pop() 方法🎜🎜🎜🎜truncate() 方法🎜🎜🎜🎜count() 方法🎜🎜🎜🎜add_prefix() 方法/add_suffix() 方法🎜🎜🎜🎜clip() 方法🎜🎜🎜🎜filter() 方法🎜🎜
  • first() 方法first()方法
  • isin()方法
  • df.plot.area()方法
  • df.plot.bar()方法
  • df.plot.box()方法
  • df.plot.pie()方法

items()方法

pandas当中的items()方法可以用来遍历数据集当中的每一列,同时返回列名以及每一列当中的内容,通过以元组的形式,示例如下
df = pd.DataFrame({'species': ['bear', 'bear', 'marsupial'],
                  'population': [1864, 22000, 80000]},
                  index=['panda', 'polar', 'koala'])
df
登录后复制

output

         species  population
panda       bear        1864
polar       bear       22000
koala  marsupial       80000
登录后复制

然后我们使用items()方法

for label, content in df.items():
    print(f'label: {label}')
    print(f'content: {content}', sep='\n')
    print("=" * 50)
登录后复制

output

label: species
content: panda         bear
polar         bear
koala    marsupial
Name: species, dtype: object
==================================================
label: population
content: panda     1864
polar    22000
koala    80000
Name: population, dtype: int64
==================================================
登录后复制

相继的打印出了‘species’和‘population’这两列的列名和相应的内容

iterrows()方法

而对于iterrows()

isin() 方法

🎜🎜df.plot.area() 方法🎜🎜🎜df .plot.bar()方法🎜🎜🎜df.plot.box()方法🎜🎜🎜df.plot.pie()方法🎜

items()方法

pandas 暴露的items() 方法用于遍历数据集占用的每一列,同时返回列名以及每一列贸易的内容,通过以元组的形式,示例如下🎜
for label, content in df.iterrows():
    print(f'label: {label}')
    print(f'content: {content}', sep='\n')
    print("=" * 50)
登录后复制
🎜output🎜
label: panda
content: species       bear
population    1864
Name: panda, dtype: object
==================================================
label: polar
content: species        bear
population    22000
Name: polar, dtype: object
==================================================
label: koala
content: species       marsupial
population        80000
Name: koala, dtype: object
==================================================
登录后复制
登录后复制
🎜然后我们使用items() 方法🎜
df.insert(1, "size", [2000, 3000, 4000])
登录后复制
登录后复制
🎜输出🎜
         species  size  population
panda       bear  2000        1864
polar       bear  3000       22000
koala  marsupial  4000       80000
登录后复制
登录后复制
🎜表格的打印生长'物种'和'种群'这列的列名称及相应的内容🎜

iterrows()方法

而对于iterrows() 方法而言,其功能遍历数据集里的每一行,返回每一行的索引以及带有列名的每一行的内容,示例如下🎜
df.assign(size_1=lambda x: x.population * 9 / 5 + 32)
登录后复制
登录后复制
🎜output🎜
label: panda
content: species       bear
population    1864
Name: panda, dtype: object
==================================================
label: polar
content: species        bear
population    22000
Name: polar, dtype: object
==================================================
label: koala
content: species       marsupial
population        80000
Name: koala, dtype: object
==================================================
登录后复制
登录后复制

insert()方法

insert()方法主要是用于在数据集当中的特定位置处插入数据,示例如下

df.insert(1, "size", [2000, 3000, 4000])
登录后复制
登录后复制

output

         species  size  population
panda       bear  2000        1864
polar       bear  3000       22000
koala  marsupial  4000       80000
登录后复制
登录后复制

可见在DataFrame数据集当中,列的索引也是从0开始的

assign()方法

assign()方法可以用来在数据集当中添加新的列,示例如下

df.assign(size_1=lambda x: x.population * 9 / 5 + 32)
登录后复制
登录后复制

output

         species  population    size_1
panda       bear        1864    3387.2
polar       bear       22000   39632.0
koala  marsupial       80000  144032.0
登录后复制
从上面的例子中可以看出,我们通过一个lambda匿名函数,在数据集当中添加一个新的列,命名为‘size_1’,当然我们也可以通过assign()方法来创建不止一个列
df.assign(size_1 = lambda x: x.population * 9 / 5 + 32,
          size_2 = lambda x: x.population * 8 / 5 + 10)
登录后复制

output

         species  population    size_1    size_2
panda       bear        1864    3387.2    2992.4
polar       bear       22000   39632.0   35210.0
koala  marsupial       80000  144032.0  128010.0
登录后复制

eval()方法

eval()方法主要是用来执行用字符串来表示的运算过程的,例如

df.eval("size_3 = size_1 + size_2")
登录后复制

output

         species  population    size_1    size_2    size_3
panda       bear        1864    3387.2    2992.4    6379.6
polar       bear       22000   39632.0   35210.0   74842.0
koala  marsupial       80000  144032.0  128010.0  272042.0
登录后复制

当然我们也可以同时对执行多个运算过程

df = df.eval('''
size_3 = size_1 + size_2
size_4 = size_1 - size_2
''')
登录后复制

output

         species  population    size_1    size_2    size_3   size_4
panda       bear        1864    3387.2    2992.4    6379.6    394.8
polar       bear       22000   39632.0   35210.0   74842.0   4422.0
koala  marsupial       80000  144032.0  128010.0  272042.0  16022.0
登录后复制

pop()方法

pop()方法主要是用来删除掉数据集中特定的某一列数据

df.pop("size_3")
登录后复制

output

panda      6379.6
polar     74842.0
koala    272042.0
Name: size_3, dtype: float64
登录后复制

而原先的数据集当中就没有这个‘size_3’这一例的数据了

truncate()方法

truncate()方法主要是根据行索引来筛选指定行的数据的,示例如下

df = pd.DataFrame({'A': ['a', 'b', 'c', 'd', 'e'],
                   'B': ['f', 'g', 'h', 'i', 'j'],
                   'C': ['k', 'l', 'm', 'n', 'o']},
                  index=[1, 2, 3, 4, 5])
登录后复制

output

   A  B  C
1  a  f  k
2  b  g  l
3  c  h  m
4  d  i  n
5  e  j  o
登录后复制

我们使用truncate()方法来做一下尝试

df.truncate(before=2, after=4)
登录后复制

output

   A  B  C
2  b  g  l
3  c  h  m
4  d  i  n
登录后复制
我们看到参数beforeafter存在于truncate()方法中,目的就是把行索引2之前和行索引4之后的数据排除在外,筛选出剩余的数据

count()方法

count()方法主要是用来计算某一列当中非空值的个数,示例如下

df = pd.DataFrame({"Name": ["John", "Myla", "Lewis", "John", "John"],
                   "Age": [24., np.nan, 25, 33, 26],
                   "Single": [True, True, np.nan, True, False]})
登录后复制

output

    Name   Age Single
0   John  24.0   True
1   Myla   NaN   True
2  Lewis  25.0    NaN
3   John  33.0   True
4   John  26.0  False
登录后复制

我们使用count()方法来计算一下数据集当中非空值的个数

df.count()
登录后复制

output

Name      5
Age       4
Single    4
dtype: int64
登录后复制

add_prefix()方法/add_suffix()方法

add_prefix()方法和add_suffix()方法分别会给列名以及行索引添加后缀和前缀,对于Series()数据集而言,前缀与后缀是添加在行索引处,而对于DataFrame()数据集而言,前缀与后缀是添加在列索引处,示例如下
s = pd.Series([1, 2, 3, 4])
登录后复制

output

0    1
1    2
2    3
3    4
dtype: int64
登录后复制

我们使用add_prefix()方法与add_suffix()方法在Series()数据集上

s.add_prefix('row_')
登录后复制

output

row_0    1
row_1    2
row_2    3
row_3    4
dtype: int64
登录后复制

又例如

s.add_suffix('_row')
登录后复制

output

0_row    1
1_row    2
2_row    3
3_row    4
dtype: int64
登录后复制
而对于DataFrame()形式数据集而言,add_prefix()方法以及add_suffix()方法是将前缀与后缀添加在列索引处的
df = pd.DataFrame({'A': [1, 2, 3, 4], 'B': [3, 4, 5, 6]})
登录后复制

output

   A  B
0  1  3
1  2  4
2  3  5
3  4  6
登录后复制

示例如下

df.add_prefix("column_")
登录后复制

output

   column_A  column_B
0         1         3
1         2         4
2         3         5
3         4         6
登录后复制

又例如

df.add_suffix("_column")
登录后复制

output

   A_column  B_column
0         1         3
1         2         4
2         3         5
3         4         6
登录后复制

clip()方法

clip()方法主要是通过设置阈值来改变数据集当中的数值,当数值超过阈值的时候,就做出相应的调整
data = {'col_0': [9, -3, 0, -1, 5], 'col_1': [-2, -7, 6, 8, -5]}
df = pd.DataFrame(data)
登录后复制

output

df.clip(lower = -4, upper = 4)
登录后复制

output

   col_0  col_1
0      4     -2
1     -3     -4
2      0      4
3     -1      4
4      4     -4
登录后复制
我们看到参数lowerupper分别代表阈值的上限与下限,数据集当中超过上限与下限的值会被替代。

filter()方法

pandas当中的filter()方法是用来筛选出特定范围的数据的,示例如下

df = pd.DataFrame(np.array(([1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12])),
                  index=['A', 'B', 'C', 'D'],
                  columns=['one', 'two', 'three'])
登录后复制

output

   one  two  three
A    1    2      3
B    4    5      6
C    7    8      9
D   10   11     12
登录后复制

我们使用filter()方法来筛选数据

df.filter(items=['one', 'three'])
登录后复制

output

   one  three
A    1      3
B    4      6
C    7      9
D   10     12
登录后复制
登录后复制

我们还可以使用正则表达式来筛选数据

df.filter(regex='e$', axis=1)
登录后复制

output

   one  three
A    1      3
B    4      6
C    7      9
D   10     12
登录后复制
登录后复制

当然通过参数axis来调整筛选行方向或者是列方向的数据

df.filter(like='B', axis=0)
登录后复制

output

   one  two  three
B    4    5      6
登录后复制

first()方法

当数据集当中的行索引是日期的时候,可以通过该方法来筛选前面几行的数据

index_1 = pd.date_range('2021-11-11', periods=5, freq='2D')
ts = pd.DataFrame({'A': [1, 2, 3, 4, 5]}, index=index_1)
ts
登录后复制

output

            A
2021-11-11  1
2021-11-13  2
2021-11-15  3
2021-11-17  4
2021-11-19  5
登录后复制

我们使用first()方法来进行一些操作,例如筛选出前面3天的数据

ts.first('3D')
登录后复制

output

            A
2021-11-11  1
2021-11-13  2
登录后复制

isin()方法

isin()方法主要是用来确认数据集当中的数值是否被包含在给定的列表当中

df = pd.DataFrame(np.array(([1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12])),
                  index=['A', 'B', 'C', 'D'],
                  columns=['one', 'two', 'three'])
df.isin([3, 5, 12])
登录后复制

output

     one    two  three
A  False  False   True
B  False   True  False
C  False  False  False
D  False  False   True
登录后复制
若是数值被包含在列表当中了,也就是3、5、12当中,返回的是True,否则就返回False

df.plot.area()方法

下面我们来讲一下如何在Pandas当中通过一行代码来绘制图表,将所有的列都通过面积图的方式来绘制
df = pd.DataFrame({
    'sales': [30, 20, 38, 95, 106, 65],
    'signups': [7, 9, 6, 12, 18, 13],
    'visits': [20, 42, 28, 62, 81, 50],
}, index=pd.date_range(start='2021/01/01', end='2021/07/01', freq='M'))

ax = df.plot.area(figsize = (10, 5))
登录后复制

output

4000字详细说明,推荐20个好用到爆的Pandas函数方法

df.plot.bar()方法

下面我们看一下如何通过一行代码来绘制柱状图

df = pd.DataFrame({'label':['A', 'B', 'C', 'D'], 'values':[10, 30, 50, 70]})
ax = df.plot.bar(x='label', y='values', rot=20)
登录后复制

output

4000字详细说明,推荐20个好用到爆的Pandas函数方法

当然我们也可以根据不同的类别来绘制柱状图

age = [0.1, 17.5, 40, 48, 52, 69, 88]
weight = [2, 8, 70, 1.5, 25, 12, 28]
index = ['A', 'B', 'C', 'D', 'E', 'F', 'G']
df = pd.DataFrame({'age': age, 'weight': weight}, index=index)
ax = df.plot.bar(rot=0)
登录后复制

output

4000字详细说明,推荐20个好用到爆的Pandas函数方法

当然我们也可以横向来绘制图表

ax = df.plot.barh(rot=0)
登录后复制

output

4000字详细说明,推荐20个好用到爆的Pandas函数方法

df.plot.box()方法

我们来看一下箱型图的具体的绘制,通过pandas一行代码来实现

data = np.random.randn(25, 3)
df = pd.DataFrame(data, columns=list('ABC'))
ax = df.plot.box()
登录后复制

output

4000字详细说明,推荐20个好用到爆的Pandas函数方法

df.plot.pie()方法

接下来是饼图的绘制

df = pd.DataFrame({'mass': [1.33, 4.87 , 5.97],
                   'radius': [2439.7, 6051.8, 6378.1]},
                  index=['Mercury', 'Venus', 'Earth'])
plot = df.plot.pie(y='mass', figsize=(8, 8))
登录后复制

output

4000字详细说明,推荐20个好用到爆的Pandas函数方法

除此之外,还有折线图、直方图、散点图等等,步骤与方式都与上述的技巧有异曲同工之妙,大家感兴趣的可以自己另外去尝试。

以上是4000字详细说明,推荐20个好用到爆的Pandas函数方法的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

C语言 sum 的作用是什么? C语言 sum 的作用是什么? Apr 03, 2025 pm 02:21 PM

C语言中没有内置求和函数,需自行编写。可通过遍历数组并累加元素实现求和:循环版本:使用for循环和数组长度计算求和。指针版本:使用指针指向数组元素,通过自增指针遍历高效求和。动态分配数组版本:动态分配数组并自行管理内存,确保释放已分配内存以防止内存泄漏。

谁得到更多的Python或JavaScript? 谁得到更多的Python或JavaScript? Apr 04, 2025 am 12:09 AM

Python和JavaScript开发者的薪资没有绝对的高低,具体取决于技能和行业需求。1.Python在数据科学和机器学习领域可能薪资更高。2.JavaScript在前端和全栈开发中需求大,薪资也可观。3.影响因素包括经验、地理位置、公司规模和特定技能。

distinctIdistinguish有关系吗 distinctIdistinguish有关系吗 Apr 03, 2025 pm 10:30 PM

distinct 和 distinguish 虽都与区分有关,但用法不同:distinct(形容词)描述事物本身的独特性,用于强调事物之间的差异;distinguish(动词)表示区分行为或能力,用于描述辨别过程。在编程中,distinct 常用于表示集合中元素的唯一性,如去重操作;distinguish 则体现在算法或函数的设计中,如区分奇数和偶数。优化时,distinct 操作应选择合适的算法和数据结构,而 distinguish 操作应优化区分逻辑效率,并注意编写清晰可读的代码。

如何理解 C 语言中的 !x? 如何理解 C 语言中的 !x? Apr 03, 2025 pm 02:33 PM

!x 的理解!x 是 C 语言中的逻辑非运算符,对 x 的值进行布尔取反,即真变假,假变真。但要注意,C 语言中真假由数值而非布尔类型表示,非零视为真,只有 0 才视为假。因此,!x 对负数的处理与正数相同,都视为真。

C语言中 sum 是什么意思? C语言中 sum 是什么意思? Apr 03, 2025 pm 02:36 PM

C语言中没有内置的sum函数用于求和,但可以通过以下方法实现:使用循环逐个累加元素;使用指针逐个访问并累加元素;对于大数据量,考虑并行计算。

H5页面制作是否需要持续维护 H5页面制作是否需要持续维护 Apr 05, 2025 pm 11:27 PM

H5页面需要持续维护,这是因为代码漏洞、浏览器兼容性、性能优化、安全更新和用户体验提升等因素。有效维护的方法包括建立完善的测试体系、使用版本控制工具、定期监控页面性能、收集用户反馈和制定维护计划。

如何获取58同城工作页面上的实时申请和浏览人数数据? 如何获取58同城工作页面上的实时申请和浏览人数数据? Apr 05, 2025 am 08:06 AM

如何在爬虫时获取58同城工作页面的动态数据?在使用爬虫工具爬取58同城的某个工作页面时,可能会遇到这样�...

爱心代码复制粘贴 爱心代码免费复制粘贴手机 爱心代码复制粘贴 爱心代码免费复制粘贴手机 Apr 04, 2025 am 06:48 AM

复制粘贴代码并非不可行,但需谨慎对待。代码中环境、库、版本等依赖项可能与当前项目不匹配,导致错误或不可预料的结果。务必确保上下文一致,包括文件路径、依赖库和 Python 版本。此外,复制粘贴特定库的代码时,可能需要安装该库及其依赖项。常见的错误包括路径错误、版本冲突和代码风格不一致。性能优化需根据代码原用途和约束重新设计或重构。理解并调试复制的代码至关重要,切勿盲目复制粘贴。

See all articles