詳解16個Pandas函數，讓你的「資料清洗」能力提高100倍！-Python教學-PHP中文網

詳解16個Pandas函數，讓你的「資料清洗」能力提高100倍！

Python当打之年

發布： 2023-08-10 16:22:46

轉載

1735 人瀏覽過

###

本文介紹

#你有沒有這樣一種感覺，為什麼到自己手上的數據，總是亂七八糟？

身為資料分析師來說，資料清洗是不可或缺的環節。有時候因為資料太亂，往往需要花我們很多時間去處理它。因此掌握更多的資料清洗方法，會讓你的能力調高100倍。

本文基於此，講述Pandas中超級好用的str向量化字串函數，學了之後，瞬間感覺自己的資料清洗能力提高了。

1個資料集，16個Pandas函數

資料集是黃同學精心為大家編造，只為了幫助大家學習知識。資料集如下：

import pandas as pd

df ={&#39;姓名&#39;:[&#39; 黄同学&#39;,&#39;黄至尊&#39;,&#39;黄老邪 &#39;,&#39;陈大美&#39;,&#39;孙尚香&#39;],
     &#39;英文名&#39;:[&#39;Huang tong_xue&#39;,&#39;huang zhi_zun&#39;,&#39;Huang Lao_xie&#39;,&#39;Chen Da_mei&#39;,&#39;sun shang_xiang&#39;],
     &#39;性别&#39;:[&#39;男&#39;,&#39;women&#39;,&#39;men&#39;,&#39;女&#39;,&#39;男&#39;],
     &#39;身份证&#39;:[&#39;463895200003128433&#39;,&#39;429475199912122345&#39;,&#39;420934199110102311&#39;,&#39;431085200005230122&#39;,&#39;420953199509082345&#39;],
     &#39;身高&#39;:[&#39;mid:175_good&#39;,&#39;low:165_bad&#39;,&#39;low:159_bad&#39;,&#39;high:180_verygood&#39;,&#39;low:172_bad&#39;],
     &#39;家庭住址&#39;:[&#39;湖北广水&#39;,&#39;河南信阳&#39;,&#39;广西桂林&#39;,&#39;湖北孝感&#39;,&#39;广东广州&#39;],
     &#39;电话号码&#39;:[&#39;13434813546&#39;,&#39;19748672895&#39;,&#39;16728613064&#39;,&#39;14561586431&#39;,&#39;19384683910&#39;],
     &#39;收入&#39;:[&#39;1.1万&#39;,&#39;8.5千&#39;,&#39;0.9万&#39;,&#39;6.5千&#39;,&#39;2.0万&#39;]}
df = pd.DataFrame(df)
df

登入後複製

結果如下：

觀察上述數據，數據集是亂的。接下來，我們就用16個Pandas來對上述數據，進行數據清洗。

① cat函数：用于字符串的拼接

df["姓名"].str.cat(df["家庭住址"],sep=&#39;-&#39;*3)

登入後複製

结果如下：

② contains：判断某个字符串是否包含给定字符

df["家庭住址"].str.contains("广")

登入後複製

结果如下：

③ startswith/endswith：判断某个字符串是否以…开头/结尾

# 第一个行的“ 黄伟”是以空格开头的
df["姓名"].str.startswith("黄") 
df["英文名"].str.endswith("e")

登入後複製

结果如下：

④ count：计算给定字符在字符串中出现的次数

df["电话号码"].str.count("3")

登入後複製

结果如下：

⑤ get：获取指定位置的字符串

df["姓名"].str.get(-1)
df["身高"].str.split(":")
df["身高"].str.split(":").str.get(0)

登入後複製

结果如下：

⑥ len：计算字符串长度

df["性别"].str.len()

登入後複製

结果如下：

⑦ upper/lower：英文大小写转换

df["英文名"].str.upper()
df["英文名"].str.lower()

登入後複製

结果如下：

⑧ pad+side参数/center：在字符串的左边、右边或左右两边添加给定字符

df["家庭住址"].str.pad(10,fillchar="*")      # 相当于ljust()
df["家庭住址"].str.pad(10,side="right",fillchar="*")    # 相当于rjust()
df["家庭住址"].str.center(10,fillchar="*")

登入後複製

结果如下：

⑨ repeat：重复字符串几次

df["性别"].str.repeat(3)

登入後複製

结果如下：

⑩ slice_replace：使用给定的字符串，替换指定的位置的字符

df["电话号码"].str.slice_replace(4,8,"*"*4)

登入後複製

结果如下：

⑪ replace：将指定位置的字符，替换为给定的字符串

df["身高"].str.replace(":","-")

登入後複製

结果如下：

⑫ replace：将指定位置的字符，替换为给定的字符串(接受正则表达式)

replace中传入正则表达式，才叫好用；
先不要管下面这个案例有没有用，你只需要知道，使用正则做数据清洗多好用；

df["收入"].str.replace("\d+\.\d+","正则")

登入後複製

结果如下：

⑬ split方法+expand参数：搭配join方法功能很强大

# 普通用法
df["身高"].str.split(":")
# split方法，搭配expand参数
df[["身高描述","final身高"]] = df["身高"].str.split(":",expand=True)
df
# split方法搭配join方法
df["身高"].str.split(":").str.join("?"*5)

登入後複製

结果如下：

⑭ strip/rstrip/lstrip：去除空白符、换行符

df["姓名"].str.len()
df["姓名"] = df["姓名"].str.strip()
df["姓名"].str.len()

登入後複製

结果如下：

⑮ findall：利用正则表达式，去字符串中匹配，返回查找结果的列表

findall使用正则表达式，做数据清洗，真的很香！

df["身高"]
df["身高"].str.findall("[a-zA-Z]+")

登入後複製

结果如下：

⑯ extract/extractall：接受正则表达式，抽取匹配的字符串(一定要加上括号)

df["身高"].str.extract("([a-zA-Z]+)")
# extractall提取得到复合索引
df["身高"].str.extractall("([a-zA-Z]+)")
# extract搭配expand参数
df["身高"].str.extract("([a-zA-Z]+).*?([a-zA-Z]+)",expand=True)

登入後複製

结果如下：