python数据清洗系列之字符串处理详解-Tutorial Python-php.cn

Rumah

pembangunan bahagian belakang

Tutorial Python

python数据清洗系列之字符串处理详解

高洛峰

Feb 13, 2017 pm 01:32 PM

前言

数据清洗是一项复杂且繁琐(kubi)的工作，同时也是整个数据分析过程中最为重要的环节。有人说一个分析项目80%的时间都是在清洗数据，这听起来有些匪夷所思，但在实际的工作中确实如此。数据清洗的目的有两个，第一是通过清洗让数据可用。第二是让数据变的更适合进行后续的分析工作。换句话说就是有”脏”数据要洗，干净的数据也要洗。

在数据分析中，特别是文本分析中，字符处理需要耗费极大的精力，因而了解字符处理对于数据分析而言，也是一项很重要的能力。

字符串处理方法

首先我们先了解下都有哪些基础方法

python数据清洗系列之字符串处理详解

首先我们了解下字符串的拆分split方法

str=&#39;i like apple,i like bananer&#39;
print(str.split(&#39;,&#39;))

Salin selepas log masuk

对字符str用逗号进行拆分的结果：

['i like apple', 'i like bananer']

print(str.split(&#39; &#39;))

Salin selepas log masuk

根据空格拆分的结果：

['i', 'like', 'apple,i', 'like', 'bananer']

print(str.index(&#39;,&#39;))
print(str.find(&#39;,&#39;))

Salin selepas log masuk

两个查找结果都为：

找不到的情况下index返回错误，find返回-1

print(str.count(&#39;i&#39;))

Salin selepas log masuk

结果为：

connt用于统计目标字符串的频率

print(str.replace(&#39;,&#39;, &#39; &#39;).split(&#39; &#39;))

Salin selepas log masuk

结果为：

['i', 'like', 'apple', 'i', 'like', 'bananer']

这里replace把逗号替换为空格后，在用空格对字符串进行分割，刚好能把每个单词取出来。

除了常规的方法以外，更强大的字符处理工具费正则表达式莫属了。

正则表达式

在使用正则表达式前我们还要先了解下，正则表达式中的诸多方法。

python数据清洗系列之字符串处理详解

下面我来看下个方法的使用，首先了解下match和search方法的区别

str = "Cats are smarter than dogs"
pattern=re.compile(r&#39;(.*) are (.*?) .*&#39;)
result=re.match(pattern,str)

for i in range(len(result.groups())+1):
 print(result.group(i))

Salin selepas log masuk

结果为：

Cats are smarter than dogs
Cats
smarter

这种形式的pettern匹配规则下，match和search方法的的返回结果是一样的

此时如果把pattern改为

pattern=re.compile(r&#39;are (.*?) .*&#39;)

Salin selepas log masuk

match则返回none，search返回结果为：

are smarter than dogs
smarter

接下来我们了解下其他方法的使用

str = "138-9592-5592 # number"
pattern=re.compile(r&#39;#.*$&#39;)
number=re.sub(pattern,&#39;&#39;,str)
print(number)

Salin selepas log masuk

结果为：

138-9592-5592

以上是通过把#号后面的内容替换为空实现提取号码的目的。

我们还可以进一步对号码的横杆进行替换

print(re.sub(r&#39;-*&#39;,&#39;&#39;,number))

Salin selepas log masuk

结果为：

13895925592

我们还可以用find的方法把找到的字符串打印出来

str = "138-9592-5592 # number"
pattern=re.compile(r&#39;5&#39;)
print(pattern.findall(str))

Salin selepas log masuk

结果为：

['5', '5', '5']

正则表达式的整体内容比较多，需要我们对匹配的字符串的规则有足够的了解，下面是具体的匹配规则。

python数据清洗系列之字符串处理详解

矢量化字符串函数

清理待分析的散乱数据时，常常需要做一些字符串规整化工作。

data = pd.Series({&#39;li&#39;: &#39;120@qq.com&#39;,&#39;wang&#39;:&#39;5632@qq.com&#39;,
 &#39;chen&#39;: &#39;8622@xinlang.com&#39;,&#39;zhao&#39;:np.nan,&#39;sun&#39;:&#39;5243@gmail.com&#39;})
print(data)

Salin selepas log masuk

结果为：

python数据清洗系列之字符串处理详解

可以通过规整合的一些方法对数据做初步的判断，比如用contains 判断每个数据中是否含有关键词

print(data.str.contains(&#39;@&#39;))

Salin selepas log masuk

结果为：

python数据清洗系列之字符串处理详解

也可以对字符串进行分拆，把需要的字符串提取出来

data = pd.Series({&#39;li&#39;: &#39;120@qq.com&#39;,&#39;wang&#39;:&#39;5632@qq.com&#39;,
     &#39;chen&#39;: &#39;8622@xinlang.com&#39;,&#39;zhao&#39;:np.nan,&#39;sun&#39;:&#39;5243@gmail.com&#39;})
pattern=re.compile(r&#39;(\d*)@([a-z]+)\.([a-z]{2,4})&#39;)
result=data.str.match(pattern) #这里用fillall的方法也可以result=data.str.findall(pattern)
print(result)

Salin selepas log masuk

结果为：

chen [(8622, xinlang, com)]
li [(120, qq, com)]
sun [(5243, gmail, com)]
wang [(5632, qq, com)]
zhao NaN
dtype: object

此时加入我们需要提取邮箱前面的名称

print(result.str.get(0))

Salin selepas log masuk

结果为：

python数据清洗系列之字符串处理详解

或者需要邮箱所属的域名

print(result.str.get(1))

Salin selepas log masuk

结果为：

python数据清洗系列之字符串处理详解

当然也可以用切片的方式进行提取，不过提取的数据准确性不高

data = pd.Series({&#39;li&#39;: &#39;120@qq.com&#39;,&#39;wang&#39;:&#39;5632@qq.com&#39;,
    &#39;chen&#39;: &#39;8622@xinlang.com&#39;,&#39;zhao&#39;:np.nan,&#39;sun&#39;:&#39;5243@gmail.com&#39;})
print(data.str[:6])

Salin selepas log masuk

结果为：

python数据清洗系列之字符串处理详解

最后我们了解下矢量化的字符串方法

python数据清洗系列之字符串处理详解

更多python数据清洗系列之字符串处理详解相关文章请关注PHP中文网！

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

2 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Repo: Cara menghidupkan semula rakan sepasukan

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Hello Kitty Island Adventure: Cara mendapatkan biji gergasi

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Berapa lama masa yang diperlukan untuk mengalahkan fiksyen berpecah?

3 minggu yang lalu By DDD

R.E.P.O. Simpan Fail Lokasi: Di manakah & bagaimana untuk melindunginya?

3 minggu yang lalu By DDD

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7338

Tutorial Java

1627

Tutorial CakePHP

1352

Tutorial Laravel

1265

Tutorial PHP

1210

Tunjukkan Lagi

Related knowledge

Cara Menggunakan Python untuk Mencari Pengagihan Zipf Fail Teks Mar 05, 2025 am 09:58 AM

Tutorial ini menunjukkan cara menggunakan Python untuk memproses konsep statistik undang -undang ZIPF dan menunjukkan kecekapan membaca dan menyusun fail teks besar Python semasa memproses undang -undang. Anda mungkin tertanya -tanya apa maksud pengedaran ZIPF istilah. Untuk memahami istilah ini, kita perlu menentukan undang -undang Zipf. Jangan risau, saya akan cuba memudahkan arahan. Undang -undang Zipf Undang -undang Zipf hanya bermaksud: Dalam korpus bahasa semulajadi yang besar, kata -kata yang paling kerap berlaku muncul kira -kira dua kali lebih kerap sebagai kata -kata kerap kedua, tiga kali sebagai kata -kata kerap ketiga, empat kali sebagai kata -kata kerap keempat, dan sebagainya. Mari kita lihat contoh. Jika anda melihat corpus coklat dalam bahasa Inggeris Amerika, anda akan melihat bahawa perkataan yang paling kerap adalah "th

Penapisan gambar di python Mar 03, 2025 am 09:44 AM

Berurusan dengan imej yang bising adalah masalah biasa, terutamanya dengan telefon bimbit atau foto kamera resolusi rendah. Tutorial ini meneroka teknik penapisan imej di Python menggunakan OpenCV untuk menangani isu ini. Penapisan Imej: Alat yang berkuasa Penapis Imej

Bagaimana saya menggunakan sup yang indah untuk menghuraikan html? Mar 10, 2025 pm 06:54 PM

Artikel ini menerangkan cara menggunakan sup yang indah, perpustakaan python, untuk menghuraikan html. Ia memperincikan kaedah biasa seperti mencari (), find_all (), pilih (), dan get_text () untuk pengekstrakan data, pengendalian struktur dan kesilapan HTML yang pelbagai, dan alternatif (sel

Bagaimana untuk melakukan pembelajaran mendalam dengan Tensorflow atau Pytorch? Mar 10, 2025 pm 06:52 PM

Artikel ini membandingkan tensorflow dan pytorch untuk pembelajaran mendalam. Ia memperincikan langkah -langkah yang terlibat: penyediaan data, bangunan model, latihan, penilaian, dan penempatan. Perbezaan utama antara rangka kerja, terutamanya mengenai grap pengiraan

Pengenalan kepada pengaturcaraan selari dan serentak di Python Mar 03, 2025 am 10:32 AM

Python, kegemaran sains dan pemprosesan data, menawarkan ekosistem yang kaya untuk pengkomputeran berprestasi tinggi. Walau bagaimanapun, pengaturcaraan selari dalam Python memberikan cabaran yang unik. Tutorial ini meneroka cabaran -cabaran ini, memberi tumpuan kepada Interprete Global

Cara Melaksanakan Struktur Data Anda Sendiri di Python Mar 03, 2025 am 09:28 AM

Tutorial ini menunjukkan mewujudkan struktur data saluran paip tersuai di Python 3, memanfaatkan kelas dan pengendali yang berlebihan untuk fungsi yang dipertingkatkan. Fleksibiliti saluran paip terletak pada keupayaannya untuk menggunakan siri fungsi ke set data, GE

Serialization dan deserialisasi objek python: Bahagian 1 Mar 08, 2025 am 09:39 AM

Serialization dan deserialization objek Python adalah aspek utama dari mana-mana program bukan remeh. Jika anda menyimpan sesuatu ke fail python, anda melakukan siri objek dan deserialization jika anda membaca fail konfigurasi, atau jika anda menjawab permintaan HTTP. Dalam erti kata, siri dan deserialization adalah perkara yang paling membosankan di dunia. Siapa yang peduli dengan semua format dan protokol ini? Anda mahu berterusan atau mengalirkan beberapa objek python dan mengambilnya sepenuhnya pada masa yang akan datang. Ini adalah cara yang baik untuk melihat dunia pada tahap konseptual. Walau bagaimanapun, pada tahap praktikal, skim siri, format atau protokol yang anda pilih boleh menentukan kelajuan, keselamatan, kebebasan status penyelenggaraan, dan aspek lain dari program

Modul Matematik dalam Python: Statistik Mar 09, 2025 am 11:40 AM

Modul Statistik Python menyediakan keupayaan analisis statistik data yang kuat untuk membantu kami dengan cepat memahami ciri -ciri keseluruhan data, seperti biostatistik dan analisis perniagaan. Daripada melihat titik data satu demi satu, cuma melihat statistik seperti min atau varians untuk menemui trend dan ciri dalam data asal yang mungkin diabaikan, dan membandingkan dataset besar dengan lebih mudah dan berkesan. Tutorial ini akan menjelaskan cara mengira min dan mengukur tahap penyebaran dataset. Kecuali dinyatakan sebaliknya, semua fungsi dalam modul ini menyokong pengiraan fungsi min () dan bukan hanya menjumlahkan purata. Nombor titik terapung juga boleh digunakan. Import secara rawak Statistik import dari fracti

See all articles