python 正则表达式学习小结-Python教程-PHP中文网

首页

后端开发

Python教程

python 正则表达式学习小结

高洛峰

Jan 12, 2017 pm 04:28 PM

python 正则表达式

　　在Python中实现正则的方式是通过re（regular expression的缩写）模块来实现的，你可以调用re模块的各种方法来实现不同的功能，下面我们就来说下，在Python中通过re模块可以调用那些方法，以及这些方法的作用都是什么；还有就是正则的实例以及各种特殊符号的含义：

　　1、re.sub和replace:

　　　　sub的全拼是substitute，也就是替换的意思；既然知道是替换了，那就很容易用到实例中了，其实replace也是替换的意思，只不过它们的用法不太相同，下面用一个例子来详细说明下它们的异同之处：

>>> import re
>>> str1 = &#39;Hello 111 is 222&#39;
>>> str2 = str1.replace(&#39;111&#39;,&#39;222&#39;)
>>> print(str2)
Hello 222 is 222
>>>

登录后复制

　　　这是一个简单的例子，如果是下面这种情形，把所有的数字都换成222，那么用replace实现起来就比较麻烦，而用re模块的sub方法实现起来就比较的简单：（如果是更复杂的操作，使用replace可能就无法实现了。）

>>> import re
>>> str1 = &#39;Hello 123 is 456&#39;
>>> str2 = re.sub(&#39;\d+&#39;,&#39;222&#39;,str1)
>>> print(str2)
Hello 222 is 222
>>>

登录后复制

　　2、re.search()和re.match():

　　　　match: 只从字符串的开始与正则表达式匹配，匹配成功返回matchobject,否则返回none.

　　　　search:将字符串的所有字串尝试与正则表达式匹配，如果所有的字串都没有匹配成功则返回none，否则返回matchobject.

　　　　下面这个例子说明了match和search的异同点，也说明了，在实际的应用中，search用的还是比较多的：

import re
str = &#39;helloword,i am alex&#39;
if not re.match(&#39;word&#39;,str):
print(&#39;cannot match&#39;)
print(re.match(&#39;hello&#39;,str1).group())
print(re.search(&#39;word&#39;,str1).group())
#显示结果
cannot match
hello
word

登录后复制

　　3、re.split:

　　　　在Python中，如果想对一个字符串进行分割的话，只需要调用str的split方法就可以实现，但是这个split只能根据某个字符来进行分割的操作，如果要同时指定多个字符来进行分割的话，它就无法实现了。

　　　　好在re模块也提供了split这个方法来对字符串进行分割，而且这个方法更加强大，可以同时根据多个字符进行分割的操作，下面来看分别看一下str的split和re的split有什么不同的地方：

str1 = &#39;helloword,i;am\nalex&#39;
str2 = str1.split(&#39;,&#39;)
print(str2)
import re
str3 = re.split(&#39;[,|;|\n]&#39;,str1)
print(str3)
#下面是不同的输出结果
[&#39;helloword&#39;, &#39;i;am\nalex&#39;]
[&#39;helloword&#39;, &#39;i&#39;, &#39;am&#39;, &#39;alex&#39;]

登录后复制

　　　　从中我们可以看出，上面说的真实性。

　　4、findall:

　　　　findall方法基本上都是和compile方法同时出现的，它们的用法是：

　　　　　　先由compile将一个正则表达式的字符串形式转换成pattern实例，然后再使用patte实例调用findall方法生成match对象来获取结果，在将它们结合的实例之前，我们先来看下正则表达式中预设的特殊字符含义：

　　　　\d 匹配任何十进制数；它相当于类 [0-9]。

　　　　\D 匹配任何非数字字符；它相当于类 [^0-9]。

　　　　\s 匹配任何空白字符；它相当于类 [ "t"n"r"f"v]。

　　　　\S 匹配任何非空白字符；它相当于类 [^ "t"n"r"f"v]。

　　　　\w 匹配任何字母数字字符；它相当于类 [a-zA-Z0-9_]。

　　　　\W 匹配任何非字母数字字符；它相当于类 [^a-zA-Z0-9_]。

　　　看完这几个特殊字符的含义，我们再举一个例子来说明一下上面的论点：

import re
str1 = &#39;asdf12dvdve4gb4&#39;
pattern1 = re.compile(&#39;\d&#39;)
pattern2 = re.compile(&#39;[0-9]&#39;)
mch1 = pattern1.findall(str1)
mch2 = pattern2.findall(str1)
print(&#39;mch1:\t%s&#39;% mch1)
print(&#39;mch2:\t%s&#39;% mch2)
#输出结果
mch1: [&#39;1&#39;, &#39;2&#39;, &#39;4&#39;, &#39;4&#39;]13 mch2: [&#39;1&#39;, &#39;2&#39;, &#39;4&#39;, &#39;4&#39;]

登录后复制

　　　上面的两个实例都可以很好的阐述上面的论点，而且也表明了，特殊字符\d确实跟[0-9]是一样的，通过输出结果就可以看出，那么如果你不想把每个数字都拆分为一个元素放在列表中，而是想把12整体的输出出来，那么你可以这样做：（就是在\d的后面加上个+号来实现的，这里的+号表示的是把一个或者多个相连的十进制数字整体输出）

import re
str1 = &#39;asdf12dvdve4gb4&#39;
pattern1 = re.compile(&#39;\d+&#39;)
pattern2 = re.compile(&#39;[0-9]&#39;)
mch1 = pattern1.findall(str1)
mch2 = pattern2.findall(str1)
print(&#39;mch1:\t%s&#39;% mch1)
print(&#39;mch2:\t%s&#39;% mch2)
#输出结果
mch1: [&#39;12&#39;, &#39;4&#39;, &#39;4&#39;]
mch2: [&#39;1&#39;, &#39;2&#39;, &#39;4&#39;, &#39;4&#39;]

登录后复制

　　　我们再举一个小例子，这个例子是结合特殊字符和re的sub功能实现一下把字符串中所有的空格都给去掉：

import re
str1 = &#39;asd \tf12d vdve4gb4&#39;
new_str = re.sub(&#39;\s*&#39;,&#39;&#39;,str)
print(new_str)
#输出结果
asdf12dvdve4gb4

登录后复制

　　5、元字符：

　　　　我们通常所说的二元字符有;2元字符：. ^ $ * + ? { } [ ] | ( ) \

　　　　我们首先考察的元字符是"[" 和 "]"。它们常用来指定一个字符类别，所谓字符类别就是你想匹配的一个字符集。字符可以单个列出，也可以用“-”号分隔的两个给定
字符来表示一个字符区间。例如，[abc] 将匹配"a", "b", 或 "c"中的任意一个字符；也可以用区间[a-c]来表示同一字符集，和前者效果一致。如果你只想匹配小写字母，那么 RE 应写成 [a-z].元字符在类别里并不起作用。例如，[akm$]将匹配字符"a", "k", "m", 或 "$" 中的任意一个；"$"通常用作元字符，但在字符类别里，其特性被除去，恢复成普通字
符。

　　　　[]:元字符[]表示字符类，在一个字符类中，只有字符^、-、]和\有特殊含义。字符\仍然表示转义，字符-可以定义字符范围，字符^放在前面，表示非.(这个在上面的特殊字符示例中也有提现)，

　　　　+ 匹配+号前内容1次至无限次
　　　　? 匹配?号前内容0次到1次
　　　　{m} 匹配前面的内容m次
　　　　{m,n} 匹配前面的内容m到n次

　　　　下面通过一个小例子，来阐述一下上面的字符在元字符[]中的使用：(在下面的这个例子中，要注意的有两点：一是在\d+后面的？号的含义，二是在匹配的前面加上了一个字符r,其实在这个示例中，加与不加都可以显示一样的结果)

>>> import re
>>> print(re.findall(r"a(\d+?)","a123b"))
[&#39;1&#39;]
>>> print(re.findall(r"a(\d+)","a123b"))
[&#39;123&#39;]
>>>

登录后复制

以上所述是小编给大家介绍的python 正则表达式学习小结，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对PHP中文网的支持！

更多python 正则表达式学习小结相关文章请关注PHP中文网！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

AI Hentai Generator

免费生成ai无尽的。

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

gmail邮箱登陆入口在哪里

7323

Java教程

1625

CakePHP 教程

1350

Laravel 教程

1262

PHP教程

1209

显示更多

Related knowledge

如何使用Python查找文本文件的ZIPF分布 Mar 05, 2025 am 09:58 AM

本教程演示如何使用Python处理Zipf定律这一统计概念，并展示Python在处理该定律时读取和排序大型文本文件的效率。您可能想知道Zipf分布这个术语是什么意思。要理解这个术语，我们首先需要定义Zipf定律。别担心，我会尽量简化说明。 Zipf定律 Zipf定律简单来说就是：在一个大型自然语言语料库中，最频繁出现的词的出现频率大约是第二频繁词的两倍，是第三频繁词的三倍，是第四频繁词的四倍，以此类推。让我们来看一个例子。如果您查看美国英语的Brown语料库，您会注意到最频繁出现的词是“th

我如何使用美丽的汤来解析HTML？ Mar 10, 2025 pm 06:54 PM

本文解释了如何使用美丽的汤库来解析html。它详细介绍了常见方法，例如find（），find_all（），select（）和get_text（），以用于数据提取，处理不同的HTML结构和错误以及替代方案（SEL）

python中的图像过滤 Mar 03, 2025 am 09:44 AM

处理嘈杂的图像是一个常见的问题，尤其是手机或低分辨率摄像头照片。本教程使用OpenCV探索Python中的图像过滤技术来解决此问题。图像过滤：功能强大的工具图像过滤器

如何使用Python使用PDF文档 Mar 02, 2025 am 09:54 AM

PDF 文件因其跨平台兼容性而广受欢迎，内容和布局在不同操作系统、阅读设备和软件上保持一致。然而，与 Python 处理纯文本文件不同，PDF 文件是二进制文件，结构更复杂，包含字体、颜色和图像等元素。幸运的是，借助 Python 的外部模块，处理 PDF 文件并非难事。本文将使用 PyPDF2 模块演示如何打开 PDF 文件、打印页面和提取文本。关于 PDF 文件的创建和编辑，请参考我的另一篇教程。准备工作核心在于使用外部模块 PyPDF2。首先，使用 pip 安装它： pip 是 P