Python 정규식 연산--re 모듈
re模块
序言:
re模块用于对python的正则表达式的操作
'.' 默认匹配除\n之外的任意一个字符,若指定flag DOTALL,则匹配任意字符,包括换行 '^' 匹配字符开头,若指定flags MULTILINE,这种也可以匹配上(r"^a","\nabc\neee",flags=re.MULTILINE) '$' 匹配字符结尾,或e.search("foo$","bfoo\nsdfsf",flags=re.MULTILINE).group()也可以 '*' 匹配*号前的字符0次或多次,re.findall("ab*","cabb3abcbbac") 结果为['abb', 'ab', 'a'] '+' 匹配前一个字符1次或多次,re.findall("ab+","ab+cd+abb+bba") 结果['ab', 'abb'] '?' 匹配前一个字符1次或0次 '{m}' 匹配前一个字符m次 '{n,m}' 匹配前一个字符n到m次,re.findall("ab{1,3}","abb abc abbcbbb") 结果'abb', 'ab', 'abb'] '|' 匹配|左或|右的字符,re.search("abc|ABC","ABCBabcCD").group() 结果'ABC' '(...)' 分组匹配,re.search("(abc){2}a(123|456)c", "abcabca456c").group() 结果 abcabca456c '[a-z]' 匹配a到z任意一个字符 '[^()]' 匹配除()以外的任意一个字符 r' ' 转义引号里的字符 针对\字符 详情查看⑦ '\A' 只从字符开头匹配,re.search("\Aabc","alexabc") 是匹配不到的 '\Z' 匹配字符结尾,同$ '\d' 匹配数字0-9 '\D' 匹配非数字 '\w' 匹配[A-Za-z0-9] '\W' 匹配非[A-Za-z0-9] '\s' 匹配空白字符、\t、\n、\r , re.search("\s+","ab\tc1\n3").group() 结果 '\t' '(?P<name>...)' 分组匹配 re.search("(?P<province>[0-9]{4})(?P<city>[0-9]{2})(?P<birthday>[0-9]{4})","371481199306143242").groupdict("city") 结果{'province': '3714', 'city': '81', 'birthday': '1993'} re.IGNORECASE 忽略大小写 re.search('(\A|\s)red(\s+|$)',i,re.IGNORECASE)
标志位即模式修正符,不改变正则表达式的情况下,通过模式修正符改变正则表达式的含义,从而实现一些匹配结果的调整等功能:
# flags I = IGNORECASE = sre_compile.SRE_FLAG_IGNORECASE # ignore case 匹配时忽略大小写 L = LOCALE = sre_compile.SRE_FLAG_LOCALE # assume current 8-bit locale 做本地化识别匹配 U = UNICODE = sre_compile.SRE_FLAG_UNICODE # assume unicode locale 根据Unicode字符及解析字符 M = MULTILINE = sre_compile.SRE_FLAG_MULTILINE # make anchors look for newline 多行匹配 S = DOTALL = sre_compile.SRE_FLAG_DOTALL # make dot match newline 让.匹配包括换行符,即用了该模式修正后,"."匹配就可以匹配任意的字符了 X = VERBOSE = sre_compile.SRE_FLAG_VERBOSE # ignore whitespace and comments
贪婪模式、懒惰模式:
import re result1 = re.search("p.*y","abcdfphp435pythony_py") # 贪婪模式 print(result1) # <_sre.SRE_Match object; span=(5, 21), match='php435pythony_py'> result2 = re.search("p.*?y","abcdfphp435pythony_py") # 懒惰模式 print(result2) # <_sre.SRE_Match object; span=(5, 13), match='php435py'>
match:
从起始位置开始根据模型去字符串中匹配指定内容:
#match import re obj = re.match('\d+', '123uua123sf') #从第一个字符开始匹配一个到多个数字 print(obj) #<_sre.SRE_Match object; span=(0, 3), match='123'> if obj: #如果有匹配到字符则执行,为空不执行 print(obj.group()) #打印匹配到的内容 #123
匹配ip地址:
import re ip = '255.255.255.253' result=re.match(r'^([1-9]?\d|1\d\d|2[0-4]\d|25[0-5])\.([1-9]?\d|1\d\d|2[0-4]\d|25[0-5])\.' r'([1-9]?\d|1\d\d|2[0-4]\d|25[0-5])\.([1-9]?\d|1\d\d|2[0-4]\d|25[0-5])$',ip) print(result) # <_sre.SRE_Match object; span=(0, 15), match='255.255.255.253'>
search:
根据模型去字符串中匹配指定内容(不一定是最开始位置),匹配最前
#search import re obj = re.search('\d+', 'a123uu234asf') #从数字开始匹配一个到多个数字 print(obj) #<_sre.SRE_Match object; span=(1, 4), match='123'> if obj: #如果有匹配到字符则执行,为空不执行 print(obj.group()) #打印匹配到的内容 #123 import re obj = re.search('\([^()]+\)', 'sdds(a1fwewe2(3uusfdsf2)34as)f') #匹配最里面()的内容 print(obj) #<_sre.SRE_Match object; span=(13, 24), match='(3uusfdsf2)'> if obj: #如果有匹配到字符则执行,为空不执行 print(obj.group()) #打印匹配到的内容 #(3uusfdsf2)
group与groups的区别:
#group与groups的区别 import re a = "123abc456" b = re.search("([0-9]*)([a-z]*)([0-9]*)", a) print(b) #<_sre.SRE_Match object; span=(0, 9), match='123abc456'> print(b.group()) #123abc456 print(b.group(0)) #123abc456 print(b.group(1)) #123 print(b.group(2)) #abc print(b.group(3)) #456 print(b.groups()) #('123', 'abc', '456')
findall:
上述两中方式均用于匹配单值,即:只能匹配字符串中的一个,如果想要匹配到字符串中所有符合条件的元素,则需要使用 findall;findall没有group用法
#findall import re obj = re.findall('\d+', 'a123uu234asf') #匹配多个 if obj: #如果有匹配到字符则执行,为空不执行 print(obj) #生成的内容为列表 #['123', '234']
sub:
用于替换匹配的字符串(pattern, repl, string, count=0, flags=0)
#sub import re content = "123abc456" new_content = re.sub('\d+', 'ABC', content) print(new_content) #ABCabcABC
split:
根据指定匹配进行分组(pattern, string, maxsplit=0, flags=0)
#split import re content = "1 - 2 * ((60-30+1*(9-2*5/3+7/3*99/4*2998+10*568/14))-(-4*3)/(16-3*2) )" new_content = re.split('\*', content) #用*进行分割,分割为列表 print(new_content) #['1 - 2 ', ' ((60-30+1', '(9-2', '5/3+7/3', '99/4', '2998+10', '568/14))-(-4', '3)/(16-3', '2) )'] content = "'1 - 2 * ((60-30+1*(9-2*5/3+7/3*99/4*2998+10*568/14))-(-4*3)/(16-3*2) )'" new_content = re.split('[\+\-\*\/]+', content) # new_content = re.split('\*', content, 1) print(new_content) #["'1 ", ' 2 ', ' ((60', '30', '1', '(9', '2', '5', '3', '7', '3', '99', '4', '2998', '10', '568', '14))', # '(', '4', '3)', '(16', '3', "2) )'"] inpp = '1-2*((60-30 +(-40-5)*(9-2*5/3 + 7 /3*99/4*2998 +10 * 568/14 )) - (-4*3)/ (16-3*2))' inpp = re.sub('\s*','',inpp) #把空白字符去掉 print(inpp) new_content = re.split('\(([\+\-\*\/]?\d+[\+\-\*\/]?\d+){1}\)', inpp, 1) print(new_content) #['1-2*((60-30+', '-40-5', '*(9-2*5/3+7/3*99/4*2998+10*568/14))-(-4*3)/(16-3*2))']
补充r' ' 转义:


fdfdsfds\fds sfdsfds& @$
首先要清楚,程序读取文件里的\字符时,添加到列表里面的是\\:
import re,sys li = [] with open('lzl.txt','r',encoding="utf-8") as file: for line in file: li.append(line) print(li) # 注意:文件中的单斜杠,读出来后会变成双斜杠 # ['fdfdsfds\\fds\n', 'sfdsfds& @$'] print(li[0]) # print打印的时候还是单斜杠 # fdfdsfds\fds
r字符的意义,对字符\进行转义,\只做为字符出现:
import re,sys li = [] with open('lzl.txt','r',encoding="utf-8") as file: for line in file: print(re.findall(r's\\f', line)) #第一种方式匹配 # print(re.findall('\\\\', line)) #第二种方式匹配 li.append(line) print(li) # 注意:文件中的单斜杠,读出来后会变成双斜杠 # ['s\\f'] # [] # ['fdfdsfds\\fds\n', 'sfdsfds& @$']
补充:看完下面的代码你可能更懵了
import re re.findall(r'\\', line) # 正则中只能这样写 不能写成 r'\' 这样 print(r'\\') # 只能这样写 不能写成r'\' \只能是双数 # \\ 结果 # 如果想值打印单个\ 写成如下 print('\\') # 只能是双数 # \ 结果
总结:文件中的单斜杠\,读出到程序中时是双斜杠\\,print打印出来是单斜杠\;正则匹配文件但斜杠\时,用r'\\'双斜杠去匹配,或者不用r直接用'\\\\'四个斜杠去匹配
compile函数:
说明:
Python通过re模块提供对正则表达式的支持。使用re的一般步骤是先使用re.compile()函数,将正则表达式的字符串形式编译为Pattern实例, 然后使用Pattern实例处理文本并获得匹配结果(一个Match实例),最后使用Match实例获得信息,进行其他的操作
举一个简单的例子,在寻找一个字符串中所有的英文字符:
import re pattern = re.compile('[a-zA-Z]') result = pattern.findall('as3SiOPdj#@23awe') print(result) # ['a', 's', 'S', 'i', 'O', 'P', 'd', 'j', 'a', 'w', 'e']
匹配IP地址(255.255.255.255):
import re pattern = re.compile(r'^(([1-9]?\d|1\d\d|2[0-4]\d|25[0-5])\.){3}([1-9]?\d|1\d\d|2[0-4]\d|25[0-5])$') result = pattern.match('255.255.255.255') print(result) # <_sre.SRE_Match object; span=(0, 15), match='255.255.255.255'>
위 내용은 Python 정규식 연산--re 모듈의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











PHP는 주로 절차 적 프로그래밍이지만 객체 지향 프로그래밍 (OOP)도 지원합니다. Python은 OOP, 기능 및 절차 프로그래밍을 포함한 다양한 패러다임을 지원합니다. PHP는 웹 개발에 적합하며 Python은 데이터 분석 및 기계 학습과 같은 다양한 응용 프로그램에 적합합니다.

PHP는 웹 개발 및 빠른 프로토 타이핑에 적합하며 Python은 데이터 과학 및 기계 학습에 적합합니다. 1.PHP는 간단한 구문과 함께 동적 웹 개발에 사용되며 빠른 개발에 적합합니다. 2. Python은 간결한 구문을 가지고 있으며 여러 분야에 적합하며 강력한 라이브러리 생태계가 있습니다.

Python은 부드러운 학습 곡선과 간결한 구문으로 초보자에게 더 적합합니다. JavaScript는 가파른 학습 곡선과 유연한 구문으로 프론트 엔드 개발에 적합합니다. 1. Python Syntax는 직관적이며 데이터 과학 및 백엔드 개발에 적합합니다. 2. JavaScript는 유연하며 프론트 엔드 및 서버 측 프로그래밍에서 널리 사용됩니다.

VS 코드 확장은 악의적 인 코드 숨기기, 취약성 악용 및 합법적 인 확장으로 자위하는 등 악성 위험을 초래합니다. 악의적 인 확장을 식별하는 방법에는 게시자 확인, 주석 읽기, 코드 확인 및주의해서 설치가 포함됩니다. 보안 조치에는 보안 인식, 좋은 습관, 정기적 인 업데이트 및 바이러스 백신 소프트웨어도 포함됩니다.

VS 코드는 파이썬을 작성하는 데 사용될 수 있으며 파이썬 애플리케이션을 개발하기에 이상적인 도구가되는 많은 기능을 제공합니다. 사용자는 다음을 수행 할 수 있습니다. Python 확장 기능을 설치하여 코드 완료, 구문 강조 및 디버깅과 같은 기능을 얻습니다. 디버거를 사용하여 코드를 단계별로 추적하고 오류를 찾아 수정하십시오. 버전 제어를 위해 git을 통합합니다. 코드 서식 도구를 사용하여 코드 일관성을 유지하십시오. 라인 도구를 사용하여 잠재적 인 문제를 미리 발견하십시오.

VS 코드는 Windows 8에서 실행될 수 있지만 경험은 크지 않을 수 있습니다. 먼저 시스템이 최신 패치로 업데이트되었는지 확인한 다음 시스템 아키텍처와 일치하는 VS 코드 설치 패키지를 다운로드하여 프롬프트대로 설치하십시오. 설치 후 일부 확장은 Windows 8과 호환되지 않을 수 있으며 대체 확장을 찾거나 가상 시스템에서 새로운 Windows 시스템을 사용해야합니다. 필요한 연장을 설치하여 제대로 작동하는지 확인하십시오. Windows 8에서는 VS 코드가 가능하지만 더 나은 개발 경험과 보안을 위해 새로운 Windows 시스템으로 업그레이드하는 것이 좋습니다.

vs 코드에서는 다음 단계를 통해 터미널에서 프로그램을 실행할 수 있습니다. 코드를 준비하고 통합 터미널을 열어 코드 디렉토리가 터미널 작업 디렉토리와 일치하는지 확인하십시오. 프로그래밍 언어 (예 : Python의 Python Your_file_name.py)에 따라 실행 명령을 선택하여 성공적으로 실행되는지 여부를 확인하고 오류를 해결하십시오. 디버거를 사용하여 디버깅 효율을 향상시킵니다.

PHP는 1994 년에 시작되었으며 Rasmuslerdorf에 의해 개발되었습니다. 원래 웹 사이트 방문자를 추적하는 데 사용되었으며 점차 서버 측 스크립팅 언어로 진화했으며 웹 개발에 널리 사용되었습니다. Python은 1980 년대 후반 Guidovan Rossum에 의해 개발되었으며 1991 년에 처음 출시되었습니다. 코드 가독성과 단순성을 강조하며 과학 컴퓨팅, 데이터 분석 및 기타 분야에 적합합니다.
