이 글에서는 정규식에 대한 고급 지식을 자세히 소개하고, 파이썬 프로그래밍에서 발생할 수 있는 정규식의 몇 가지 예를 제시하겠습니다.
첫 번째 고급 지식 포인트:
문자열 분할
정규식을 사용하여 문자열을 분할하는 것이 고정 문자를 사용하는 것보다 더 유연합니다. 일반 분할 코드를 참조하세요:
>>> 'a b c'.split(' ') ['a', 'b', '', '', 'c']
음, 연속 공백. 인식할 수 없습니다. 정규식을 사용해 보세요:
>>> re.split(r'\s+', 'a b c') ['a', 'b', 'c']
공백이 아무리 많아도 정상적으로 나눌 수 있습니다. 가입하려면 다음을 시도하세요.
>>> re.split(r'[\s\,]+', 'a,b, c d') ['a', 'b', 'c', 'd']
다시 가입하세요.
>>> re.split(r'[\s\,\;]+', 'a,b;; c d') ['a', 'b', 'c', 'd']
사용자가 태그 세트를 입력하면 다음에 정규 표현식을 사용하여 불규칙한 입력을 올바른 배열로 변환해야 합니다.
그룹화
정규 표현식에는 단순히 일치 여부를 확인하는 것 외에도 하위 문자열을 추출하는 강력한 기능도 있습니다. ()로 표시되는 것은 추출할 그룹이다. 예:
^(d{3})-(d{3,8})$는 각각 두 개의 그룹을 정의하며, 일치하는 문자열에서 지역 번호와 지역 번호를 직접 추출할 수 있습니다.
>>> m = re.match(r'^(\d{3})-(\d{3,8})$', '010-12345') >>> m <_sre.SRE_Match object; span=(0, 9), match='010-12345' >>>> m.group(0) '010-12345' >>> m.group(1) '010' >>> m.group(2) '12345'
일반인 경우 표현식에 그룹이 정의되면 Match 개체의 group() 메서드를 사용하여 하위 문자열을 추출할 수 있습니다.
group(0)은 항상 원래 문자열이고, group(1), group(2)...는 첫 번째, 두 번째,... 하위 문자열을 나타냅니다.
하위 문자열 추출은 매우 유용합니다. 좀 더 잔인한 예를 살펴보겠습니다.
>>> t = '19:05:30' >>> m = re.match(r'^(0[0-9]|1[0-9]|2[0-3]|[0-9])\:(0[0-9]|1[0-9] |2[0-9]|3[0-9]|4[0-9]|5[0-9]|[0-9])\:(0[0-9]|1[0-9]|2[0-9]|3[0-9]|4[0-9]|5[0-9]|[0-9])$', t) >>> m.groups() ('19', '05', '30')
이 정규식은 법적 시간을 직접적으로 식별할 수 있습니다. 그러나 때로는 날짜 식별과 같이 정규식을 완전히 확인하는 데 사용할 수 없습니다.
'^(0[1-9]|1[0-2]|[0-9])-(0[1-9]|1[0-9]|2[0-9]|3[0-1]|[0-9])$'
'2-30', '4-31'과 같은 잘못된 날짜의 경우 여전히 정규식을 사용하여 식별할 수 없습니다. 또는 말하고 쓰는 것이 매우 어려운 경우 프로그램이 인식에 협조해야 합니다.
위 내용은 이 글에 설명된 내용이 전부입니다. 이 글은 파이썬의 정규 표현식에 관련된 지식을 주로 소개합니다. 위 내용을 이해하는 데 참고하시기 바랍니다. 이 글에서 제가 설명한 내용이 여러분에게 도움이 되고 파이썬을 더 쉽게 배울 수 있기를 바랍니다.
더 많은 관련 지식을 알고 싶으시면 PHP 중국어 홈페이지의 Python tutorial 칼럼을 방문해 주세요.
위 내용은 Python 정규식에 대한 자세한 설명(예제 분석)의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!