백엔드 개발 PHP 튜토리얼 정규 표현식에 대해 자세히 알아보기

정규 표현식에 대해 자세히 알아보기

Nov 10, 2016 am 09:36 AM

学习了半年的正则表达式,也不能说一直学习吧,就是和它一直在打交道,如何用正则表达式解决自己的问题,并且还要考虑如何在匹配大量的文本时去优化它。慢慢的觉得正则已经成为自己的一项技能,逐渐的从一个正则表达式小白变成一个伪精通者。

정규 표현식에 대해 자세히 알아보기

new RegExp 和 // 正则对象创建区别

如果写过 Python 的同学,都一定会知道 Python 中可以在字符串前面加个小写的 r ,来表示防止转义。防止转义的意思就是说: str = r'\t' 等价于 str = '\\t' ,加了 r 会防止 \ 被转义。

为什么要介绍这个,因为这就是 new RegExp 和 // 的区别,因为我们知道在正则表达式中会频繁的使用转义字符 \w\s\d 等,但是它们在内存中的是以 \\w\\s\\d 存储的,看个例子:

//推荐写法
var regex1 = /\w+/g;
regex1 // /\w+/g
//RegExp 写法
var regex2 = new RegExp('\\w+','g');
regex2 // /\w+/g
//错误写法
var regex3 = new RegExp('\w+','g');
regex3 // /w+/g
로그인 후 복사

你也看出来了,错误写法只能匹配 wwwww 这样的字符串,曾经我就见过有人把他们弄混了,还说第一个第三个没有区别。第二种方法的输出,还是 /\w+/g ,中间还是要转换,所以推荐第一种写法。

当然,还有比较奇葩的:

var regex4 = new RegExp(/\w+/g);
regex4 // /\w+/g
로그인 후 복사

i、g、m 修饰符

这几个修饰符只是针对 JS 来说的,像 Python 中还有 re.S 表示 . 可以匹配换行符。

对于 i 表示忽略字母大小写,不是很常用,因为它有很多替代品,比如: /[a-zA-Z]/ 可以用来替代 /[a-z]/i ,至于两者处理长文本的时间效率,我自己没有研究过,不下定论。

使用 i 需要注意的地方,就是 i 会对正则表达式的每一个字母都忽略大小写,当我们需要部分单词的时候,可以考虑一下 /(?:t|T)he boy/ 。

g 表示全局匹配,在印象中,可能很多人会觉得全局匹配就是当使用 match 的时候,把所有符合正则表达式的文本全部匹配出来,这个用途确实很广泛,不过 g 还有其他更有意思的用途,那就是 lastIndex 参数。

var str = '1a2b3c4d5e6f',
    reg = /\d\w\d/g;
str.match(reg); //["1a2", "3c4", "5e6"]
로그인 후 복사

为什么不包括 2b3,4d5 ,因为正则表达式匹配的时候,会用 lastIndex 来标记上次匹配的位置,正常情况下,已经匹配过的内容是不会参与到下次匹配中的。带有 g 修饰符时,可以通过正则对象的 lastIndex 属性指定开始搜索的位置,当然这仅仅局限于函数 exec 和 test(replace 没研究过,没听说过可以控制 lastIndex,match 返回的是数组,无法控制 lastIndex),针对这个题目修改如下:

var str = '1a2b3c4d5e6f',
  reg = /\d\w\d/g;
var a;
var arr = [];
while(a = reg.exec(str)){
  arr.push(a[0]);
  reg.lastIndex -= 1;
}
arr //["1a2", "2b3", "3c4", "4d5", "5e6"]
로그인 후 복사

m 表示多行匹配,我发现很多人介绍 m 都只是一行略过,其实关于 m 还是很有意思的。首先,来了解一下单行模式,我们知道 JavaScript 正则表达式中的 . 是无法匹配 \r\n (换行,各个系统使用不一样) 的,像 Python 提供 re.S 表示 . 可以匹配任意字符,包括 \r\n ,在 JS 中如果想要表示匹配任意字符,只能用 [\s\S] 这种蹩脚的方式了(还有更蹩脚的 [\d\D],[.\s] )。这种模式叫做开启或关闭单行模式,可惜 JS 中无法来控制。

多行模式跟 ^ $ 两兄弟有关,如果你的正则表达式没有 ^$,即时你开启多行模式也是没用的。正常的理解 /^123$/ 只能匹配字符串 123 ,而开启多行模式 /^123$/g 能匹配 ['123','\n123','123\n','\n123\n'] ,相对于 ^$ 可以匹配 \r\n 了。

var str = '\na';
/^a/.test(str); //false
/^a/m.test(str); //true
로그인 후 복사

有人说,m 没用。其实在某些特殊的格式下,你知道你要匹配的内容会紧接着 \r\n 或以 \r\n 结尾,这个时候 m 就非常有用,比如 HTTP 协议中的请求和响应,都是以 \r\n 划分每一行的,响应头和响应体之间以 \r\n\r\n 来划分,我们需要匹配的内容就在开头,通过多行匹配,可以很明显的提高匹配效率。

原理性的东西,我们还是要知道的,万一以后会用到。

(?:) 和 (?=) 区别

在正则表达式中,括号不能乱用,因为括号就代表分组,在最终的匹配结果中,会被算入字匹配中,而 (?:) 就是来解决这个问题的,它的别名叫做非捕获分组。

var str = 'Hello world!';
var regex = /Hello (\w+)/;
regex.exec(str); //["Hello world", "world"]
var regex2 = /Hello (?:\w+)/;
regex2.exec(str); //["Hello world"]
로그인 후 복사

可以看到 (?:) 并不会把括号里的内容计入到子分组中。

关于 (?=),新手理解起来可能比较困难,尤其是一些很牛逼的预查正则表达式。其实还有个 (?!),不过它和 (?=) 是属于一类的,叫做 正向肯定(否定)预查 ,它还有很多别名比如零宽度正预测先行断言。但我觉得最重要的只要记住这两点,预查和非捕获。

预查的意思就是在之前匹配成功的基础上,在向后预查,看看是否符合预查的内容。正因为是预查,lastIndex 不会改变,且不会被捕获到总分组,更不会被捕获到子分组。

var str = 'Hello world!';
var regex = /Hello (?=\w+)/;
regex.exec(str); //["Hello "]
//replace 也一样
var regex2 = /(?:ab)(cd)/
'abcd'.replace(regex2,'$1') //"cd"
로그인 후 복사

和 (?:) 区别是: 我习惯的会把匹配的总结果叫做总分组 ,match 函数返回数组每一项都是总分组,exec 函数的返回数组的第一项是总分组。(?:) 会把括号里的内容计入总分组,(?=) 不会把括号里的内容计入总分组。

说白了,还是强大的 lastIndex 在起作用。(?:) 和 (?=) 差别是有的,使用的时候要合适的取舍。

说了这么多关于 (?=) 的内容,下面来点进阶吧!现在的需求是一串数字表示钱 “10000000”,但是在国际化的表示方法中,应该是隔三位有个逗号 “10,000,000”,给你一串没有逗号的,替换成有逗号的。

var str = "10000000";
var regex = /\d(?=(\d{3})+$)/g;
str.replace(regex, '$&,'); //"10,000,000"
로그인 후 복사

我们分析一下 regex, /\d(?=(\d{3})+$)/g 它是全局 g,实际上它匹配的内容只有一个 \d, (?=(\d{3})+$) 是预判的内容,之前说过,预判的内容不计入匹配结果,lastIndex 还是停留在 \d 的位置。 (?=(\d{3})+$) 到结尾有至少一组 3 个在一起的数字,才算预判成功。

\d = 1 的时候,不满足预判,向后移一位, \d = 0 ,满足预判,replace。

(?!) 前瞻判断

(?=) 和 (?!) 叫做正向预查,但往往是正向这个词把我们的思维给束缚住了。正向给人的感觉是只能在正则表达式后面来预判,那么 预判为什么不能放在前面呢 。下面这个例子也非常有意思。

一个简单密码的验证,要保证至少包含大写字母、小写字母、数字中的两种,且长度 8~20。

如果可以写多个正则,这个题目很简单,思路就是: /^[a-zA-Z\d]{8,20}$/ && !(/[a-z]+/) && !(/[A-Z]+/) && !(/\d+/) ,看着眼都花了,好长一串。

下面用 (?!) 前瞻判断来实现:

var regex = /^(?![a-z]+$)(?![A-Z]+$)(?!\d+$)[a-zA-Z\d]{8,12}$/;
regex.test('12345678'); //false
regex.test('1234567a'); //true
로그인 후 복사

分析一下,因为像 (?!) 预判不消耗 lastIndex,完全可以放到前面进行前瞻。 (?![a-z]+$) 的意思就是从当前 lastIndex (就是^)开始一直到 $,不能全是小写字母, (?![A-Z]+$) 不能全是大写字母, (?!\d+$) 不能全是数字, [a-zA-Z\d]{8,12}$ 这个是主体,判断到这里的时候, lastIndex 的位置仍然是 0,这就是 (?!) 前瞻带来的效率。

非贪婪与贪婪的问题

贪婪出现在 + * {1,} 这种不确定数量的匹配中,所谓的贪婪,表示正则表达式在匹配的时候,尽可能多的匹配符合条件的内容。比如 /hello.*world/ 匹配 'hello world,nice world' 会匹配到第二个 world 结束。

鉴于上面的情况,可以使用 ? 来实现非贪婪匹配。? 在正则表达式中用途很多,正常情况下,它表示前面那个字符匹配 0 或 1 次,就是简化版的 {0,1} ,如果在一些不确定次数的限制符后面出现,表示非贪婪匹配。 /hello.*?world/ 匹配 'hello world,nice world' 的结果是 hello world 。

我刚开始写正则的时候,写出来的正则都是贪婪模式的,往往得到的结果和预想的有些偏差,就是因为少了 ? 的原因。

我初入正则的时候,非贪婪模式还给我一种错觉。还是前面的那个例子,被匹配的内容换一下,用 /hello.*?world/ 匹配 'hello word,nice world' ,因为 word 不等于 world,在第一次尝试匹配失败之后,应该返回失败,但结果却是成功的,返回的是 'hello word,nice world' 。

一开始我对于这种情况是不理解的,但仔细想想也对,这本来就应该返回成功。至于如何在第一次尝试匹配失败之后,后面就不再继续匹配,只能通过优化 .* 。如果我们把 .*?end 这样子来看, .* 会把所有字符都吞进去,慢慢吐出最后几个字符,和 end 比较,如果是贪婪,吐到第一个满足条件的就停止,如果是非贪婪,一直吐到不能吐为止,把离自己最近的结果返回。

所以,贪婪是返回最近的一次成功匹配,而不是第一次尝试。

避免回溯失控

回溯可以杀死一个正则表达式,这一点都不假。关于正则表达式回溯也很好理解,就是正则引擎发现由两条路可以走时,它会选择其中的一条,把另一条路保存以便回溯时候用。

比如正则 /ab?c/ 在成功匹配到 a 之后,后面可以有 b,也可以没有 b,这时候要提供两种选择。还有其他类型的回溯,比如 /to(night|do)/ 。当然影响性能的回溯就要和 .* .+ .{m} 有关。

所谓的回溯失控,就是可供选择的路径太多,看一个常见回溯失控的例子,正则 /(A+A+)+B/ ,如果匹配成功,会很快返回,那么匹配失败,非常可怕。比如来匹配 10 个 A AAAAAAAAAA ,假设第一个 A+ 吞了 9 个 A,整个正则吐出最后一个字符发现不是 B,知道吐完,还不能返回 false,第一个 A+ 吞 8 个 A,….回溯次数的复杂度是 n 的平方。

当然你可能会说,自己不会写这样傻的正则表达式。真的吗?我们来看一个匹配 html 标签的正则表达式, /[\s\S]*?[\s\S]*?[\s\S]*?[\s\S]*?[\s\S]*? (感觉这样写也很傻)。如果一切都 OK,匹配一个正常的 HTML 页面,工作良好。但是如果不是以 结尾,每一个 [\s\S]*? 就会扩大其范围,一次一次回溯查找满足的一个字符串。

在说到回溯的同时,有时候还是要考虑一下 . * {} 查询集合的问题,反正我的建议是尽量避免使用匹配任何字符的 [\s\S] ,这真的是有点太暴力了。因为我们写正则的时候,都是以正确匹配的思路去写的,同时还需要考虑如果匹配不成功,该如何尽快的让 [a-zA-Z]* 集合尽快停止,比如 [^\r\n]* 在匹配单行时效果不错,即时匹配失败也可以快速停止。

总结

感觉这篇文章写的很乱,东扯西扯的,大概我把我这几个月以来所学到的正则表达式知识都写在了这里,当然这并不包括一些基础的知识。我觉得学习正则最主要的还是去练习,只有在实际项目中总结出来的正则经验,才算自己正在掌握的,如果只是简单的少一眼,时间久了,终究会忘记。共勉!

参考

RegExp对象 - 阮一峰

MSDN RegExp

进阶正则表达式

如何找出文件名为 “.js” 的文件,但要过滤掉 “.min.js” 的文件。

代码如下:

var regex = /^(?!.*\.min\.js$).+\.js$/;
regex.test('a.js'); //true
regex.test('b.min.js'); //false
regex.test('c.css'); //false
로그인 후 복사


본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

JWT (JSON Web Tokens) 및 PHP API의 사용 사례를 설명하십시오. JWT (JSON Web Tokens) 및 PHP API의 사용 사례를 설명하십시오. Apr 05, 2025 am 12:04 AM

JWT는 주로 신분증 인증 및 정보 교환을 위해 당사자간에 정보를 안전하게 전송하는 데 사용되는 JSON을 기반으로 한 개방형 표준입니다. 1. JWT는 헤더, 페이로드 및 서명의 세 부분으로 구성됩니다. 2. JWT의 작업 원칙에는 세 가지 단계가 포함됩니다. JWT 생성, JWT 확인 및 Parsing Payload. 3. PHP에서 인증에 JWT를 사용하면 JWT를 생성하고 확인할 수 있으며 사용자 역할 및 권한 정보가 고급 사용에 포함될 수 있습니다. 4. 일반적인 오류에는 서명 검증 실패, 토큰 만료 및 대형 페이로드가 포함됩니다. 디버깅 기술에는 디버깅 도구 및 로깅 사용이 포함됩니다. 5. 성능 최적화 및 모범 사례에는 적절한 시그니처 알고리즘 사용, 타당성 기간 설정 합리적,

PHP에서 늦은 정적 결합의 개념을 설명하십시오. PHP에서 늦은 정적 결합의 개념을 설명하십시오. Mar 21, 2025 pm 01:33 PM

기사는 PHP 5.3에 도입 된 PHP의 LSB (Late STATIC BING)에 대해 논의하여 정적 방법의 런타임 해상도가보다 유연한 상속을 요구할 수있게한다. LSB의 실제 응용 프로그램 및 잠재적 성능

프레임 워크 보안 기능 : 취약점 보호. 프레임 워크 보안 기능 : 취약점 보호. Mar 28, 2025 pm 05:11 PM

기사는 입력 유효성 검사, 인증 및 정기 업데이트를 포함한 취약점을 방지하기 위해 프레임 워크의 필수 보안 기능을 논의합니다.

프레임 워크 사용자 정의/확장 : 사용자 정의 기능을 추가하는 방법. 프레임 워크 사용자 정의/확장 : 사용자 정의 기능을 추가하는 방법. Mar 28, 2025 pm 05:12 PM

이 기사에서는 프레임 워크에 사용자 정의 기능 추가, 아키텍처 이해, 확장 지점 식별 및 통합 및 디버깅을위한 모범 사례에 중점을 둡니다.

PHP의 CURL 라이브러리를 사용하여 JSON 데이터가 포함 된 게시물 요청을 보내는 방법은 무엇입니까? PHP의 CURL 라이브러리를 사용하여 JSON 데이터가 포함 된 게시물 요청을 보내는 방법은 무엇입니까? Apr 01, 2025 pm 03:12 PM

PHP 개발에서 PHP의 CURL 라이브러리를 사용하여 JSON 데이터를 보내면 종종 외부 API와 상호 작용해야합니다. 일반적인 방법 중 하나는 컬 라이브러리를 사용하여 게시물을 보내는 것입니다 ...

확실한 원칙과 PHP 개발에 적용되는 방법을 설명하십시오. 확실한 원칙과 PHP 개발에 적용되는 방법을 설명하십시오. Apr 03, 2025 am 12:04 AM

PHP 개발에서 견고한 원칙의 적용에는 다음이 포함됩니다. 1. 단일 책임 원칙 (SRP) : 각 클래스는 하나의 기능 만 담당합니다. 2. Open and Close Principle (OCP) : 변경은 수정보다는 확장을 통해 달성됩니다. 3. Lisch의 대체 원칙 (LSP) : 서브 클래스는 프로그램 정확도에 영향을 미치지 않고 기본 클래스를 대체 할 수 있습니다. 4. 인터페이스 격리 원리 (ISP) : 의존성 및 사용되지 않은 방법을 피하기 위해 세밀한 인터페이스를 사용하십시오. 5. 의존성 반전 원리 (DIP) : 높고 낮은 수준의 모듈은 추상화에 의존하며 종속성 주입을 통해 구현됩니다.

Reactphp의 비 차단 기능은 정확히 무엇입니까? 차단 I/O 작업을 처리하는 방법은 무엇입니까? Reactphp의 비 차단 기능은 정확히 무엇입니까? 차단 I/O 작업을 처리하는 방법은 무엇입니까? Apr 01, 2025 pm 03:09 PM

Reactphp의 비 블로킹 기능에 대한 Reactphp의 심층적 인 해석의 비 차단 기능에 대한 공식 소개는 많은 개발자들의 질문을 불러 일으켰습니다.

See all articles