정규 표현식에 대해 자세히 알아보기-PHP 튜토리얼-php.cn

집

백엔드 개발

PHP 튜토리얼

정규 표현식에 대해 자세히 알아보기

大家讲道理

Nov 10, 2016 am 09:36 AM

学习了半年的正则表达式，也不能说一直学习吧，就是和它一直在打交道，如何用正则表达式解决自己的问题，并且还要考虑如何在匹配大量的文本时去优化它。慢慢的觉得正则已经成为自己的一项技能，逐渐的从一个正则表达式小白变成一个伪精通者。

정규 표현식에 대해 자세히 알아보기

new RegExp 和 // 正则对象创建区别

如果写过 Python 的同学，都一定会知道 Python 中可以在字符串前面加个小写的 r ，来表示防止转义。防止转义的意思就是说： str = r'\t' 等价于 str = '\\t' ，加了 r 会防止 \ 被转义。

为什么要介绍这个，因为这就是 new RegExp 和 // 的区别，因为我们知道在正则表达式中会频繁的使用转义字符 \w\s\d 等，但是它们在内存中的是以 \\w\\s\\d 存储的，看个例子：

//推荐写法
var regex1 = /\w+/g;
regex1 // /\w+/g
//RegExp 写法
var regex2 = new RegExp(&#39;\\w+&#39;,&#39;g&#39;);
regex2 // /\w+/g
//错误写法
var regex3 = new RegExp(&#39;\w+&#39;,&#39;g&#39;);
regex3 // /w+/g

로그인 후 복사

你也看出来了，错误写法只能匹配 wwwww 这样的字符串，曾经我就见过有人把他们弄混了，还说第一个第三个没有区别。第二种方法的输出，还是 /\w+/g ，中间还是要转换，所以推荐第一种写法。

当然，还有比较奇葩的：

var regex4 = new RegExp(/\w+/g);
regex4 // /\w+/g

로그인 후 복사

i、g、m 修饰符

这几个修饰符只是针对 JS 来说的，像 Python 中还有 re.S 表示 . 可以匹配换行符。

对于 i 表示忽略字母大小写，不是很常用，因为它有很多替代品，比如： /[a-zA-Z]/ 可以用来替代 /[a-z]/i ，至于两者处理长文本的时间效率，我自己没有研究过，不下定论。

使用 i 需要注意的地方，就是 i 会对正则表达式的每一个字母都忽略大小写，当我们需要部分单词的时候，可以考虑一下 /(?:t|T)he boy/ 。

g 表示全局匹配，在印象中，可能很多人会觉得全局匹配就是当使用 match 的时候，把所有符合正则表达式的文本全部匹配出来，这个用途确实很广泛，不过 g 还有其他更有意思的用途，那就是 lastIndex 参数。

var str = &#39;1a2b3c4d5e6f&#39;,
    reg = /\d\w\d/g;
str.match(reg); //["1a2", "3c4", "5e6"]

로그인 후 복사

为什么不包括 2b3,4d5 ，因为正则表达式匹配的时候，会用 lastIndex 来标记上次匹配的位置，正常情况下，已经匹配过的内容是不会参与到下次匹配中的。带有 g 修饰符时，可以通过正则对象的 lastIndex 属性指定开始搜索的位置，当然这仅仅局限于函数 exec 和 test(replace 没研究过，没听说过可以控制 lastIndex，match 返回的是数组，无法控制 lastIndex)，针对这个题目修改如下：

var str = &#39;1a2b3c4d5e6f&#39;,
  reg = /\d\w\d/g;
var a;
var arr = [];
while(a = reg.exec(str)){
  arr.push(a[0]);
  reg.lastIndex -= 1;
}
arr //["1a2", "2b3", "3c4", "4d5", "5e6"]

로그인 후 복사

m 表示多行匹配，我发现很多人介绍 m 都只是一行略过，其实关于 m 还是很有意思的。首先，来了解一下单行模式，我们知道 JavaScript 正则表达式中的 . 是无法匹配 \r\n (换行，各个系统使用不一样) 的，像 Python 提供 re.S 表示 . 可以匹配任意字符，包括 \r\n ，在 JS 中如果想要表示匹配任意字符，只能用 [\s\S] 这种蹩脚的方式了（还有更蹩脚的 [\d\D],[.\s] ）。这种模式叫做开启或关闭单行模式，可惜 JS 中无法来控制。

多行模式跟 ^ $ 两兄弟有关，如果你的正则表达式没有 ^$,即时你开启多行模式也是没用的。正常的理解 /^123$/ 只能匹配字符串 123 ，而开启多行模式 /^123$/g 能匹配 ['123','\n123','123\n','\n123\n'] ，相对于 ^$ 可以匹配 \r\n 了。

var str = &#39;\na&#39;;
/^a/.test(str); //false
/^a/m.test(str); //true

로그인 후 복사

有人说，m 没用。其实在某些特殊的格式下，你知道你要匹配的内容会紧接着 \r\n 或以 \r\n 结尾，这个时候 m 就非常有用，比如 HTTP 协议中的请求和响应，都是以 \r\n 划分每一行的，响应头和响应体之间以 \r\n\r\n 来划分，我们需要匹配的内容就在开头，通过多行匹配，可以很明显的提高匹配效率。

原理性的东西，我们还是要知道的，万一以后会用到。

(?:) 和 (?=) 区别

在正则表达式中，括号不能乱用，因为括号就代表分组，在最终的匹配结果中，会被算入字匹配中，而 (?:) 就是来解决这个问题的，它的别名叫做非捕获分组。

var str = &#39;Hello world!&#39;;
var regex = /Hello (\w+)/;
regex.exec(str); //["Hello world", "world"]
var regex2 = /Hello (?:\w+)/;
regex2.exec(str); //["Hello world"]

로그인 후 복사

可以看到 (?:) 并不会把括号里的内容计入到子分组中。

关于 (?=)，新手理解起来可能比较困难，尤其是一些很牛逼的预查正则表达式。其实还有个 (?!)，不过它和 (?=) 是属于一类的，叫做正向肯定(否定)预查，它还有很多别名比如零宽度正预测先行断言。但我觉得最重要的只要记住这两点，预查和非捕获。

预查的意思就是在之前匹配成功的基础上，在向后预查，看看是否符合预查的内容。正因为是预查，lastIndex 不会改变，且不会被捕获到总分组，更不会被捕获到子分组。

var str = &#39;Hello world!&#39;;
var regex = /Hello (?=\w+)/;
regex.exec(str); //["Hello "]
//replace 也一样
var regex2 = /(?:ab)(cd)/
&#39;abcd&#39;.replace(regex2,&#39;$1&#39;) //"cd"

로그인 후 복사

和 (?:) 区别是：我习惯的会把匹配的总结果叫做总分组，match 函数返回数组每一项都是总分组，exec 函数的返回数组的第一项是总分组。(?:) 会把括号里的内容计入总分组，(?=) 不会把括号里的内容计入总分组。

说白了，还是强大的 lastIndex 在起作用。(?:) 和 (?=) 差别是有的，使用的时候要合适的取舍。

说了这么多关于 (?=) 的内容，下面来点进阶吧！现在的需求是一串数字表示钱 “10000000”，但是在国际化的表示方法中，应该是隔三位有个逗号 “10,000,000”，给你一串没有逗号的，替换成有逗号的。

var str = "10000000";
var regex = /\d(?=(\d{3})+$)/g;
str.replace(regex, &#39;$&,&#39;); //"10,000,000"

로그인 후 복사

我们分析一下 regex， /\d(?=(\d{3})+$)/g 它是全局 g，实际上它匹配的内容只有一个 \d， (?=(\d{3})+$) 是预判的内容，之前说过，预判的内容不计入匹配结果，lastIndex 还是停留在 \d 的位置。 (?=(\d{3})+$) 到结尾有至少一组 3 个在一起的数字，才算预判成功。

\d = 1 的时候，不满足预判，向后移一位， \d = 0 ，满足预判，replace。

(?!) 前瞻判断

(?=) 和 (?!) 叫做正向预查，但往往是正向这个词把我们的思维给束缚住了。正向给人的感觉是只能在正则表达式后面来预判，那么预判为什么不能放在前面呢。下面这个例子也非常有意思。

一个简单密码的验证，要保证至少包含大写字母、小写字母、数字中的两种，且长度 8~20。

如果可以写多个正则，这个题目很简单，思路就是： /^[a-zA-Z\d]{8,20}$/ && !(/[a-z]+/) && !(/[A-Z]+/) && !(/\d+/) ，看着眼都花了，好长一串。

下面用 (?!) 前瞻判断来实现：

var regex = /^(?![a-z]+$)(?![A-Z]+$)(?!\d+$)[a-zA-Z\d]{8,12}$/;
regex.test(&#39;12345678&#39;); //false
regex.test(&#39;1234567a&#39;); //true

로그인 후 복사

分析一下，因为像 (?!) 预判不消耗 lastIndex，完全可以放到前面进行前瞻。 (?![a-z]+$) 的意思就是从当前 lastIndex (就是^)开始一直到 $，不能全是小写字母， (?![A-Z]+$) 不能全是大写字母， (?!\d+$) 不能全是数字， [a-zA-Z\d]{8,12}$ 这个是主体，判断到这里的时候， lastIndex 的位置仍然是 0，这就是 (?!) 前瞻带来的效率。

非贪婪与贪婪的问题

贪婪出现在 + * {1,} 这种不确定数量的匹配中，所谓的贪婪，表示正则表达式在匹配的时候，尽可能多的匹配符合条件的内容。比如 /hello.*world/ 匹配 'hello world,nice world' 会匹配到第二个 world 结束。

鉴于上面的情况，可以使用 ? 来实现非贪婪匹配。? 在正则表达式中用途很多，正常情况下，它表示前面那个字符匹配 0 或 1 次，就是简化版的 {0,1} ，如果在一些不确定次数的限制符后面出现，表示非贪婪匹配。 /hello.*?world/ 匹配 'hello world,nice world' 的结果是 hello world 。

我刚开始写正则的时候，写出来的正则都是贪婪模式的，往往得到的结果和预想的有些偏差，就是因为少了 ? 的原因。

我初入正则的时候，非贪婪模式还给我一种错觉。还是前面的那个例子，被匹配的内容换一下，用 /hello.*?world/ 匹配 'hello word,nice world' ，因为 word 不等于 world，在第一次尝试匹配失败之后，应该返回失败，但结果却是成功的，返回的是 'hello word,nice world' 。

一开始我对于这种情况是不理解的，但仔细想想也对，这本来就应该返回成功。至于如何在第一次尝试匹配失败之后，后面就不再继续匹配，只能通过优化 .* 。如果我们把 .*?end 这样子来看， .* 会把所有字符都吞进去，慢慢吐出最后几个字符，和 end 比较，如果是贪婪，吐到第一个满足条件的就停止，如果是非贪婪，一直吐到不能吐为止，把离自己最近的结果返回。

所以，贪婪是返回最近的一次成功匹配，而不是第一次尝试。

避免回溯失控

回溯可以杀死一个正则表达式，这一点都不假。关于正则表达式回溯也很好理解，就是正则引擎发现由两条路可以走时，它会选择其中的一条，把另一条路保存以便回溯时候用。

比如正则 /ab?c/ 在成功匹配到 a 之后，后面可以有 b，也可以没有 b，这时候要提供两种选择。还有其他类型的回溯，比如 /to(night|do)/ 。当然影响性能的回溯就要和 .* .+ .{m} 有关。

所谓的回溯失控，就是可供选择的路径太多，看一个常见回溯失控的例子，正则 /(A+A+)+B/ ，如果匹配成功，会很快返回，那么匹配失败，非常可怕。比如来匹配 10 个 A AAAAAAAAAA ，假设第一个 A+ 吞了 9 个 A，整个正则吐出最后一个字符发现不是 B，知道吐完，还不能返回 false，第一个 A+ 吞 8 个 A，….回溯次数的复杂度是 n 的平方。

当然你可能会说，自己不会写这样傻的正则表达式。真的吗？我们来看一个匹配 html 标签的正则表达式， /[\s\S]*?[\s\S]*?[\s\S]*?[\s\S]*?[\s\S]*? (感觉这样写也很傻)。如果一切都 OK，匹配一个正常的 HTML 页面，工作良好。但是如果不是以结尾，每一个 [\s\S]*? 就会扩大其范围，一次一次回溯查找满足的一个字符串。

在说到回溯的同时，有时候还是要考虑一下 . * {} 查询集合的问题，反正我的建议是尽量避免使用匹配任何字符的 [\s\S] ，这真的是有点太暴力了。因为我们写正则的时候，都是以正确匹配的思路去写的，同时还需要考虑如果匹配不成功，该如何尽快的让 [a-zA-Z]* 集合尽快停止，比如 [^\r\n]* 在匹配单行时效果不错，即时匹配失败也可以快速停止。

总结

感觉这篇文章写的很乱，东扯西扯的，大概我把我这几个月以来所学到的正则表达式知识都写在了这里，当然这并不包括一些基础的知识。我觉得学习正则最主要的还是去练习，只有在实际项目中总结出来的正则经验，才算自己正在掌握的，如果只是简单的少一眼，时间久了，终究会忘记。共勉！

参考

RegExp对象 - 阮一峰

MSDN RegExp

进阶正则表达式

如何找出文件名为 “.js” 的文件，但要过滤掉 “.min.js” 的文件。

代码如下：

var regex = /^(?!.*\.min\.js$).+\.js$/;
regex.test(&#39;a.js&#39;); //true
regex.test(&#39;b.min.js&#39;); //false
regex.test(&#39;c.css&#39;); //false

로그인 후 복사

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7507

Cakephp 튜토리얼

1378

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

Related knowledge

ALIPAY PHP SDK 전송 오류 : '클래스 부호 데이터를 선언 할 수 없음'의 문제를 해결하는 방법은 무엇입니까? Apr 01, 2025 am 07:21 AM

Alipay PHP ...

JWT (JSON Web Tokens) 및 PHP API의 사용 사례를 설명하십시오. Apr 05, 2025 am 12:04 AM

JWT는 주로 신분증 인증 및 정보 교환을 위해 당사자간에 정보를 안전하게 전송하는 데 사용되는 JSON을 기반으로 한 개방형 표준입니다. 1. JWT는 헤더, 페이로드 및 서명의 세 부분으로 구성됩니다. 2. JWT의 작업 원칙에는 세 가지 단계가 포함됩니다. JWT 생성, JWT 확인 및 Parsing Payload. 3. PHP에서 인증에 JWT를 사용하면 JWT를 생성하고 확인할 수 있으며 사용자 역할 및 권한 정보가 고급 사용에 포함될 수 있습니다. 4. 일반적인 오류에는 서명 검증 실패, 토큰 만료 및 대형 페이로드가 포함됩니다. 디버깅 기술에는 디버깅 도구 및 로깅 사용이 포함됩니다. 5. 성능 최적화 및 모범 사례에는 적절한 시그니처 알고리즘 사용, 타당성 기간 설정 합리적,

PHP에서 늦은 정적 결합의 개념을 설명하십시오. Mar 21, 2025 pm 01:33 PM

기사는 PHP 5.3에 도입 된 PHP의 LSB (Late STATIC BING)에 대해 논의하여 정적 방법의 런타임 해상도가보다 유연한 상속을 요구할 수있게한다. LSB의 실제 응용 프로그램 및 잠재적 성능

프레임 워크 보안 기능 : 취약점 보호. Mar 28, 2025 pm 05:11 PM

기사는 입력 유효성 검사, 인증 및 정기 업데이트를 포함한 취약점을 방지하기 위해 프레임 워크의 필수 보안 기능을 논의합니다.

프레임 워크 사용자 정의/확장 : 사용자 정의 기능을 추가하는 방법. Mar 28, 2025 pm 05:12 PM

이 기사에서는 프레임 워크에 사용자 정의 기능 추가, 아키텍처 이해, 확장 지점 식별 및 통합 및 디버깅을위한 모범 사례에 중점을 둡니다.

PHP의 CURL 라이브러리를 사용하여 JSON 데이터가 포함 된 게시물 요청을 보내는 방법은 무엇입니까? Apr 01, 2025 pm 03:12 PM

PHP 개발에서 PHP의 CURL 라이브러리를 사용하여 JSON 데이터를 보내면 종종 외부 API와 상호 작용해야합니다. 일반적인 방법 중 하나는 컬 라이브러리를 사용하여 게시물을 보내는 것입니다 ...

확실한 원칙과 PHP 개발에 적용되는 방법을 설명하십시오. Apr 03, 2025 am 12:04 AM

PHP 개발에서 견고한 원칙의 적용에는 다음이 포함됩니다. 1. 단일 책임 원칙 (SRP) : 각 클래스는 하나의 기능 만 담당합니다. 2. Open and Close Principle (OCP) : 변경은 수정보다는 확장을 통해 달성됩니다. 3. Lisch의 대체 원칙 (LSP) : 서브 클래스는 프로그램 정확도에 영향을 미치지 않고 기본 클래스를 대체 할 수 있습니다. 4. 인터페이스 격리 원리 (ISP) : 의존성 및 사용되지 않은 방법을 피하기 위해 세밀한 인터페이스를 사용하십시오. 5. 의존성 반전 원리 (DIP) : 높고 낮은 수준의 모듈은 추상화에 의존하며 종속성 주입을 통해 구현됩니다.