php实战正则表达式(二):提取html元素
这篇文章通过提取html元素介绍了正则表达式中模式修饰符、贪婪匹配与非贪婪匹配、Unicode模式、环视等知识点。
在阅读这篇文章前最好把同系列文章php实战正则表达式(一):验证手机号先仔细阅读一遍。
基本提取
有这样一个表格
用户名 | 职业 |
---|---|
Kobe Bryant | 篮球运动员 |
Jay Chou | 歌手、词曲创作人、制作人、演员、导演 |
Lionel Messi | 足球运动员 |
它的源码如下:
<table> <thead> <tr><th>用户名</th><th>职业</th></tr> </thead> <tbody> <tr> <td>Kobe Bryant</td><td>篮球运动员</td> </tr> <tr> <td>Jay Chou</td><td>歌手、词曲创作人、制作人、演员、导演</td> </tr> <tr> <td>Lionel Messi</td><td>足球运动员</td> </tr> </tbody></table>
现在要提取
第一个其中
\s是php实战正则表达式(一):验证手机号介绍过的字符组简记法中的一个,代表回车符、空格、制表符等空白字符
量词+表示它所修饰的字符或字符组出现次数大于等于1
点号字符.在正则表达式中是一个特殊的元字符,它可以匹配“任意字符”
闭标签
但实际上这样一个表达式是无法从上面的
中提取第一个这里主要的问题是在默认情况下点号字符.无法匹配换行符\n。有两个方法可以解决这个问题:
-
使用模式修饰符s,正则表达式为/
\s+.*/s或(?s) \s+.*。模式修饰符s的作用就是让点号字符.可以匹配换行符。 用[\s\S]或[\w\W]或[\d\D]代替点号字符.来匹配所有字符,正则表达式为
\s+[\s\S]* 中的最后一个时与正则表达式中的相匹配,从而完成整个匹配过程,最后的结果也就是包含了三个关于模式修饰符(Pattern Modifiers),这里需要详细介绍一下(点击这里查看php支持的所有模式修饰符)。模式修饰符可以改变正则表达式的一些默认规则,常用的模式修饰符有i、s、U、u等,我们在后面会用到它们中的一些,这里不展开介绍每个模式修饰符的作用,后面用到了再具体介绍。这里主要对比一下/.../{modifier}与...(?{modifier})...两种表示方法的区别。
模式修饰符 /.../{modifier} ...(?{modifier})... 示例 / .*/s (?s).* 名称(php手册) 模式修饰符 模式内修饰符 名称(《正则指引》) 预定义常量 模式修饰符 作用范围 整个正则表达式 不在分组(子表达式)中时,对它后面的全部正则表达式起作用;如果在分组(子表达式)中,则对它分组中的剩余部分起作用。在没有分组,且放在整个正则表达式最前面的时候相当于/.../{modifier} 支持程度 支持所有模式修饰符 支持部分模式修饰符 其他编程语言 可能不支持 一般都支持 从上面的gif中可以看到提取的结果中有三个tr,而不是只有一个。这是因为正则表达式中量词默认是贪婪匹配,在这里,.*会匹配一切字符,直到最后没有字符再向前回溯,回溯到
。 可以使用模式修饰符U指定整个正则表达式为非贪婪模式,也可以使用非贪婪匹配量词指定某一个量词为非贪婪模式:
-
指定整个正则表达式为非贪婪模式:
-
/
\s+.*/Us 或(?Us)
\s+.* 非贪婪量词:
\s+
/.*?/s 完整的贪婪量词(匹配优先量词)与非贪婪量词(忽略优先量词)见下表:
贪婪量词 非贪婪量词 限定次数 * *? 可能出现,可能不出现,出现次数没有上限 + +? 至少出现1次,没有上限 ? ?? 出现0次或1次 {m,n} {m,n}? 出现次数大于等于m,小于等于n {m,} {m,}? 至少出现m次,没有上限 {0,n} {0,n}? 出现0次-n次 提取包含指定内容的行
假设我们想把表格中有关于运动员的记录都提取出来,我们可能会使用/
.*运动员.*/s这样的正则表达式。 这个表达式在Unicode编码环境下可以匹配出结果,但是在GBK环境下就未必了。我们可以通过模式修饰符u来指定Unicode模式:
/
.*运动员.*/us 在Unicode模式下,我们甚至可以使用码值来代替汉字:
/
.*\x{8fd0}\x{52a8}\x{5458}.*/us php正则中使用\x{hex}的形式来表示Unicode字符的码值,使用码值的好处是可以结合字符组来表示一段范围,如[\x{4e00}-\x{9fff}]表示匹配所有汉字字符。
上面的表达式可以匹配出结果,但是却不正确。我们可以看到,它匹配了整个字符串的第一个
到最后一个 。
直觉上,我们是想正则表达式先去匹配“运动员”,然后向左寻找最近的一个,向右寻找最近的一个 。但事实上,正则表达式是从左往右匹配的,即从开始寻找,整个正则表达式的匹配情况见下表(空白字符没有显示出来)。 ,可以通过指定非贪婪匹配模式来解决这个问题。但是第一个.*匹配字符比预期多是正常现象,因为正则表达式是从左向右匹配的,表达式中的表达式 匹配值 / .* 用户名 职业 Kobe Bryant 篮球 运动员 运动员 .* Jay Chou 歌手、词曲创作人、制作人、演员、导演 Lionel Messi 足球运动员 /us 这里两个.*匹配到的字符都比预期要多。第二个.*匹配字符比预期多的原因是正则表达式默认是贪婪匹配模式,它会匹配剩余字符串中的每个字符,直到字符串的末尾,然后再向前回溯到最后一个
匹配字符串中第一个 ,后面的.*则匹配剩余的所有字符,直到字符串的末尾,然后再向前回溯到“运动员”。 我们先看看使用非贪婪匹配时的结果:
可以看到,第二个.*匹配的字符已经是我们想要的了。那么,对于第一个.*匹配字符比预期多这个问题怎么解决呢?
如果仅使用到目前为止我的文章中介绍的知识,也是有方法可以解决的。我们可以先从左到右匹配出所有的行(
... ),方法是使用php中的preg_match_all函数结合非贪婪匹配模式;然后再遍历每一行,过滤出其中包含“运动员”的行即可。当然,我们也可以通过纯粹的正则表达式来解决这个问题。如果有一定正则表达式使用经验的朋友可能很容易联想到排除型字符组,我们介绍过字符组[...],它表示在同一位置可能出现的字符。而排除型字符组则表示在同一位置不能出现的字符,它的形式是[^...],通过紧跟在开方括号[后面的^来表示排除型字符组。例如,[^\d]表示匹配的字符是除了数字以外的任意字符。
如果有排除型子表达式,类似于(^)*,我们只需要指定第一个.*把 排除就行了。但是很遗憾,正则表达式中没有排除型子表达式或者说排除型分组。这种情况下,我们只能使用环视 /
(.(?! ))*运动员.*/Us 环视(look-around)不匹配任何字符,用来“停在原地,四处张望”。上面的表达式使用了否定顺序环视,它的形式是(?!...)。具体对于(.(?!
))*来分析,每当.匹配了一个字符后,就向右看看,如果当前匹配字符的右边没有出现 就匹配成功。 完整的环视有:
名字 记法 含义 肯定顺序环视 (?=...) 向右看看,右边出现了环视中的内容才匹配 否定顺序环视 (?!...) 向右看看,右边不出现环视中的内容才匹配 肯定逆序环视 (? 向左看看,左边出现了环视中的内容才匹配 否定逆序环视 (? 向左看看,左边不出现环视中的内容才匹配 由于上面的正则表达式有一个分组(子表达式),所以匹配的结果除了下标0,还有下标1,这里下标1的结果其实没有什么用,我们可以用之前介绍过的非捕获分组:
/
(?:.(?! ))*运动员.*/Us 我们的真正目的是提取所有包含“运动员”的行,而上面只提取了第一个,所以需要将preg_match函数换成preg_match_all。
-

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











Laravel은 직관적 인 플래시 방법을 사용하여 임시 세션 데이터 처리를 단순화합니다. 응용 프로그램에 간단한 메시지, 경고 또는 알림을 표시하는 데 적합합니다. 데이터는 기본적으로 후속 요청에만 지속됩니다. $ 요청-

PHP 클라이언트 URL (CURL) 확장자는 개발자를위한 강력한 도구이며 원격 서버 및 REST API와의 원활한 상호 작용을 가능하게합니다. PHP CURL은 존경받는 다중 프로모토콜 파일 전송 라이브러리 인 Libcurl을 활용하여 효율적인 execu를 용이하게합니다.

Laravel은 간결한 HTTP 응답 시뮬레이션 구문을 제공하여 HTTP 상호 작용 테스트를 단순화합니다. 이 접근법은 테스트 시뮬레이션을보다 직관적으로 만들면서 코드 중복성을 크게 줄입니다. 기본 구현은 다양한 응답 유형 단축키를 제공합니다. Illuminate \ support \ Facades \ http를 사용하십시오. http :: 가짜 ([ 'google.com'=> 'Hello World', 'github.com'=> [ 'foo'=> 'bar'], 'forge.laravel.com'=>

Storage :: Laravel Framework의 다운로드 방법은 파일 스토리지의 추상화를 관리하는 동안 파일 다운로드를 안전하게 처리하기위한 간결한 API를 제공합니다. 다음은 예제 컨트롤러에서 Storage :: download ()를 사용하는 예입니다.

고객의 가장 긴급한 문제에 실시간 인스턴트 솔루션을 제공하고 싶습니까? 라이브 채팅을 통해 고객과 실시간 대화를 나누고 문제를 즉시 해결할 수 있습니다. 그것은 당신이 당신의 관습에 더 빠른 서비스를 제공 할 수 있도록합니다.

기사는 PHP 5.3에 도입 된 PHP의 LSB (Late STATIC BING)에 대해 논의하여 정적 방법의 런타임 해상도가보다 유연한 상속을 요구할 수있게한다. LSB의 실제 응용 프로그램 및 잠재적 성능

PHP 로깅은 웹 애플리케이션을 모니터링하고 디버깅하고 중요한 이벤트, 오류 및 런타임 동작을 캡처하는 데 필수적입니다. 시스템 성능에 대한 귀중한 통찰력을 제공하고 문제를 식별하며 더 빠른 문제 해결을 지원합니다.

Laravel의 서비스 컨테이너 및 서비스 제공 업체는 아키텍처의 기본입니다. 이 기사는 서비스 컨테이너, 세부 정보 서비스 제공 업체 생성, 등록 및 예제와 함께 실질적인 사용을 보여줍니다. 우리는 ove로 시작합니다
