php实战正则表达式（二）：提取html元素-tutorial php-php.cn

Jadual Kandungan

基本提取

提取包含指定内容的行

Rumah

pembangunan bahagian belakang

tutorial php

php实战正则表达式（二）：提取html元素

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 23, 2016 pm 01:26 PM

这篇文章通过提取html元素介绍了正则表达式中模式修饰符、贪婪匹配与非贪婪匹配、Unicode模式、环视等知识点。
在阅读这篇文章前最好把同系列文章php实战正则表达式（一）：验证手机号先仔细阅读一遍。

基本提取

有这样一个表格

用户名	职业
Kobe Bryant	篮球运动员
Jay Chou	歌手、词曲创作人、制作人、演员、导演
Lionel Messi	足球运动员

它的源码如下：

<table>  <thead>    <tr><th>用户名</th><th>职业</th></tr>  </thead>  <tbody>    <tr>      <td>Kobe Bryant</td><td>篮球运动员</td>    </tr>    <tr>      <td>Jay Chou</td><td>歌手、词曲创作人、制作人、演员、导演</td>    </tr>    <tr>      <td>Lionel Messi</td><td>足球运动员</td>    </tr>  </tbody></table>

Salin selepas log masuk

现在要提取

第一个元素。最简单的正则表达式应该是这样：

\s+.*

其中

\s是php实战正则表达式（一）：验证手机号介绍过的字符组简记法中的一个，代表回车符、空格、制表符等空白字符
量词+表示它所修饰的字符或字符组出现次数大于等于1
点号字符.在正则表达式中是一个特殊的元字符，它可以匹配“任意字符”
闭标签

中的斜线/在php的正则表达式中是模式分隔符，所以需要转义来表示斜线字符。

但实际上这样一个表达式是无法从上面的

中提取第一个元素的

这里主要的问题是在默认情况下点号字符.无法匹配换行符\n。有两个方法可以解决这个问题：

使用模式修饰符s，正则表达式为/
\s+.*/s或(?s) \s+.*。模式修饰符s的作用就是让点号字符.可以匹配换行符。

用[\s\S]或[\w\W]或[\d\D]代替点号字符.来匹配所有字符，正则表达式为

\s+[\s\S]*

关于模式修饰符（Pattern Modifiers），这里需要详细介绍一下（点击这里查看php支持的所有模式修饰符）。模式修饰符可以改变正则表达式的一些默认规则，常用的模式修饰符有i、s、U、u等，我们在后面会用到它们中的一些，这里不展开介绍每个模式修饰符的作用，后面用到了再具体介绍。这里主要对比一下/.../{modifier}与...(?{modifier})...两种表示方法的区别。

.*/s (?s).*

模式修饰符	/.../{modifier}	...(?{modifier})...
示例	/

名称（php手册）	模式修饰符	模式内修饰符
名称（《正则指引》）	预定义常量	模式修饰符
作用范围	整个正则表达式	不在分组（子表达式）中时，对它后面的全部正则表达式起作用；如果在分组（子表达式）中，则对它分组中的剩余部分起作用。在没有分组，且放在整个正则表达式最前面的时候相当于/.../{modifier}
支持程度	支持所有模式修饰符	支持部分模式修饰符
其他编程语言	可能不支持	一般都支持

从上面的gif中可以看到提取的结果中有三个tr，而不是只有一个。这是因为正则表达式中量词默认是贪婪匹配，在这里，.*会匹配一切字符，直到最后没有字符再向前回溯，回溯到

中的最后一个时与正则表达式中的相匹配，从而完成整个匹配过程，最后的结果也就是包含了三个。

可以使用模式修饰符U指定整个正则表达式为非贪婪模式，也可以使用非贪婪匹配量词指定某一个量词为非贪婪模式：

指定整个正则表达式为非贪婪模式：

/
\s+.*/Us
或(?Us)
\s+.*

非贪婪量词：
/

\s+.*?/s

完整的贪婪量词（匹配优先量词）与非贪婪量词（忽略优先量词）见下表：

贪婪量词	非贪婪量词	限定次数
*	*？	可能出现，可能不出现，出现次数没有上限
+	+？	至少出现1次，没有上限
?	??	出现0次或1次
{m,n}	{m,n}?	出现次数大于等于m，小于等于n
{m,}	{m,}?	至少出现m次，没有上限
{0,n}	{0,n}?	出现0次-n次

提取包含指定内容的行

假设我们想把表格中有关于运动员的记录都提取出来，我们可能会使用/

.*运动员.*/s这样的正则表达式。

这个表达式在Unicode编码环境下可以匹配出结果，但是在GBK环境下就未必了。我们可以通过模式修饰符u来指定Unicode模式：

.*运动员.*/us

在Unicode模式下，我们甚至可以使用码值来代替汉字：

.*\x{8fd0}\x{52a8}\x{5458}.*/us

php正则中使用\x{hex}的形式来表示Unicode字符的码值，使用码值的好处是可以结合字符组来表示一段范围，如[\x{4e00}-\x{9fff}]表示匹配所有汉字字符。

上面的表达式可以匹配出结果，但是却不正确。我们可以看到，它匹配了整个字符串的第一个

到最后一个。
直觉上，我们是想正则表达式先去匹配“运动员”，然后向左寻找最近的一个，向右寻找最近的一个。但事实上，正则表达式是从左往右匹配的，即从开始寻找，整个正则表达式的匹配情况见下表（空白字符没有显示出来）。

表达式	匹配值
/


.*		用户名	职业
Kobe Bryant	篮球
运动员	运动员
.*
Jay Chou	歌手、词曲创作人、制作人、演员、导演
Lionel Messi	足球运动员

/us

这里两个.*匹配到的字符都比预期要多。第二个.*匹配字符比预期多的原因是正则表达式默认是贪婪匹配模式，它会匹配剩余字符串中的每个字符，直到字符串的末尾，然后再向前回溯到最后一个

，可以通过指定非贪婪匹配模式来解决这个问题。但是第一个.*匹配字符比预期多是正常现象，因为正则表达式是从左向右匹配的，表达式中的匹配字符串中第一个，后面的.*则匹配剩余的所有字符，直到字符串的末尾，然后再向前回溯到“运动员”。

我们先看看使用非贪婪匹配时的结果：

可以看到，第二个.*匹配的字符已经是我们想要的了。那么，对于第一个.*匹配字符比预期多这个问题怎么解决呢？

如果仅使用到目前为止我的文章中介绍的知识，也是有方法可以解决的。我们可以先从左到右匹配出所有的行（

...），方法是使用php中的preg_match_all函数结合非贪婪匹配模式；然后再遍历每一行，过滤出其中包含“运动员”的行即可。

当然，我们也可以通过纯粹的正则表达式来解决这个问题。如果有一定正则表达式使用经验的朋友可能很容易联想到排除型字符组，我们介绍过字符组[...]，它表示在同一位置可能出现的字符。而排除型字符组则表示在同一位置不能出现的字符，它的形式是[^...]，通过紧跟在开方括号[后面的^来表示排除型字符组。例如，[^\d]表示匹配的字符是除了数字以外的任意字符。
如果有排除型子表达式，类似于(^

)*，我们只需要指定第一个.*把排除就行了。但是很遗憾，正则表达式中没有排除型子表达式或者说排除型分组。这种情况下，我们只能使用环视

(.(?! ))*运动员.*/Us

环视（look-around）不匹配任何字符，用来“停在原地，四处张望”。上面的表达式使用了否定顺序环视，它的形式是(?!...)。具体对于(.(?!

))*来分析，每当.匹配了一个字符后，就向右看看，如果当前匹配字符的右边没有出现就匹配成功。

完整的环视有：

名字	记法	含义
肯定顺序环视	(?=...)	向右看看，右边出现了环视中的内容才匹配
否定顺序环视	(?!...)	向右看看，右边不出现环视中的内容才匹配
肯定逆序环视	(?	向左看看，左边出现了环视中的内容才匹配
否定逆序环视	(?	向左看看，左边不出现环视中的内容才匹配

由于上面的正则表达式有一个分组（子表达式），所以匹配的结果除了下标0，还有下标1，这里下标1的结果其实没有什么用，我们可以用之前介绍过的非捕获分组：

(?:.(?! ))*运动员.*/Us

我们的真正目的是提取所有包含“运动员”的行，而上面只提取了第一个，所以需要将preg_match函数换成preg_match_all。

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

2 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Berapa lama masa yang diperlukan untuk mengalahkan fiksyen berpecah?

1 bulan yang lalu By DDD

R.E.P.O. Simpan Fail Lokasi: Di manakah & bagaimana untuk melindunginya?

1 bulan yang lalu By DDD

R.E.P.O. Tetapan grafik terbaik

2 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

1 minggu yang lalu By DDD

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7401

Tutorial Java

1630

Tutorial CakePHP

1358

Tutorial Laravel

1268

Tutorial PHP

1217

Tunjukkan Lagi

Related knowledge

Bekerja dengan Data Sesi Flash di Laravel Mar 12, 2025 pm 05:08 PM

Laravel memudahkan mengendalikan data sesi sementara menggunakan kaedah flash intuitifnya. Ini sesuai untuk memaparkan mesej ringkas, makluman, atau pemberitahuan dalam permohonan anda. Data hanya berterusan untuk permintaan seterusnya secara lalai: $ permintaan-

Curl dalam PHP: Cara Menggunakan Pelanjutan PHP Curl dalam API REST Mar 14, 2025 am 11:42 AM

Pelanjutan URL Pelanggan PHP (CURL) adalah alat yang berkuasa untuk pemaju, membolehkan interaksi lancar dengan pelayan jauh dan API rehat. Dengan memanfaatkan libcurl, perpustakaan pemindahan fail multi-protokol yang dihormati, php curl memudahkan execu yang cekap

Respons HTTP yang dipermudahkan dalam ujian Laravel Mar 12, 2025 pm 05:09 PM

Laravel menyediakan sintaks simulasi respons HTTP ringkas, memudahkan ujian interaksi HTTP. Pendekatan ini dengan ketara mengurangkan redundansi kod semasa membuat simulasi ujian anda lebih intuitif. Pelaksanaan asas menyediakan pelbagai jenis pintasan jenis tindak balas: Gunakan Illuminate \ Support \ Facades \ http; Http :: palsu ([ 'Google.com' => 'Hello World', 'github.com' => ['foo' => 'bar'], 'forge.laravel.com' =>

Cari muat turun fail di laravel dengan penyimpanan :: muat turun Mar 06, 2025 am 02:22 AM

Penyimpanan :: Kaedah Muat turun Rangka Kerja Laravel menyediakan API ringkas untuk mengendalikan muat turun fail dengan selamat sambil menguruskan abstraksi penyimpanan fail. Berikut adalah contoh menggunakan penyimpanan :: muat turun () dalam pengawal contoh:

12 skrip sembang php terbaik di codecanyon Mar 13, 2025 pm 12:08 PM

Adakah anda ingin memberikan penyelesaian segera, segera kepada masalah yang paling mendesak pelanggan anda? Sembang langsung membolehkan anda mempunyai perbualan masa nyata dengan pelanggan dan menyelesaikan masalah mereka dengan serta-merta. Ia membolehkan anda memberikan perkhidmatan yang lebih pantas kepada adat anda

Terangkan konsep pengikatan statik lewat dalam PHP. Mar 21, 2025 pm 01:33 PM

Artikel membincangkan pengikatan statik lewat (LSB) dalam PHP, yang diperkenalkan dalam Php 5.3, yang membolehkan resolusi runtime kaedah statik memerlukan lebih banyak warisan yang fleksibel. Isu: LSB vs polimorfisme tradisional; Aplikasi Praktikal LSB dan Potensi Perfo

Pembalakan PHP: Amalan Terbaik untuk Analisis Log PHP Mar 10, 2025 pm 02:32 PM

Pembalakan PHP adalah penting untuk memantau dan menyahpepijat aplikasi web, serta menangkap peristiwa kritikal, kesilapan, dan tingkah laku runtime. Ia memberikan pandangan yang berharga dalam prestasi sistem, membantu mengenal pasti isu -isu, dan menyokong penyelesaian masalah yang lebih cepat

Cara mendaftar dan menggunakan penyedia perkhidmatan Laravel Mar 07, 2025 am 01:18 AM

Bekas perkhidmatan dan penyedia perkhidmatan Laravel adalah asas kepada seni bina. Artikel ini meneroka bekas perkhidmatan, butiran pembekal perkhidmatan, pendaftaran, dan menunjukkan penggunaan praktikal dengan contoh. Kita akan mulakan dengan ove

See all articles