php—PCRE正则表达式重复/量词
重复次数是通过量词指定的,可以紧跟在下面元素之后:
单独的字符, 可以是经过转义的
元字符。
字符类
后向引用(参加下一部分)
子组(除非它是一个断言)
一般的重复量词指定了一个最小数值和一个最大数值的匹配次数, 通过花括号包裹两个数字,两个数字之间用逗号隔开的语法定义。 两个数值都必须小于 65536, 并且第一个数字必须小于等于第二个。 比如: z{2,4} 匹配 ”zz”, “zzz”, “zzzz”。 单个的右花括号不是特殊字符。 如果第二个数字被省略,但是逗号仍然存在,就代表没有上限; 如果第二个数字和逗号都被省略,那么这个量词就限定的是一个确定次数的匹配。 比如 [aeiou]{3,} 匹配至少三个连续的元音字母,但是同时也可以匹配更多, 而 \d{8} 则只能匹配 8 个数字。 左花括号出现在不允许使用量词的位置或者与量词语法不匹配时, 被认为是一个普通字符,对它自身进行原文匹配。 比如,{,6}就不是一个量词, 会按照原文匹配四个字符 ”{,6}”。
量词 {0} 是被授权的,它会导致的行为是认为前面的项和量词不存在。
为了方便(以及历史的兼容性),最常用的三个量词都有单字符缩写。
单字符量词
* 等价于 {0,}
+ 等价于 {1,}
? 等价于 {0,1}
可以通过一个不匹配任何字符的子模式后面紧跟一个匹配 0 或多个字符的量词来构造一个没有上限的无限循环。 比如:(a?)*
早期版本的 perl 和 pcre 对于这种模式会在编译期得到一个错误。然而, 由于这在某些情况下是有用的,因此现在也接受这种模式了, 但是如果任何子模式的重复确实匹配不到任何字符,循环会被强制跳出。
默认情况下,量词都是”贪婪”的,也就是说, 它们会在不导致模式匹配失败的前提下,尽可能多的匹配字符(直到最大允许的匹配次数)。 这种问题的典型示例就是尝试匹配C语言的注释。 出现在 /* 和 */ 之间的所有内容都被认为是注释, 在注释中间, 可以允许出现单独的 * 和 /。 对C注释匹配的一个尝试是使用模式 /\*.*\*/, 假设将此模式应用在字符串 ”/* first comment*/ not comment /*second comment*/” 它会匹配到错误的结果,也就是整个字符串, 这是因为量词的贪婪性导致的,它会尝试尽可能多的匹配字符。
然而,如果一个量词紧跟着一个 ?(问号) 标记,它就会成为懒惰(非贪婪)模式, 它不再尽可能多的匹配,而是尽可能少的匹配。 因此模式 /\*.*?\*/ 在 C 的注释匹配上将会正确的执行。 各个量词自身的意义并不会改变,而是由于加入了 ? 使其首选的匹配次数发生改变。 不要将 ? 的这个用法和它作为量词的用法混淆。因为它又两种用法, 因此有时它会出现量词,比如 \d??\d 会更倾向于匹配一个数字, 但同时如果为了达到整个模式匹配的目的,它也可以接受两个数字的匹配。译注: 以模式 \w\d??\d\w 为例,对于字符串 ”a33a”,虽然 \d?? 是非贪婪的, 但由于如果使用贪婪会导致整个模式不匹配,所以, 最终它选择的仍然是匹配到一个数字。
如果 PCRE_UNGREEDY 选项被设置(一个在 perl 中不可用的选项), 那么量词默认情况下就是非贪婪的了。但是, 单个的量词可以通过紧跟一个 ? 来使其成为贪婪的。换句话说, PCRE_UNGREEDY 这个选项逆转了贪婪的默认行为。
量词后面紧跟一个 ”+” 是”占有”性。它会吃掉尽可能多的字符, 并且不关注后面的其他模式,比如 .*abc 匹配 ”aabc”, 但是 .*+abc 不会匹配, 因为 .*+ 会吃掉整个字符串,从而导致后面剩余的模式得不到匹配。 自PHP 4.3.3 起, 可以使用占有符 (+) 修饰量词来达到提升速度的目的。
当一个子组受最小数量大于 1 或有一个最大数量限制的量词修饰时, 按照最小或最大的数量的比例需要更多的存储用于编译模式。
如果一个模式以 .* 或 .{0,} 开始并且 PCRE_DOTALL 选项开启(等价于 perl 的/s), 也就是允许.匹配换行符,那么模式会隐式的紧固,因为不管怎么样, 接下来都会对目标字符串中的每个字符位置进行尝试,因此在第一次之后, 在任何位置都不会有一个对所有匹配重试的点。 PCRE 会想对待 \A 一样处理这个模式。 在我们已知目标字符串没有包含换行符的情况下, 当模式以 .* 开始的时候我们为了获得这个优化,值得设置 PCRE_DOTALL, 或者选择使用 ^ 明确指明锚定。
译注:这里的优化指模式不匹配之后,不会回头再来查找下一个位置, 比如没有设置 PCRE_DOTALL,并且目标字符串第一个字符时换行符, 那么模式尝试第一个字符,发现不匹配, 会重新用模式从第二个字符位置开始进行尝试。 而使用了PCRE_DOTALL后, 是肯定匹配的….同理,当使用了 ^ 或者 /A的限定是,模式一旦不匹配,都可以直接退出, 而不用在目标字符串下一个位置再一次开始整个模式的匹配。
当一个捕获子组时重复的时,捕获到的该子组的结果是最后一次迭代捕获的值。比如, (tweedle[dume]{3}\s*)+匹配字符串 ”tweedledum tweedledee”, 得到的的子组捕获结果是 ”tweedledee”。然而,如果是嵌套的捕获子组, 相应的捕获值可能会被设置到之前的迭代中。比如,/(a|(b))+/ 匹配字符串 ”aba”, 第二个捕获子组得到的结果会是 ”b”。译注:不理解然而之后的部分,以例子说明, b 是第二个子组最后一次捕获到的结果,所以, 第二个子组最后结果是 b, 这是符合”然而”之前描述的规则的。

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

本教程演示了如何使用PHP有效地处理XML文档。 XML(可扩展的标记语言)是一种用于人类可读性和机器解析的多功能文本标记语言。它通常用于数据存储

JWT是一种基于JSON的开放标准,用于在各方之间安全地传输信息,主要用于身份验证和信息交换。1.JWT由Header、Payload和Signature三部分组成。2.JWT的工作原理包括生成JWT、验证JWT和解析Payload三个步骤。3.在PHP中使用JWT进行身份验证时,可以生成和验证JWT,并在高级用法中包含用户角色和权限信息。4.常见错误包括签名验证失败、令牌过期和Payload过大,调试技巧包括使用调试工具和日志记录。5.性能优化和最佳实践包括使用合适的签名算法、合理设置有效期、

静态绑定(static::)在PHP中实现晚期静态绑定(LSB),允许在静态上下文中引用调用类而非定义类。1)解析过程在运行时进行,2)在继承关系中向上查找调用类,3)可能带来性能开销。

字符串是由字符组成的序列,包括字母、数字和符号。本教程将学习如何使用不同的方法在PHP中计算给定字符串中元音的数量。英语中的元音是a、e、i、o、u,它们可以是大写或小写。 什么是元音? 元音是代表特定语音的字母字符。英语中共有五个元音,包括大写和小写: a, e, i, o, u 示例 1 输入:字符串 = "Tutorialspoint" 输出:6 解释 字符串 "Tutorialspoint" 中的元音是 u、o、i、a、o、i。总共有 6 个元

PHP的魔法方法有哪些?PHP的魔法方法包括:1.\_\_construct,用于初始化对象;2.\_\_destruct,用于清理资源;3.\_\_call,处理不存在的方法调用;4.\_\_get,实现动态属性访问;5.\_\_set,实现动态属性设置。这些方法在特定情况下自动调用,提升代码的灵活性和效率。

PHP和Python各有优势,选择依据项目需求。1.PHP适合web开发,尤其快速开发和维护网站。2.Python适用于数据科学、机器学习和人工智能,语法简洁,适合初学者。

PHP在电子商务、内容管理系统和API开发中广泛应用。1)电子商务:用于购物车功能和支付处理。2)内容管理系统:用于动态内容生成和用户管理。3)API开发:用于RESTfulAPI开发和API安全性。通过性能优化和最佳实践,PHP应用的效率和可维护性得以提升。

PHP是一种广泛应用于服务器端的脚本语言,特别适合web开发。1.PHP可以嵌入HTML,处理HTTP请求和响应,支持多种数据库。2.PHP用于生成动态网页内容,处理表单数据,访问数据库等,具有强大的社区支持和开源资源。3.PHP是解释型语言,执行过程包括词法分析、语法分析、编译和执行。4.PHP可以与MySQL结合用于用户注册系统等高级应用。5.调试PHP时,可使用error_reporting()和var_dump()等函数。6.优化PHP代码可通过缓存机制、优化数据库查询和使用内置函数。7
