javascript - 关于正则表达式（零宽度负向断言(?!p)）的一个问题

Question

问题： 有字符串：“python php ruby javascript jsonp perhapsphpisoutdated”对于该字符串，使用纯正则获取 所有带p 但是不能包含ph 的单词 输出数组 [ 'python', 'javascript', 'jsonp' ] 这个问题想了比较久，...

伊谢尔伦 · Answer

\b((?!ph|\s).)*((p[^h\s]((?!ph|\s).)*)|p)\b/g
\b 是边界字符

所以每一个单词对应的匹配是:
((?!ph|\s).)*((p[^h\s]((?!ph|\s).)*)|p)

把这个表达式拆成三部分：

((?!ph|\s).)*
(p[^h\s]((?!ph|\s).)*)
p

表达式里出现最多的是 ((?!ph|\s).)* 我们来分析一下

《javascript权威指南》里讲： (?!p) 是零宽度负向先行断言，表示接下来的字符不与 p 匹配

这里的 零宽度 是指 它本身不占用匹配：
可能这一点比较难理解，举个例子，比如：

计算"1234".match(/((?!34).)*/)的值

第一次(?!34)之前没有东西、忽略，只对.进行匹配，匹配到"1",字符串剩余"234"
对"234"进行匹配，测试"23"是否匹配?!里的"34"，结果不匹配，继续进行，"23"没有被消耗，接下来的.匹配到"2",
对"34"进行匹配，由于"34"匹配?!里的"34"，匹配终止

整个表达式的匹配结果是"12"

结论：/((?!p).)*/形式的表达式匹配到的字符串是p之前的部分

这里再来看之前的三个表达式：

((?!ph|\s).)*
(p[^h\s]((?!ph|\s).)*)
p

第一个表达式表示匹配单词中 "ph" 或空格之前的尽量长的字符
第二个表达式匹配单词中 "p" 及之后的字符，要求 "p" 之后的第一个字符不能为 "h"，并且同样要求不匹配到 "ph"
第三个表达式匹配单独的 "p" 字符，因为之前的匹配中最短能匹配到的形式是 p[^h\s]，至少为两个字符，而单个"p"字符楼主的要求但未被包括在内，所以单独匹配

梳理一下就会发现，上面的匹配的三个表达式都不匹配 "ph", 但其中一定会有 "p"，完全符合题主的要求

补充

问题1 匹配到的结果中包含其它值？

数组的第一项是整个表达式的匹配结果，其他项是括号分组得到的

问题2 `/(.(?!34))/` 和 `/((?!34).)/` 的区别？

/(.(?!34))*/比/((?!34).)*/少匹配一个数字

在匹配"1234"字符串时，第一次都匹配到"1"，第二次匹配时"(.(?!34))*"里的.消耗了"2"导致"34"的负向断言错误，结果"2"也不会匹配，因为外面的括号要求它里面的所有内容匹配，才会匹配，所以整个表达式最终只匹配到"1"

天蓬老师 · Answer

/\b([^p\s]*p(?!h)[^p\s]*)+\b/g

[ 'python', 'javascript', 'jsonp' ]

大家讲道理 · Answer

var str = 'python php ruby javascript jsonp perhapsphpisoutdated';
var reg = /\b(\w*(p[^h\s](?!ph))\w*)\b/g;
str.match(reg);
// => ["python", "javascript", "perhapsphpisoutdated"]

\b为边界字符，范围为\w和\W之间的字符。

()标识的是子表达式。

(?!)标识的是反向先行断言，和子表达式不同是先行断言并不会被记录。

[^]标识的是取不满足条件的集合

所以上面的正则意思为取边界之间的含有『p』但是后面紧跟的字符串不是『h』或『空格』，同时后面也不含有『ph』的字符串

PHP中文网 · Answer

看到还是有些关注度的，我把我总结的一些关于零宽断言正则的问题的一些习题丢上来吧

// 正则填空
// 找到所有不含d的单词
var str = "aebec abcdef csasw";
    reg = /\b((?!d|\s)\w)+\b/g

    console.log(str.match(reg));

// 找到所有含有a的单词
var str = "nodejs 7k7k webkit beta a cvacpso";
    reg = /\b\w*a\w*\b/g;

    console.log(str.match(reg))

// 找到所有含有a或b的单词
var str = "zoo zpark tecent baidu a b ab";
    reg = /\b\w*[a|b]\w*\b/g;

    console.log(str.match(reg))

// 找到所有含有a和b的单词
var str = "cocopark javascript asloboy background a ab b";
    reg = /\b(\w*a\w*b\w*)|(\w*b\w*a\w*)\b/g;

    console.log(str.match(reg))

// 找到所有含有a但不含b的单词
var str = "account github jsonp ruby javascript a ab";
    reg = /\b((?!b|\s)\w)*(a((?!b|\s)\w)*|a)\b/g;

    console.log(str.match(reg));

// 找到所有含有a和b 但是不含c的单词
var str = "avatar blackcoder nba abc absx 7a7b7q background a b";
    reg = /\b((?!c|\s)\w)*(a((?!c|\s)\w)*b((?!c|\s)\w)*|b((?!c|\s)\w)*a((?!c|\s)\w)*)\b/g


    console.log(str.match(reg));

// 找到所有不含c和d的单词
var str = "abop cjsd cd ab ioaoapb listablso cd c d";
    reg = /\b((?!c|\s)(?!d|\s)\w)+\b/g;

    console.log(str.match(reg));

// 找到所有不含c或d的单词
var str = "abc aslotang imweb python c d cd";
    reg = /\b((?!c|d|\s)\w)+\b/g;

    console.log(str.match(reg))

全部亲自测试过

补充

补充

问题1 匹配到的结果中包含其它值？

问题2 /(.(?!34))*/ 和 /((?!34).)*/ 的区别？

问题2 `/(.(?!34))/` 和 `/((?!34).)/` 的区别？