PHP常用用的六个处理正则表达式函数-PHP源码-php.cn

在php中我们经常会用到正则这一块，但php也给我提供了大量的支持正则表达式的函数，各有各的功能和说明，下面我们来了解一下。

它们都把一个正则表达式作为它们的第一个参数，列出如下：
ereg: 最常用的正则表达式函数, ereg 允许我们搜索跟一个正则表达式匹配的一个字符串.
ereg_replace: 允许我们搜索跟正则表达式匹配的一个字符串，并用新的字符串代替所有这个表达式出现的地方。
eregi: 和ereg几乎是一样效果，不过忽略大小写。
eregi_replace: 和ereg_replace有着一样的搜索-替换功能，不过忽略大小写.
split: 允许我们搜索和正则表达式匹配的字符串，并且以字符串集合的方式返回匹配结果.
spliti: split函数忽略大小写的版本.
为什么使用正则表达式?
如果你不断地建立不同的函数来检查或者操作字符串的一部分，现在你可能要放弃所有的这些函数，取而代之的用正则表达式。如果你对下列的问题都答“是的”，那么你肯定要考虑使用正则表达式了：
你是否正在写一些定制的函数来检查表单数据（比如在电子信箱地址中的一个@，一个点）?
你是否写一些定制的函数，在一个字符串中循环每个字符，如果这个字符匹配了一个特定特征（比如它是大写的，或者它是一个空格），那么就替换它?
除了是令人不舒服的字符串检查和操作方法，如果没有有效率地写代码，上述的两条也会使你的程序慢下来。你是否更倾向于用下面的代码检查一个电子信箱地址呢:

代码如下	复制代码
function validateEmail($email) { $hasAtSymbol = strpos($email, "@"); $hasDot = strpos($email, "."); if($hasAtSymbol && $hasDot) return true; else return false; } echo validateEmail("mitchell@devarticles.com"); ?>

... 或者使用下面的代码:

代码如下	复制代码
function validateEmail($email) { return ereg("^[a-zA-Z]+@[a-zA-Z]+.[a-zA-Z]+$", $email); } echo validateEmail("mitchell@devarticles.com"); ?>

可以肯定的是，第一个函数比较容易，而且看起来结构也不错。但是如果我们用上面的下一个版本的email地址检查函数不是更容易吗？
上面展示的第二个函数只用了正则表达式，包括了对ereg函数的一个调用。Ereg 函数返回true或者false,来声明它的字符串参数是否和正则表达式相匹配。
很多编程者避开正则表达式，只因为它们（在一些情况下）比其它的文本处理方法更慢。正则表达式可能慢的原因是因为它们涉及把字符串在内存中拷贝和粘贴，因为正则表达式的每一个新的部分都对应匹配一个字符串。但是，从我对正则表达式的经验来说，除非你在文本中几百个行运行一个复杂的正则表达式，否则性能上的缺陷都可以忽略不计，当把正则表达式作为输入数据检查工具时，也很少出现这种情况。
正则表达式语法
在你可以匹配一个字符串到正则表达式之前，你必须先建立正则表达式。开始的时候，正则表达式的语法有点古怪，表达式中的每一个短语代表某个类型的搜索特征。下列是一些最普通的正则表达式，也都对应着一个如何使用它的例子:
字符串头部
搜索一个字符串的头部，用^,例如

代码如下	复制代码

将返回 true, 但是

代码如下	复制代码

将返回 false, 因为hello不在字符串”I say hello world”的头部。
字符串尾部
搜索字符串尾部，用$,例如：

代码如下	复制代码

将返回true, 但是

代码如下	复制代码

将返回 false,因为bye不在字符串”goodbye my friend”的尾部.
任意的单个字符
搜索任意字符，用点(.),例如：

代码如下	复制代码

将返回true,但是

代码如下	复制代码

将返回false,因为我们的要搜索字符串没有包含字符。你可以用花括号随意告诉正则表达式引擎它要匹配多少个单个字符。如果我只想匹配5个字符，我可以这样用ereg:

代码如下	复制代码

上面的这段代码告诉正则表达式引擎当且仅当至少5个连续的字符出现字符串的尾部时返回true.我们也可以限制连续出现的字符的数目：

代码如下	复制代码

在上面的例子里，我们已经告诉正则表达式引擎，我们的搜索字符串来匹配表达式，它在尾部必须有介于1和3个的”a”字符。

代码如下	复制代码

上面的例子将不会返回true，虽然有三个”a”字符在搜索字符串里，但是它们不是在字符串的尾部。如果我们把结尾字符串匹配$从正则表达式中去掉，那么这个字符串是匹配的。
我们也可以告诉正则表达式引擎来匹配至少有确定数目的字符在一行，如果它们存在的，可以匹配更多。我们可以这样做：

代码如下	复制代码

零或多次重复字符
为了告诉正则表达式引擎一个字符可能存在，也可以重复，我们用*字符。这里的两个例子都将返回true.

代码如下	复制代码

即使第二个例子不包含”t”这个字符，但仍旧返回ture,因为*表示字符可以出现，但不是必须出现。事实上，任何普通的字符串模式都会使上面的ereg调用返回true，因为’t’字符是可选的.
一或多次重复字符
为了告诉正则表达式引擎一个字符必须存在，也可以重复不止一次，我们用+字符，像

代码如下	复制代码

下面的例子也会返回true:

代码如下	复制代码

零或一次重复字符
我们也可以告诉正则表达式引擎，一个字符必须是或者只存在一次，或者没有。我们用?字符来做这项工作，就像

代码如下	复制代码

如果我们愿意，我们完全可以从上面的搜索字符串中删除’c’，这个表达式会仍旧返回true.’?’ 的意思是一个’c’可以出现在搜索字符串的任何地方，但不是必须的。
正则表达式语法 (续)
空格字符
为了匹配一个搜索字符串中的空格字符，我们用预定义Posix的类，[[:space]].方括号标明连续字符的相关性，”:space:”是实际要匹配的类（在这种情形下，是任何空白字符）。空白包括tab字符，新行字符，空白字符。或者，如果搜索字符串必须包含只有一个空格，而不是一个tab或者新行字符，你可以用一个空格字符(" ")。在大多数情况下，我倾向于使用":space:"，因为这意味着我的意图不仅仅是单个空格字符，这点很容易被忽视。这里有一些Posix-标准预定义类，
有一些我们可以作为正则表达式的部分的一些Posix-标准预定义类，包括[:alnum:], [:digit:], [:lower:]等等。完整的列表可以在这里查看
我们可以像这样匹配单个空白字符：

代码如下	复制代码

我们也可以通过在表达式后用?字符来告诉正则表达式引擎匹配没有空白或者一个空白。

代码如下	复制代码

模式分组
相关的模式可以在方括号里分在一起。很容易用[a-z]和[A-Z]指定只有一个小写字母或者一列大写字母以搜索字符串的一部分存在。

代码如下	复制代码
// 要求从第一个到最后一个都是小写字母 echo ereg("^[a-z]+$", "johndoe"); // 返回true ?> 或者像 // 要求从第一个到最后一个都是大写字母 ereg("^[A-Z]+$", "JOHNDOE"); // 返回 true? ?>

我们也可以告诉正则表达式引擎，我们希望或者是小写字母，或者是大写字母。我们只要把[a-z]和[A-Z]模式结合在一起就可以做到。

代码如下	复制代码

在上面的例子里，如果我们能匹配"John Doe",而不是"JohnDoe"，将是非常有意义的。我们用下面的正则表达式来做这个：

代码如下	复制代码
^[a-zA-Z]+[[:space:]]{1}[a-zA-Z]+$ 很容易搜索一个数字字符串

词语分组
不仅仅搜索模式可以分组，我们也可以用圆括号把相关的搜索词语进行分组。

代码如下	复制代码

在上面的例子中，我们有一个字符串头部字符，紧跟着"John"或者"Jane",至少有一个其它字符，然后一个字符串尾部字符。所以…

代码如下	复制代码

...将也匹配我们的搜索模式
特殊字符的情形
因为一些字符要用在一个搜索模式的明确分组或者语法上，像在(John|Jane)中的圆括号，我们需要告诉正则表达式引擎来屏蔽这些字符，加工它们使之成为被搜索字符串的一部分，而不是搜索表达式的一部分。我们所用的方法称为“字符转义”，涉及到将任何“专用符号”加上反斜杠。所以，例如，如果我想在我的搜索中包含’|’，那么我就可以这样做

代码如下	复制代码

这里只是少量的一些你要转义的字符，你必须转义^, $, (, ), ., [, |, *, ?, +, and { 。
希望你现在对正则表达式实际上有多么强大有了一点点感觉了。现在让我们看两个用正则表达式来检查数据中一个字符串的例子。
正则表达式例子
例子1
让我们把第一个例子做的相当简单，检验一个标准的URL.一个标准的URL(没有端口号),有三个部分构成：
[协议]://[域名]
让我们从匹配URL的协议部分开始,并且让它只能用http或者ftp.我们可以用下面的正则表达式做到这点：
^(http|ftp)
^字符特指字符串的头部，利用圆括号把http和ftp围住，且用“或者”符号(|)将它们分开，我们告诉正则表达式引擎http和ftp两者之一必须在字符串的开头。
一个域名通常由www.111cn.net构成，但是可以随意选择要不要www部分。为了例子简单，我们只允许.com,.net,和.org的域名是在考虑之中的。我们最好这样对正则表达式中的域名部分表示如下：
(www.)?.+.(com|net|org)$
把所有的东西放在一起，我们的正则表达式就可以用作检查一个域名，如：

代码如下	复制代码
function isValidDomain($domainName) { return ereg("^(http\|ftp)://(www.)?.+.(com\|net\|org)$", $domainName); } //真(true) echo isValidDomain("http://www.111cn.net"); //真(true) echo isValidDomain("ftp://www.111cn.net"); //假 (false) echo isValidDomain("ftp://www.hzhuti.fr"); //假 (false) echo isValidDomain("www.111cn.net"); ?>

例子二
因为我居住在澳大利亚悉尼，让我们检查一个典型的澳大利亚国际电话号码。澳大利亚国际电话号码的格式如下：
+61x xxxx-xxxx
第一个x是区号，其它的都是电话号码。检查以'+61'开头且紧跟一个在2到9之间的区号的电话号码，我们用下面的正则表达式：
^+61[2-9][[:space:]]
注意，上面的搜索模式把'+'字符用''转义，以便于可以在搜索中包含，不至于被解释为一个正则表达式。[2-9]告诉正则表达式引擎我们需要包含一个2到9之间的数字。[[:space:]]类则告诉正则表达式期望在这里有一个空白。
这里是电话号码剩下的搜索模式：
[0-9]{4}-[0-9]{4}$
这里没有什么不寻常的地方，我们只是告诉正则表达式引擎电话号码可用的数字，它必须是4个数字的组合，跟着一个连接符，再跟着另一个4个数字的组合，然后一个字符串尾部字符。
把完整的正则表达式放在一起，放进一个函数，我们可以用代码来检查一些澳大利亚国际电话号码：

代码如下	复制代码
function isValidPhone($phoneNum) { echo ereg("^+61[2-9][[:space:]][0-9]{4}-[0-9]{4}$", $phoneNum); } // 真（true） echo isValidPhone("+619 0000-0000"); // 假（false） echo isValidPhone("+61 00000000"); //假（ false） echo isValidPhone("+611 00000000"); ?>

匹配中文字符的正则表达式： [u4e00-u9fa5]
评注：匹配中文还真是个头疼的事，有了这个表达式就好办了
匹配双字节字符(包括汉字在内)：[^x00-xff]
评注：可以用来计算字符串的长度（一个双字节字符长度计2，ASCII字符计1）
匹配空白行的正则表达式：ns*r
评注：可以用来删除空白行
匹配HTML标记的正则表达式：]*>.*?|
评注：网上流传的版本太糟糕，上面这个也仅仅能匹配部分，对于复杂的嵌套标记依旧无能为力
匹配首尾空白字符的正则表达式：^s*|s*$
评注：可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等)，非常有用的表达式
匹配Email地址的正则表达式：w+([-+.]w+)*@w+([-.]w+)*.w+([-.]w+)*
评注：表单验证时很实用
匹配网址URL的正则表达式：[a-zA-z]+://[^s]*
评注：网上流传的版本功能很有限，上面这个基本可以满足需求
匹配帐号是否合法(字母开头，允许5-16字节，允许字母数字下划线)：^[a-zA-Z][a-zA-Z0-9_]$
评注：表单验证时很实用
匹配国内电话号码：d-d|d-d
评注：匹配形式如 0511-4405222 或 021-87888822
匹配腾讯QQ号：[1-9][0-9]
评注：腾讯QQ号从10000开始
匹配中国邮政编码：[1-9]d(?!d)
评注：中国邮政编码为6位数字
匹配身份证：d|d
评注：中国的身份证为15位或18位
匹配ip地址：d+.d+.d+.d+
评注：提取ip地址时有用
匹配特定数字：
^[1-9]d*$　　 //匹配正整数
^-[1-9]d*$ 　 //匹配负整数
^-?[1-9]d*$　　 //匹配整数
^[1-9]d*|0$　 //匹配非负整数（正整数 + 0）
^-[1-9]d*|0$　　 //匹配非正整数（负整数 + 0）
^[1-9]d*.d*|0.d*[1-9]d*$　　 //匹配正浮点数
^-([1-9]d*.d*|0.d*[1-9]d*)$　 //匹配负浮点数
^-?([1-9]d*.d*|0.d*[1-9]d*|0?.0+|0)$　 //匹配浮点数
^[1-9]d*.d*|0.d*[1-9]d*|0?.0+|0$　　 //匹配非负浮点数（正浮点数 + 0）
^(-([1-9]d*.d*|0.d*[1-9]d*))|0?.0+|0$　　//匹配非正浮点数（负浮点数 + 0）
评注：处理大量数据时有用，具体应用时注意修正
匹配特定字符串：
^[A-Za-z]+$　　//匹配由26个英文字母组成的字符串
^[A-Z]+$　　//匹配由26个英文字母的大写组成的字符串
^[a-z]+$　　//匹配由26个英文字母的小写组成的字符串
^[A-Za-z0-9]+$　　//匹配由数字和26个英文字母组成的字符串
^w+$　　//匹配由数字、26个英文字母或者下划线组成的字符串