作者: bluedoor
原帖地址:http://www.anbbs.com/anbbs/index.php?f_id=3&page=1
这两天正在做一个关键字加亮显示的程序,写好的程序在本地测试也跑得好好的,可是一上去页面就出现一堆一堆的乱码,别说加亮了,简直就是没的看!
我就找错误,找来找去,发现英文没有问题,遇到汉字容易出问题,有的时候遇到汉字必出问题。
总结一下:
当使用模式匹配的时候,如:preg_match_all($pat,……)与preg_replace($pat,……)……
容易出问题的情况如下:
preg_match_all("/(汉字)+/ism","我是汉字,看你把我怎么着!",$m_a);
这个模式很简单就是匹配出“汉字”。这种情况模式中包含汉字可以成功匹配出来,但是也不要高兴得太早,结果不确定,为什么不确定你慢慢往下看。
必出现问题情况如下:
preg_match_all("/[汉字]+/ism","我是汉字,看你把我怎么着!",$m_a);
本想匹配出现“汉”、“字”或者“汉字”。这个必出现问题,匹配的结果一大群乱码,没准还会出个死循环呢。为什么会出现这种情况?是因为PHP内部使用不是UNICODE,不支持多字节文字,所以一个"汉字"就被当成4bytes的ASCII去进行模式匹配,不出错才怪呢!
后来我又试试重新写一下模式匹配,发现一种似乎(为什么说似乎?往后看)方法可以解决:
preg_match_all("/(汉|字)+/ism","我是汉字,看你把我怎么着!",$m_a);
这样写可以匹配出“汉”、“字”或者“汉字”,$m_a中的结果
Array
(
[0] => Array
(
[0] => 汉字