PHP字符串mbstring处理中文字符串的具体方法解析-php手册-php.cn

PHP字符串mbstring处理中文字符串的具体方法解析

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

リリース： 2016-06-13 11:07:21

オリジナル

1169 人が閲覧しました

大家通过对多国语言并存就意味着多字节，PHP内置的字符串长度函数strlen无法正确处理中文字符串，它得到的只是字符串所占的字节数。对于GB2312的中文编码，strlen得到的值是汉字个数的2倍，而对于UTF-8编码的中文，就是1~3倍的差异了。

采用PHP字符串mbstring可以较好地解决这个问题。mb_strlen的用法和strlen类似，只不过它有第二个可选参数用于指定字符编码。例如得到UTF-8的字符串$str长度，可以用mb_strlen($str,’UTF-8′)。如果省略第二个参数，则会使用PHP的内部编码。内部编码可以通过mb_internal_encoding()函数得到，设置有两种方式：

1. 在php.ini中设置mbstring.internal_encoding = UTF-8
2. 调用mb_internal_encoding(”GBK”)

除了PHP字符串mbstring,还有很多切割函数，其中mb_substr是按字来切分字符，而mb_strcut是按字节来切分字符，但是都不会产生半个字符的现象。而且从函数切割对长度的作用也不同，mb_strcut的切割条件是小于strlen, mb_substr是等于strlen，看下面的例子，

<ol class="dp-xml">
<li class="alt"><span><span class="tag"><span> ?  </span></span></span></li>
<li>
<span>$</span><span class="attribute">str</span><span> = ‘我是一串比较长的中文-www.jefflei.com’;  </span>
</li>
<li class="alt"><span>echo “mb_substr:” . mb_substr($str, 0, 6, ‘utf-8′);  </span></li>
<li><span>echo ”  </span></li>
<li class="alt"><span>“;  </span></li>
<li><span>echo “mb_strcut:” . mb_strcut($str, 0, 6, ‘utf-8′);  </span></li>
<li class="alt">
<span class="tag">?></span><span> </span>
</li>
<li><span> </span></li>
</ol>

ログイン後にコピー

输出如下：
mb_substr：我是一串比较
mb_strcut：我是

需要注意的是，PHP字符串mbstring并不是PHP核心函数，使用前需要确保在php编译模块时加入mbstring的支持：
(1)编译时使用–enable-mbstring
(2)修改/usr/local/lib/php.inc
default_charset = “zh-cn”
mbstring.language = zh-cn
mbstring.internal_encoding =zh-cn

PHP字符串mbstring类库内容比较多，还包括mb_ send_ mail 之类的email处理函数等