分割gbk中文出现乱码的问题解决,分割gbk中文乱码_PHP教程
分割gbk中文出现乱码的问题解决,分割gbk中文乱码
近日遇到一个神奇的字“弢(tao)”。
具体的过程是这样的:
<span>1</span> <span>$list</span> = <span>explode</span>('|', 'abc弢|bc'<span>); </span><span>2</span> <span>var_dump</span>(<span>$list</span>);
取得这个分割的结果。
和想象不同,结果居然是这样:
<span>array</span>(3<span>) { [</span>0]=> <span>string</span>(4) "<span>abc? [1]=> string(0) </span>""<span> [2]=> string(2) </span>"bc"<span> }</span>
出现了乱码,而且莫名其妙的出现了一个空元素。
究其原因,原来这个字“弢”的gbk编码是8f7c,而|的ASCII是7c,这样explode就把弢的第二ASCII作为|切割了。
既然是双字节的问题,我们用mbstring解决好了。
可惜,php并没有mb_explode这种函数,找了找,找到一个mb_split。
<span>array</span> mb_split ( <span>string</span> <span>$pattern</span> , <span>string</span> <span>$string</span> [, int <span>$limit</span> = -1 ] )
没有声明编码的地方。仔细一看,他是通过mb_regex_encoding声明编码的。
于是写出以下的代码:
<span>1</span> mb_regex_encoding('gbk'<span>); </span><span>2</span> <span>$list</span> = mb_split('\|', 'abc弢|bc'<span>); </span><span>3</span> <span>var_dump</span>(<span>$list</span>);
结果php报错,mb_regex_encoding不认识gbk,囧。
那就使用它认识的:
<span>1</span> mb_regex_encoding('gb2312'<span>); </span><span>2</span> <span>$list</span> = mb_split('\|', 'abc弢|bc'<span>); </span><span>3</span> <span>var_dump</span>(<span>$list</span>);
结果:
<span>array</span>(3<span>) { [</span>0]=> <span>string</span>(4) "<span>abc? [1]=> string(0) </span>""<span> [2]=> string(2) </span>"bc"<span> }</span>
发现,这种方法并没有什么用处。、
至于原因?“弢”这个字居然不在GB2312的编码集里面!!!!!但是有这个字的编码集(GBK, GB18030)这个函数都不支持!!!!!
既然这个不好用,也许万能的正则表达式是ok的。于是得到以下代码:
<span>1</span> <span>var_dump</span>(<span>preg_match_all</span>('/([^\|])*/', 'abc弢|bc', <span>$matches</span><span>)); </span><span>2</span> <span>var_dump</span>(<span>$matches</span>);
结果:
int(2<span>) </span><span>array</span>(2<span>) { [</span>0]=> <span>array</span>(2<span>) { [</span>0]=> <span>string</span>(4) "<span>abc? [1]=> string(2) </span>"bc"<span> } [1]=> array(2) { [0]=> string(1) </span>"?<span> [</span>1]=> <span>string</span>(1) "c"<span> } }</span>
好吧,我想多了。
现在研究一下,如何用正则描述这个场景。
参考一下,鸟哥大神的博客:分割GBK中文遭遇乱码的解决。遗憾的是,正则能力比较low的我,还是想不出来合适的正则表达式(如果有想出这个正则表达式的大神们,希望可以告诉我)。
没办法,思来想去,只好用substr了:
<span> 1</span> <span>function</span> mb_explode(<span>$delimiter</span>, <span>$string</span>, <span>$encoding</span> = <span>null</span><span>){ </span><span> 2</span> <span>$list</span> = <span>array</span><span>(); </span><span> 3</span> <span>is_null</span>(<span>$encoding</span>) && <span>$encoding</span> =<span> mb_internal_encoding(); </span><span> 4</span> <span>$len</span> = mb_strlen(<span>$delimiter</span>, <span>$encoding</span><span>); </span><span> 5</span> <span>while</span>(<span>false</span> !== (<span>$idx</span> = mb_strpos(<span>$string</span>, <span>$delimiter</span>, 0, <span>$encoding</span><span>))){ </span><span> 6</span> <span>$list</span>[] = mb_substr(<span>$string</span>, 0, <span>$idx</span>, <span>$encoding</span><span>); </span><span> 7</span> <span>$string</span> = mb_substr(<span>$string</span>, <span>$idx</span> + <span>$len</span>, <span>null</span>, <span>$encoding</span><span>); </span><span> 8</span> <span> } </span><span> 9</span> <span>$list</span>[] = <span>$string</span><span>; </span><span>10</span> <span>return</span> <span>$list</span><span>; </span><span>11</span> }
测试代码:
<span>1</span> <span>$a</span> = 'abc弢|bc'<span>; </span><span>2</span> <span>3</span> <span>var_dump</span>(mb_explode('|', <span>$a</span>, 'gbk'<span>)); </span><span>4</span> <span>var_dump</span>(mb_explode('bc', <span>$a</span>, 'gbk'<span>)); </span><span>5</span> <span>var_dump</span>(mb_explode('弢', <span>$a</span>, 'gbk'));
结果:
<span>array</span>(2<span>) { [</span>0]=> <span>string</span>(5) "abc弢"<span> [</span>1]=> <span>string</span>(2) "bc"<span> } </span><span>array</span>(3<span>) { [</span>0]=> <span>string</span>(1) "a"<span> [</span>1]=> <span>string</span>(3) "弢|"<span> [</span>2]=> <span>string</span>(0) ""<span> } </span><span>array</span>(2<span>) { [</span>0]=> <span>string</span>(3) "abc"<span> [</span>1]=> <span>string</span>(3) "|bc"<span> }</span>
这样就可以得到正确的结果了。

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

PHP客户端URL(curl)扩展是开发人员的强大工具,可以与远程服务器和REST API无缝交互。通过利用Libcurl(备受尊敬的多协议文件传输库),PHP curl促进了有效的执行

您是否想为客户最紧迫的问题提供实时的即时解决方案? 实时聊天使您可以与客户进行实时对话,并立即解决他们的问题。它允许您为您的自定义提供更快的服务

文章讨论了PHP 5.3中引入的PHP中的晚期静态结合(LSB),从而允许静态方法的运行时分辨率调用以获得更灵活的继承。 LSB的实用应用和潜在的触摸

JWT是一种基于JSON的开放标准,用于在各方之间安全地传输信息,主要用于身份验证和信息交换。1.JWT由Header、Payload和Signature三部分组成。2.JWT的工作原理包括生成JWT、验证JWT和解析Payload三个步骤。3.在PHP中使用JWT进行身份验证时,可以生成和验证JWT,并在高级用法中包含用户角色和权限信息。4.常见错误包括签名验证失败、令牌过期和Payload过大,调试技巧包括使用调试工具和日志记录。5.性能优化和最佳实践包括使用合适的签名算法、合理设置有效期、

使用PHP的cURL库发送JSON数据在PHP开发中,经常需要与外部API进行交互,其中一种常见的方式是使用cURL库发送POST�...
