Jadual Kandungan
分割gbk中文出现乱码的问题解决,分割gbk中文乱码
Rumah pembangunan bahagian belakang tutorial php 分割gbk中文出现乱码的问题解决,分割gbk中文乱码_PHP教程

分割gbk中文出现乱码的问题解决,分割gbk中文乱码_PHP教程

Jul 12, 2016 am 08:58 AM
weblogic

分割gbk中文出现乱码的问题解决,分割gbk中文乱码

近日遇到一个神奇的字“弢(tao)”。

具体的过程是这样的:

<span>1</span> <span>$list</span> = <span>explode</span>('|', 'abc弢|bc'<span>);
</span><span>2</span> <span>var_dump</span>(<span>$list</span>);
Salin selepas log masuk

取得这个分割的结果。

和想象不同,结果居然是这样:

<span>array</span>(3<span>) {
  [</span>0]=>
  <span>string</span>(4) "<span>abc?
  [1]=>
  string(0) </span>""<span>
  [2]=>
  string(2) </span>"bc"<span>
}</span>
Salin selepas log masuk
Salin selepas log masuk

出现了乱码,而且莫名其妙的出现了一个空元素。

究其原因,原来这个字“弢”的gbk编码是8f7c,而|的ASCII是7c,这样explode就把弢的第二ASCII作为|切割了。

既然是双字节的问题,我们用mbstring解决好了。

可惜,php并没有mb_explode这种函数,找了找,找到一个mb_split。

<span>array</span> mb_split ( <span>string</span> <span>$pattern</span> , <span>string</span> <span>$string</span> [, int <span>$limit</span> = -1 ] )
Salin selepas log masuk

没有声明编码的地方。仔细一看,他是通过mb_regex_encoding声明编码的。

于是写出以下的代码:

<span>1</span> mb_regex_encoding('gbk'<span>);
</span><span>2</span> <span>$list</span> = mb_split('\|', 'abc弢|bc'<span>);
</span><span>3</span> <span>var_dump</span>(<span>$list</span>);
Salin selepas log masuk

结果php报错,mb_regex_encoding不认识gbk,囧。

那就使用它认识的:

<span>1</span> mb_regex_encoding('gb2312'<span>);
</span><span>2</span> <span>$list</span> = mb_split('\|', 'abc弢|bc'<span>);
</span><span>3</span> <span>var_dump</span>(<span>$list</span>);
Salin selepas log masuk

结果:

<span>array</span>(3<span>) {
  [</span>0]=>
  <span>string</span>(4) "<span>abc?
  [1]=>
  string(0) </span>""<span>
  [2]=>
  string(2) </span>"bc"<span>
}</span>
Salin selepas log masuk
Salin selepas log masuk

发现,这种方法并没有什么用处。、

至于原因?“弢”这个字居然不在GB2312的编码集里面!!!!!但是有这个字的编码集(GBK, GB18030)这个函数都不支持!!!!!

既然这个不好用,也许万能的正则表达式是ok的。于是得到以下代码:

<span>1</span> <span>var_dump</span>(<span>preg_match_all</span>('/([^\|])*/', 'abc弢|bc', <span>$matches</span><span>));
</span><span>2</span> <span>var_dump</span>(<span>$matches</span>);
Salin selepas log masuk

结果:

int(2<span>)
</span><span>array</span>(2<span>) {
  [</span>0]=>
  <span>array</span>(2<span>) {
    [</span>0]=>
    <span>string</span>(4) "<span>abc?
    [1]=>
    string(2) </span>"bc"<span>
  }
  [1]=>
  array(2) {
    [0]=>
    string(1) </span>"?<span>
    [</span>1]=>
    <span>string</span>(1) "c"<span>
  }
}</span>
Salin selepas log masuk

好吧,我想多了。

现在研究一下,如何用正则描述这个场景。

参考一下,鸟哥大神的博客:分割GBK中文遭遇乱码的解决。遗憾的是,正则能力比较low的我,还是想不出来合适的正则表达式(如果有想出这个正则表达式的大神们,希望可以告诉我)。

没办法,思来想去,只好用substr了:

<span> 1</span> <span>function</span> mb_explode(<span>$delimiter</span>, <span>$string</span>, <span>$encoding</span> = <span>null</span><span>){
</span><span> 2</span>     <span>$list</span> = <span>array</span><span>();
</span><span> 3</span>     <span>is_null</span>(<span>$encoding</span>) && <span>$encoding</span> =<span> mb_internal_encoding();
</span><span> 4</span>     <span>$len</span> = mb_strlen(<span>$delimiter</span>, <span>$encoding</span><span>);
</span><span> 5</span>     <span>while</span>(<span>false</span> !== (<span>$idx</span> = mb_strpos(<span>$string</span>, <span>$delimiter</span>, 0, <span>$encoding</span><span>))){
</span><span> 6</span>         <span>$list</span>[] = mb_substr(<span>$string</span>, 0, <span>$idx</span>, <span>$encoding</span><span>);
</span><span> 7</span>         <span>$string</span> = mb_substr(<span>$string</span>, <span>$idx</span> + <span>$len</span>, <span>null</span>, <span>$encoding</span><span>);
</span><span> 8</span> <span>    }   
</span><span> 9</span>     <span>$list</span>[] = <span>$string</span><span>;
</span><span>10</span>     <span>return</span> <span>$list</span><span>; 
</span><span>11</span> } 
Salin selepas log masuk

测试代码:

<span>1</span> <span>$a</span> = 'abc弢|bc'<span>;
</span><span>2</span> 
<span>3</span> <span>var_dump</span>(mb_explode('|', <span>$a</span>, 'gbk'<span>));
</span><span>4</span> <span>var_dump</span>(mb_explode('bc', <span>$a</span>, 'gbk'<span>));
</span><span>5</span> <span>var_dump</span>(mb_explode('弢', <span>$a</span>, 'gbk'));
Salin selepas log masuk

结果:

<span>array</span>(2<span>) {
  [</span>0]=>
  <span>string</span>(5) "abc弢"<span>
  [</span>1]=>
  <span>string</span>(2) "bc"<span>
}
</span><span>array</span>(3<span>) {
  [</span>0]=>
  <span>string</span>(1) "a"<span>
  [</span>1]=>
  <span>string</span>(3) "弢|"<span>
  [</span>2]=>
  <span>string</span>(0) ""<span>
}
</span><span>array</span>(2<span>) {
  [</span>0]=>
  <span>string</span>(3) "abc"<span>
  [</span>1]=>
  <span>string</span>(3) "|bc"<span>
}</span>
Salin selepas log masuk

这样就可以得到正确的结果了。

www.bkjia.comtruehttp://www.bkjia.com/PHPjc/1102849.htmlTechArticle分割gbk中文出现乱码的问题解决,分割gbk中文乱码 近日遇到一个神奇的字弢(tao)。 具体的过程是这样的: 1 $list = explode ('|', 'abc弢|bc' ); 2...
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Cara Membuka Segala -galanya Di Myrise
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Curl dalam PHP: Cara Menggunakan Pelanjutan PHP Curl dalam API REST Curl dalam PHP: Cara Menggunakan Pelanjutan PHP Curl dalam API REST Mar 14, 2025 am 11:42 AM

Pelanjutan URL Pelanggan PHP (CURL) adalah alat yang berkuasa untuk pemaju, membolehkan interaksi lancar dengan pelayan jauh dan API rehat. Dengan memanfaatkan libcurl, perpustakaan pemindahan fail multi-protokol yang dihormati, php curl memudahkan execu yang cekap

12 skrip sembang php terbaik di codecanyon 12 skrip sembang php terbaik di codecanyon Mar 13, 2025 pm 12:08 PM

Adakah anda ingin memberikan penyelesaian segera, segera kepada masalah yang paling mendesak pelanggan anda? Sembang langsung membolehkan anda mempunyai perbualan masa nyata dengan pelanggan dan menyelesaikan masalah mereka dengan serta-merta. Ia membolehkan anda memberikan perkhidmatan yang lebih pantas kepada adat anda

Terangkan konsep pengikatan statik lewat dalam PHP. Terangkan konsep pengikatan statik lewat dalam PHP. Mar 21, 2025 pm 01:33 PM

Artikel membincangkan pengikatan statik lewat (LSB) dalam PHP, yang diperkenalkan dalam Php 5.3, yang membolehkan resolusi runtime kaedah statik memerlukan lebih banyak warisan yang fleksibel. Isu: LSB vs polimorfisme tradisional; Aplikasi Praktikal LSB dan Potensi Perfo

Jelaskan JSON Web Tokens (JWT) dan kes penggunaannya dalam PHP API. Jelaskan JSON Web Tokens (JWT) dan kes penggunaannya dalam PHP API. Apr 05, 2025 am 12:04 AM

JWT adalah standard terbuka berdasarkan JSON, yang digunakan untuk menghantar maklumat secara selamat antara pihak, terutamanya untuk pengesahan identiti dan pertukaran maklumat. 1. JWT terdiri daripada tiga bahagian: header, muatan dan tandatangan. 2. Prinsip kerja JWT termasuk tiga langkah: menjana JWT, mengesahkan JWT dan muatan parsing. 3. Apabila menggunakan JWT untuk pengesahan di PHP, JWT boleh dijana dan disahkan, dan peranan pengguna dan maklumat kebenaran boleh dimasukkan dalam penggunaan lanjutan. 4. Kesilapan umum termasuk kegagalan pengesahan tandatangan, tamat tempoh, dan muatan besar. Kemahiran penyahpepijatan termasuk menggunakan alat debugging dan pembalakan. 5. Pengoptimuman prestasi dan amalan terbaik termasuk menggunakan algoritma tandatangan yang sesuai, menetapkan tempoh kesahihan dengan munasabah,

Ciri -ciri Keselamatan Rangka Kerja: Melindungi Kelemahan. Ciri -ciri Keselamatan Rangka Kerja: Melindungi Kelemahan. Mar 28, 2025 pm 05:11 PM

Artikel membincangkan ciri -ciri keselamatan penting dalam rangka kerja untuk melindungi daripada kelemahan, termasuk pengesahan input, pengesahan, dan kemas kini tetap.

Menyesuaikan/Memperluas Rangka Kerja: Cara Menambah Fungsi Custom. Menyesuaikan/Memperluas Rangka Kerja: Cara Menambah Fungsi Custom. Mar 28, 2025 pm 05:12 PM

Artikel ini membincangkan menambah fungsi khusus kepada kerangka kerja, memberi tumpuan kepada pemahaman seni bina, mengenal pasti titik lanjutan, dan amalan terbaik untuk integrasi dan debugging.

Bagaimana cara menghantar permintaan pos yang mengandungi data JSON menggunakan perpustakaan php curl? Bagaimana cara menghantar permintaan pos yang mengandungi data JSON menggunakan perpustakaan php curl? Apr 01, 2025 pm 03:12 PM

Menghantar data JSON menggunakan perpustakaan Curl PHP dalam pembangunan PHP, sering kali perlu berinteraksi dengan API luaran. Salah satu cara biasa ialah menggunakan perpustakaan curl untuk menghantar post ...

See all articles