PHPがページを処理する際、iconvやmb_convertなどの関数を使って文字セットを変換しますが、これには実は前提があります。つまり、正しい変換を実行するには、入力および出力のエンコードが何であるかを事前に知っておく必要があります。
ほとんどの変換は gbk と utf-8 の間で行われますが、変換オブジェクトのエンコーディングがわからない場合はどうすればよいでしょうか? Google は、UTF8 と GBK のエンコーディングを簡単に識別できる関数safeEncoding を考案しました。この関数はある程度正確ですが、より複雑な環境で使用するのはそれほど簡単ではありません。以下では、GBK と UTF-8 エンコードの違いを組み合わせ、正規表現を使用して UTF-8 エンコードを決定し、mb_convert_encoding を使用します。中国では最も一般的なエンコーディングは GBK と UTF-8 であるため、この関数はこれら 2 つのエンコーディングを自動的に変換します。
- /**
- * ソースURL: http://www.xuehuwang.com/read-450.html
- * 著者: Xuehu Blog
- * @ string 変換するテキスト
- * @ encoding ターゲットエンコーディング
- **/
- function detect_encoding($string,$encoding = 'gbk'){
- $is_utf8 = preg_match('%^(?:[x09x0Ax0Dx20-x7E]| [xC2-xDF] [x80-xBF]| [xE1-xECxEExEF][x80-xBF]{2} | ]{3} | xF4[x80-x8F][x80-xBF]{2} )*$%xs', $string);
- if ($is_utf8 && $encoding == 'utf8'){
- return $string;
- }elseif($is_utf8){
- return mb_convert_encoding($string, $encoding, "UTF-8");
- }else{
- return mb_convert_encoding ($string, $encoding, 'gbk,gb2312,big5');
- }
-
-
コードをコピー
|