首頁 > 後端開發 > php教程 > GD輸出漢字的函數的分析_PHP教程

GD輸出漢字的函數的分析_PHP教程

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB
發布: 2016-07-21 16:07:50
原創
809 人瀏覽過

    很早就找到一個把GB碼轉換為UTF-8的函數,配合一個GB到UNICODE的對照表(gb2312.txt),用於在GD中輸出漢字。後來發現在欲輸出的內容中含有西文字符時,會出現混亂。後來找到了修改後的程式碼,解決了問題。現將兩個函數做一比較分析如下。

首先,這是一個UNICODE到UTF-8編碼轉換的函數,這一部分修改前後沒有變化:
function u2utf8($c)
{
for($i=0 ;$i$str="";
if ($c $str.=$c;
}
else if ($c $str.=(0xC0 | $c>>6);
$str.=(0x80 | $c & 0x3F);
}
else if ($c $str.=(0xE0 | $c>>12);
$str.=(0x80 | $c>>6 & 0x3F);
$str. =(0x80 | $c & 0x3F);
}
else if ($c $str.=(0xF0 | $c>>18);
$str.= (0x80 | $c>>12 & 0x3F);
$str.=(0x80 | $c>>6 & 0x3F);
$str.=(0x80 | $c & 0x3F);
$str.=(0x80 | $c & 0x3F);
}
return $str;
}

這裡完全是依照UTF-8編碼的規則,透過判斷字元屬於不同的UNICODE編碼段範圍,進行不同的移位和位元與操作,以轉化為UTF-8編碼。關於此規則可參考http://www.utf8.org/上的說明。

這是修改前的GB轉換為UTF-8編碼的函數,其中呼叫了上面的u2utf8函數。
function gb2utf8($gb)     /* Program writen by sadly www.phpx.com  */
{
if(!trim($gb))
returnb; ="gb2312.txt";
$tmp=file($filename);
$codetable=array();
while(list($key,$value)=each($tmp))
$codetable[hexdec(substr($value,0,6))]=substr($value,7,6);
$utf8="";
while($gb)
{
if (ord(substr($gb,0,1))>127)
{
$this=substr($gb,0,2);
$gb=substr($gb ,2,strlen($gb));
$utf8.=u2utf8(hexdec($codetable[hexdec(bin2hex($this))-0x8080]));
}
else
{
$gb=substr($gb,1,strlen($gb));
$utf8.=u2utf8(substr($gb,0,1));
}
}

$ret="";
for($i=0;$i$ret.=chr(substr($utf8,$i ,3));

return $ret;
}
函數中while循環部分,把漢字逐一依照「對照表」轉換為UNICODE,再經由u2utf8函數轉換為UTF-8。但從中可以看出,while循環結束後,又用一個for循環,把每三個位元組合成了一個UTF-8字符(見http://www.utf8.org/上的規則說明,每個漢字的UTF-8編碼為三位元組),沒有考慮到其中的西文字符(西文字符的UTF-8編碼為一位元組)。所以,如果欲輸出的內容中不論是開始時出現西文字符,或是漢字當中穿插西文字符,轉化為UTF-8後,都會被按照“每三個字節截取”的方式截開,導致亂碼。


以下是修改後的函數:
function gb2utf8($gb)    /* Program writen by sadly   mod$ by agun */{!🎜>($a; ))
return $gb;
$filename="gb2312.txt";
$tmp=file($filename);
$codetable=array();
while(list( $key,$value)=each($tmp))
$codetable[hexdec(substr($value,0,6))]=substr($value,7,6);

$ ret="";
$utf8="";
while($gb)
{
if (ord(substr($gb,0,1))>127)
{
$this=substr($gb,0,2);
$gb=substr($gb,2,strlen($gb));
$utf8=u2utf8(hexdec($codetable[hexdec (bin2hex($this))-0x8080]));
for($i=0;$i$ret.=chr(substr($utf8 ,$i,3));
}
else
{
$ret.=substr($gb,0,1);
$gb=substr($gb,1, strlen($gb));
}
}
return $ret;
}

修改後的函數將GB轉換為UNICODE、UNICODE轉換為UTF-8、幾個位元組合成一個UTF-8字符,這三個步驟在一個循環裡完成,尤其是幾個位元組合成一個UTF-8字符這一步驟,放在判斷了字符屬於西文還是屬於漢字的條件分支裡,據此決定截取一個位元組還是三個位元組。於是結果正確了!


http://www.bkjia.com/PHPjc/315045.html

truehttp: //www.bkjia.com/PHPjc/315045.htmlTechArticle很早就找到一個把GB碼轉換為UTF-8的函數,配合一個GB到UNICODE的對照表(gb2312.txt),用於在GD中輸出漢字。後來發現在欲輸出的內容中含有...
來源:php.cn
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
最新問題
Ubuntu git提交出現這個介面怎麼退出
來自於 1970-01-01 08:00:00
0
0
0
隊列到底是後進先出,還是先進先出?
來自於 1970-01-01 08:00:00
0
0
0
出錯了
來自於 1970-01-01 08:00:00
0
0
0
php出現亂碼
來自於 1970-01-01 08:00:00
0
0
0
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板