UTF編碼
UTF-8就是以8位元為單元對UCS進行編碼。從UCS-2到UTF-8的編碼方式如下:
UCS-2編碼(16進位)
UTF-8 位元組流(二進位)
0000 - 007F
0xxxxxxx
0080 - 07FF
110xxxxx 10xxxxxx
0800 - FFFF
1110xxxx 10xxxxxx 10xxxxxx
例如「漢」字的Uni了:1110xxxx 10xxxxxx 10xxxxxx。將6C49寫成二進位是:0110 110001 001001, 用這個位元流依序取代模板中的x,得到:11100110 10110001 10001001,即E6 B1 89。
終於將unicode和utf8互轉搞定。
如果utf-8編碼的字元ch是3個位元組。 xx yy zz
將xx和1F AND 操作得到a
將yy和7F AND 操作得到b
將zz和7F AND 操作得到c
(64a+b)*64+c = ch (unicode編碼)
echo.php沒什麼。就是幾個函數。
");
//寫入unicode檔案
$ucs2data = utf8ToUnicode($data,"little");
$endian = chr(0xFE).chr(0xFF);
$endian = chr(0xFE).chr(0xFF);
$endian = chr(0xFF).chr(0xFE);
$rt = file_put_contents ( "ucs2.txt", $endian.$ucs2data);
//19:32,utf8toUnicodeok.
//20:09。 🎜>$rt = file_put_contents ( "usc2ys_data.txt", $ucs2_ysdata);
//寫入utf8檔案
$utf8data = unicodeToUtf8($ucs2data); // 20:52. 將字串轉回碼ok.
$rt = file_put_contents ( "utf8.txt", $utf8data);
echo(urlencode($utf8data));echo("");
$esc = utf8Escape($data) ;
echot($esc);
$esc = phpEscape($data);
echot($esc);
$unesc = phpUnescape($esc);
echot($unesc );
/**
* 此函數將utf8編碼字串轉為unicode編碼字串
* 參數 str ,utf8編碼的字串。
* 參數 order,存放資料格式,是big endian還是little endian,預設的unicode存放次序是little.
* 如:"大"的unicode碼是 5927。 little方式存放即為:27 59 。 big方式則順序不變:59 27.
* little 存放格式檔案的開頭均需有FF FE。 big 存放方式的文件開頭為 FE FF。否則。將會產生嚴重混亂。
* 本函數只轉換字符,不負責增加頭部。
* iconv轉換過來的字串是 big endian存放的。
* 回傳 ucs2string , 轉換過的字串。
* 感謝嘮叨(xuzuning)
*/
function utf8ToUnicode($str,$order="little")
{
$ucs2string ="";
$n=strlen( $str);
for ($i=0;$i0x80) { //110xxxxx 10xxxxxx
$a = (ord($str[$i]) & 0x3F )0x80 && ord($str[$i +2])>0x80) { //1110xxxx 10xxxxxx 10xxxxxx
$a = (ord($str[$i]) & 0x1F)轉為utf8編碼字串
* 參數str ,unicode編碼的字串。
* 參數 order ,unicode字符串的存放次序,為big endian還是little endian.
* 回傳 utf8string , 轉換過的字串。
*
*/
function unicodeToUtf8($str,$order="little")
{
$utf8string ="";
$n=strlen($str);
for ($i=0;$i 轉回來。
$i++; // 兩個位元組表示一個unicode字元。
$c = "";
if($val utf8string . = $c;
}
return $utf8string;
} // end func
/*
* utf8編碼的字串編碼為unicode 碼型,等同escape
*之所以只接受utf8碼,因為只有utf8碼和unicode之間有公式轉換,其他的編碼都得查碼表來轉換。 * 雖然呼叫utf2ucs對每個字元進行碼值計算。 utf8Escape($str) {
preg_match_all("/[\xC0-\xE0].|[\xE0-\xF0]..|[\x01-\x7f]+/",$str,$r);
//prt($r);
$ar = $r[0];
foreach($ar as $k=>$v) {
$ord = ord($v[ 0]);
if( $ordutf8碼
$ar[$k] = "%u".utf2ucs($v);
}
elseif ($ordutf8碼
$ar [$k] = "%u".utf2ucs($v);
}
}//foreach
return join("",$ar);
}
/**
*
* 把utf8編碼字元轉為ucs-2編碼
* 參數utf8編碼的字元。將字元弄出來了。反位和。
*/
function utf2ucs($str){
$n=strlen($str);
if ($n=3) {
$highCode = ord($str[0 ]);
$midCode = ord($str[1]);
$lowCode = ord($str[2]);
$a = 0x1F & $highCode;
$b = 0x7F & $midCode;
$c = 0x7F & $lowCode;
$ucsCode = (64*$a + $b)*64 + $c;
}
elseif ($n== 2) {
$highCode = ord($str[0]);
$lowCode = ord($str[1]);
$a = 0x3F & $highCode; //0x3F是0xC0的補數
$b = 0x7F & $lowCode; //0x7F是0x80的補數
$ucsCode = 64*$a + $b;
}
elseif($n==1) {
$ucscode = ord($str);
}
return dechex($ucsCode);
}
/*
* 用處:此函式用來逆轉javascript的escape函數編碼後的字元。
* 關鍵的正規查找我不知道有沒有問題.
* 參數:javascript編碼過的字串。
* 如:unicodeToUtf8("%u5927")= 大
* 2005-12-10
*
*/
function phpUnescape($escstr){
p/matchm %u[0-9A-Za-z]{4}|%.{2}|[0-9a-zA-Z.+-_]+/",$escstr,$matches); //prt($ matches);
$ar = &$matches[0];
$c = "";
foreach($ar as $val){
if (substr($val,0,1 )!="%") { //如果是字母數字+-_.的ascii碼
$c .=$val;
}
elseif (substr($val,1,1)! ="u") { //如果是非字母數字+-_.的ascii碼
$x = hexdec(substr($val,1,2));
$c .=chr($x) ;
}
else { //如果是大於0xFF的碼
$val = intval(substr($val,2),16);
if($val %u".bin2hex( iconv( 'gbk' ,"UCS-2",$chars[$i].$chars[$i+1] ) );
$i++;
}
}//foreach
return $ar;
}
?>
目前1/2頁 12下一頁
以上就介紹了unicode編碼轉換器 php utf-8轉unicode的函數第1/2頁,包括了unicode編碼轉換器方面的內容,希望對PHP教程有興趣的朋友有所幫助。