php 문자 인코딩 변환 클래스, ANSI, Unicode, Unicode big endian, UTF-8, UTF-8+Bom 및 상호 변환을 지원합니다.
네 가지 일반적인 텍스트 파일 인코딩 방법
ANSI 인코딩:
파일 헤더 없음(파일 인코딩 시작 부분의 서명 바이트)
ANSI 인코딩은 영숫자 사용 한 단어 섹션 , 한자는 2바이트를 차지합니다.
캐리지 리턴 및 라인 피드, 단일 바이트, 16진수 표현은 0d 0a
UNICODE 인코딩:
파일 헤더, 16진수 표현 FF FE
각각 문자는 2바이트로 인코딩됩니다.
캐리지 리턴 및 라인 피드 문자, 2바이트, 16진수 표현은 000d 000a
유니코드 빅 엔디안 인코딩:
파일 헤더의 16진수 표현은 FE FF입니다.
다음 인코딩은 문자의 상위 비트를 앞에 두고 하위 비트를 뒤에 넣습니다. 이는 유니코드 인코딩과 정반대입니다.
캐리지 리턴 및 줄 바꿈, 더블 바이트, 16진수 표현은 다음과 같습니다. 0d00 0a00
UTF-8 인코딩:
파일 헤더, 16진수 표현은 EF BB BF
UTF-8은 유니코드의 가변 길이입니다. 문자 인코딩, 숫자, 문자, 캐리지 리턴, 및 라인 피드는 모두 1바이트로 표시됩니다. 변환 원칙: 먼저 문자 인코딩을 UTF-8로 변환한 다음 UTF-8에서 해당 문자 인코딩으로 변환합니다.
CharsetConv.class.php
<?php
/** 字符编码转换类, ANSI、Unicode、Unicode big endian、UTF-8、UTF-8+Bom互相转换
* Date: 2015-01-28
* Author: fdipzone
* Ver: 1.0
*
* Func:
* public convert 转换
* private convToUtf8 把编码转为UTF-8编码
* private convFromUtf8 把UTF-8编码转换为输出编码
*/
class CharsetConv{ // class start
private $_in_charset = null; // 源编码
private $_out_charset = null; // 输出编码
private $_allow_charset = array('utf-8', 'utf-8bom', 'ansi', 'unicode', 'unicodebe');
/** 初始化
* @param String $in_charset 源编码
* @param String $out_charset 输出编码
*/
public function __construct($in_charset, $out_charset){
$in_charset = strtolower($in_charset);
$out_charset = strtolower($out_charset);
// 检查源编码
if(in_array($in_charset, $this->_allow_charset)){
$this->_in_charset = $in_charset;
}
// 检查输出编码
if(in_array($out_charset, $this->_allow_charset)){
$this->_out_charset = $out_charset;
}
}
/** 转换
* @param String $str 要转换的字符串
* @return String 转换后的字符串
*/
public function convert($str){
$str = $this->convToUtf8($str); // 先转为utf8
$str = $this->convFromUtf8($str); // 从utf8转为对应的编码
return $str;
}
/** 把编码转为UTF-8编码
* @param String $str
* @return String
*/
private function convToUtf8($str){
if($this->_in_charset=='utf-8'){ // 编码已经是utf-8,不用转
return $str;
}
switch($this->_in_charset){
case 'utf-8bom':
$str = substr($str, 3);
break;
case 'ansi':
$str = iconv('GBK', 'UTF-8//IGNORE', $str);
break;
case 'unicode':
$str = iconv('UTF-16le', 'UTF-8//IGNORE', substr($str, 2));
break;
case 'unicodebe':
$str = iconv('UTF-16be', 'UTF-8//IGNORE', substr($str, 2));
break;
default:
break;
}
return $str;
}
/** 把UTF-8编码转换为输出编码
* @param String $str
* @return String
*/
private function convFromUtf8($str){
if($this->_out_charset=='utf-8'){ // 输出编码已经是utf-8,不用转
return $str;
}
switch($this->_out_charset){
case 'utf-8bom':
$str = "\xef\xbb\xbf".$str;
break;
case 'ansi':
$str = iconv('UTF-8', 'GBK//IGNORE', $str);
break;
case 'unicode':
$str = "\xff\xfe".iconv('UTF-8', 'UTF-16le//IGNORE', $str);
break;
case 'unicodebe':
$str = "\xfe\xff".iconv('UTF-8', 'UTF-16be//IGNORE', $str);
break;
default:
break;
}
return $str;
}
} // class end
?>
demo: unicode 빅 엔디안에서 utf-8+bom으로
<?php require "CharsetConv.class.php"; $str = file_get_contents('source/unicodebe.txt'); $obj = new CharsetConv('unicodebe', 'utf-8bom'); $response = $obj->convert($str); file_put_contents('response/utf-8bom.txt', $response, true); ?>
관련 권장 사항: php str_replace 지정된 횟수를 바꾸는 방법에 대한 설명
header, headers_sent, headers_list, header_remove 지침 정보반환된 필드의 정수 유형을 변경하는 솔루션 mysql에서 PDO를 통해 문자열 유형 방법으로
위 내용은 PHP 문자 인코딩 변환 클래스 관련 내용의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!