PHP 문자 인코딩 변환 클래스 관련 내용

jacklove
풀어 주다: 2023-03-31 08:06:01
원래의
2240명이 탐색했습니다.

php 문자 인코딩 변환 클래스, ANSI, Unicode, Unicode big endian, UTF-8, UTF-8+Bom 및 상호 변환을 지원합니다.

네 가지 일반적인 텍스트 파일 인코딩 방법

ANSI 인코딩:

파일 헤더 없음(파일 인코딩 시작 부분의 서명 바이트)

ANSI 인코딩은 영숫자 사용 한 단어 섹션 , 한자는 2바이트를 차지합니다.

캐리지 리턴 및 라인 피드, 단일 바이트, 16진수 표현은 0d 0a

UNICODE 인코딩:

파일 헤더, 16진수 표현 FF FE

각각 문자는 2바이트로 인코딩됩니다.

캐리지 리턴 및 라인 피드 문자, 2바이트, 16진수 표현은 000d 000a

유니코드 빅 엔디안 인코딩:

파일 헤더의 16진수 표현은 FE FF입니다.

다음 인코딩은 문자의 상위 비트를 앞에 두고 하위 비트를 뒤에 넣습니다. 이는 유니코드 인코딩과 정반대입니다.

캐리지 리턴 및 줄 바꿈, 더블 바이트, 16진수 표현은 다음과 같습니다. 0d00 0a00

UTF-8 인코딩:

파일 헤더, 16진수 표현은 EF BB BF

UTF-8은 유니코드의 가변 길이입니다. 문자 인코딩, 숫자, 문자, 캐리지 리턴, 및 라인 피드는 모두 1바이트로 표시됩니다. 변환 원칙: 먼저 문자 인코딩을 UTF-8로 변환한 다음 UTF-8에서 해당 문자 인코딩으로 변환합니다.

CharsetConv.class.php

<?php
/** 字符编码转换类, ANSI、Unicode、Unicode big endian、UTF-8、UTF-8+Bom互相转换
*   Date:   2015-01-28
*   Author: fdipzone
*   Ver:    1.0
*
*   Func:
*   public  convert       转换
*   private convToUtf8    把编码转为UTF-8编码
*   private convFromUtf8  把UTF-8编码转换为输出编码
*/
class CharsetConv{ // class start
    private $_in_charset = null;   // 源编码
    private $_out_charset = null;  // 输出编码
    private $_allow_charset = array(&#39;utf-8&#39;, &#39;utf-8bom&#39;, &#39;ansi&#39;, &#39;unicode&#39;, &#39;unicodebe&#39;);
    /** 初始化
    * @param String $in_charset  源编码
    * @param String $out_charset 输出编码
    */
    public function __construct($in_charset, $out_charset){
        $in_charset = strtolower($in_charset);
        $out_charset = strtolower($out_charset);
        // 检查源编码
        if(in_array($in_charset, $this->_allow_charset)){
            $this->_in_charset = $in_charset;
        }
        // 检查输出编码
        if(in_array($out_charset, $this->_allow_charset)){
            $this->_out_charset = $out_charset;
        }
    }
    /** 转换
    * @param  String $str 要转换的字符串
    * @return String      转换后的字符串
    */
    public function convert($str){
        $str = $this->convToUtf8($str);   // 先转为utf8
        $str = $this->convFromUtf8($str); // 从utf8转为对应的编码
        return $str;
    }
    /** 把编码转为UTF-8编码
    * @param  String $str 
    * @return String
    */
    private function convToUtf8($str){
        if($this->_in_charset==&#39;utf-8&#39;){ // 编码已经是utf-8,不用转
            return $str;
        }
        switch($this->_in_charset){
            case &#39;utf-8bom&#39;:
                $str = substr($str, 3);
                break;
            case &#39;ansi&#39;:
                $str = iconv(&#39;GBK&#39;, &#39;UTF-8//IGNORE&#39;, $str);
                break;
            case &#39;unicode&#39;:
                $str = iconv(&#39;UTF-16le&#39;, &#39;UTF-8//IGNORE&#39;, substr($str, 2));
                break;
            case &#39;unicodebe&#39;:
                $str = iconv(&#39;UTF-16be&#39;, &#39;UTF-8//IGNORE&#39;, substr($str, 2));
                break;
            default:
                break;
        }
        return $str;
    }
    /** 把UTF-8编码转换为输出编码
    * @param  String $str
    * @return String
    */
    private function convFromUtf8($str){
        if($this->_out_charset==&#39;utf-8&#39;){ // 输出编码已经是utf-8,不用转
            return $str;
        }
        switch($this->_out_charset){
            case &#39;utf-8bom&#39;:
                $str = "\xef\xbb\xbf".$str;
                break;
            case &#39;ansi&#39;:
                $str = iconv(&#39;UTF-8&#39;, &#39;GBK//IGNORE&#39;, $str);
                break;
            case &#39;unicode&#39;:
                $str = "\xff\xfe".iconv(&#39;UTF-8&#39;, &#39;UTF-16le//IGNORE&#39;, $str);
                break;
            case &#39;unicodebe&#39;:
                $str = "\xfe\xff".iconv(&#39;UTF-8&#39;, &#39;UTF-16be//IGNORE&#39;, $str);
                break;
            default:
                break;
        }
        return $str;
    }
} // class end
?>
로그인 후 복사

demo: unicode 빅 엔디안에서 utf-8+bom으로

<?php
require "CharsetConv.class.php";
$str = file_get_contents(&#39;source/unicodebe.txt&#39;);
$obj = new CharsetConv(&#39;unicodebe&#39;, &#39;utf-8bom&#39;);
$response = $obj->convert($str);
file_put_contents(&#39;response/utf-8bom.txt&#39;, $response, true);
?>
로그인 후 복사

php 문자 인코딩 변환 클래스, ANSI, Unicode, Unicode big End 지원 이안 , UTF-8, UTF-8+Bom 변환 관련 내용, 더 많은 관련 내용을 보려면 PHP 중국어 웹사이트를 참고하세요.

관련 권장 사항: php str_replace 지정된 횟수를 바꾸는 방법에 대한 설명

header, headers_sent, headers_list, header_remove 지침 정보

반환된 필드의 정수 유형을 변경하는 솔루션 mysql에서 PDO를 통해 문자열 유형 방법으로

위 내용은 PHP 문자 인코딩 변환 클래스 관련 내용의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿
회사 소개 부인 성명 Sitemap
PHP 중국어 웹사이트:공공복지 온라인 PHP 교육,PHP 학습자의 빠른 성장을 도와주세요!