PHP-Zeichenkodierungskonvertierungsklasse, unterstützt die Konvertierung von ANSI, Unicode, Unicode Big Endian, UTF-8 und UTF-8 BOM ineinander

WBOY
Freigeben: 2016-08-08 09:30:18
Original
1841 Leute haben es durchsucht

PHP-Zeichenkodierungskonvertierungsklasse, unterstützt ANSI, Unicode, Unicode Big Endian, UTF-8, UTF-8+Bom und gegenseitige Konvertierung.

Vier gängige Methoden zur Kodierung von Textdateien

ANSI-Kodierung:

Kein Datei-Header (das ikonische Byte am Anfang der Dateikodierung)

ANSI-kodierte alphanumerische Zeichen belegen ein Byte und chinesische Schriftzeichen zwei Bytes

Wagenrücklauf- und Zeilenvorschubzeichen, Einzelbyte, hexadezimale Darstellung ist 0d 0a

UNICODE-Kodierung:

Dateikopf, hexadezimale Darstellung ist FF FE

Jedes Zeichen ist mit zwei Bytes codiert

Wagenrücklauf- und Zeilenvorschubzeichen, Doppelbyte, hexadezimale Darstellung ist 000d 000a

Unicode-Big-Endian-Kodierung:

Die hexadezimale Darstellung des Dateiheaders ist FE FF

Die folgende Codierung setzt das hohe Bit des Zeichens vorne und das niedrige Bit hinten umgekehrt mit der Unicode-Kodierung

Wagenrücklauf- und Zeilenvorschubzeichen, Doppelbytes, hexadezimale Darstellung ist 0d00 0a00

UTF-8-Kodierung:

Dateikopf, hexadezimale Darstellung ist EF BB BF

UTF-8 ist eine Variable -Zeichenkodierung von Unicode. Zahlen, Buchstaben, Wagenrücklauf und Zeilenvorschub werden alle durch ein Byte dargestellt

Wagenrücklauf und Zeilenvorschub. Einzelbyte, hexadezimale Darstellung ist 0d 0a

Konvertierungsprinzip: Konvertieren Sie zuerst die Zeichenkodierung in UTF-8 und dann von UTF-8 in die entsprechende Zeichenkodierung.

CharsetConv.class.php

<?php
/** 字符编码转换类, ANSI、Unicode、Unicode big endian、UTF-8、UTF-8+Bom互相转换
*   Date:   2015-01-28
*   Author: fdipzone
*   Ver:    1.0
*
*   Func:
*   public  convert       转换
*   private convToUtf8    把编码转为UTF-8编码
*   private convFromUtf8  把UTF-8编码转换为输出编码
*/

class CharsetConv{ // class start

    private $_in_charset = null;   // 源编码
    private $_out_charset = null;  // 输出编码
    private $_allow_charset = array(&#39;utf-8&#39;, &#39;utf-8bom&#39;, &#39;ansi&#39;, &#39;unicode&#39;, &#39;unicodebe&#39;);


    /** 初始化
    * @param String $in_charset  源编码
    * @param String $out_charset 输出编码
    */
    public function __construct($in_charset, $out_charset){

        $in_charset = strtolower($in_charset);
        $out_charset = strtolower($out_charset);

        // 检查源编码
        if(in_array($in_charset, $this->_allow_charset)){
            $this->_in_charset = $in_charset;
        }

        // 检查输出编码
        if(in_array($out_charset, $this->_allow_charset)){
            $this->_out_charset = $out_charset;
        }

    }


    /** 转换
    * @param  String $str 要转换的字符串
    * @return String      转换后的字符串
    */
    public function convert($str){

        $str = $this->convToUtf8($str);   // 先转为utf8
        $str = $this->convFromUtf8($str); // 从utf8转为对应的编码

        return $str;
    }


    /** 把编码转为UTF-8编码
    * @param  String $str 
    * @return String
    */
    private function convToUtf8($str){

        if($this->_in_charset=='utf-8'){ // 编码已经是utf-8,不用转
            return $str;
        }

        switch($this->_in_charset){
            case 'utf-8bom':
                $str = substr($str, 3);
                break;

            case 'ansi':
                $str = iconv('GBK', 'UTF-8//IGNORE', $str);
                break;

            case 'unicode':
                $str = iconv('UTF-16le', 'UTF-8//IGNORE', substr($str, 2));
                break;

            case 'unicodebe':
                $str = iconv('UTF-16be', 'UTF-8//IGNORE', substr($str, 2));
                break;

            default:
                break;
        }

        return $str;

    }


    /** 把UTF-8编码转换为输出编码
    * @param  String $str
    * @return String
    */
    private function convFromUtf8($str){

        if($this->_out_charset=='utf-8'){ // 输出编码已经是utf-8,不用转
            return $str;
        }

        switch($this->_out_charset){
            case 'utf-8bom':
                $str = "\xef\xbb\xbf".$str;
                break;

            case 'ansi':
                $str = iconv('UTF-8', 'GBK//IGNORE', $str);
                break;

            case 'unicode':
                $str = "\xff\xfe".iconv('UTF-8', 'UTF-16le//IGNORE', $str);
                break;

            case 'unicodebe':
                $str = "\xfe\xff".iconv('UTF-8', 'UTF-16be//IGNORE', $str);
                break;

            default:
                break;
        }

        return $str;

    }


} // class end

?>
Nach dem Login kopieren

Demo: Unicode Big Endian zu UTF-8 +bom

<?php
require "CharsetConv.class.php";

$str = file_get_contents(&#39;source/unicodebe.txt&#39;);

$obj = new CharsetConv(&#39;unicodebe&#39;, &#39;utf-8bom&#39;);
$response = $obj->convert($str);

file_put_contents('response/utf-8bom.txt', $response, true);
?>
Nach dem Login kopieren

Quellcode-Download-Adresse: Zum Anzeigen klicken

Das Obige stellt die PHP-Zeichenkodierungskonvertierungsklasse vor, die die gegenseitige Konvertierung von ANSI, Unicode, Unicode Big Endian, UTF-8 und UTF-8 Bom unterstützt, einschließlich relevanter Inhalte. Ich hoffe, dass es für Freunde hilfreich ist, die an PHP-Tutorials interessiert sind .

Verwandte Etiketten:
Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage