PHP自动识别字符集编码并完成转码 -php手册-PHP中文網

首頁

php教程

php手册

PHP自动识别字符集编码并完成转码

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

May 25, 2016 pm 04:44 PM

字元集編碼自動識別

原理很简单,因为gb2312/gbk是中文两字节,这两个字节是有取值范围的,而utf-8中汉字是三字节,同样每个字节也有取值范围,而英文不管在何种编码情况下,都是小于128,只占用一个字节,全角除外.

在PHP处理页面的时候,我们对于字符集的转换都是采用了iconv或者mb_convert等函数,但这其实是有一个前提的,即我们事先得知道in和out是什么样的编码,我们才能进行正确的转换.

下面这个函数,就可以在不知道源字符串编码的情况下,自动判断其编码并进行转换,虽然只支持UTF8编码和GB2312编码,但对于国内绝大多数网站来说,已经够用了,代码如下:

<?php
function safeEncoding($string, $outEncoding = &#39;UTF-8&#39;) {
    $encoding = "UTF-8";
    for ($i = 0; $i < 128) continue;
    if ((ord($string{$i}) & 224) == 224) {
        //第一个字节判断通过
        $char = $string{++$i};
        if ((ord($char) & 128) == 128) {
            //第二个字节判断通过
            $char = $string{++$i};
            if ((ord($char) & 128) == 128) {
                $encoding = "UTF-8";
                break;
            }
        }
    }
    if ((ord($string{$i}) & 192) == 192) {
        //第一个字节判断通过
        $char = $string{++$i};
        if ((ord($char) & 128) == 128) {
            //第二个字节判断通过
            $encoding = "GB2312";
            break;
        }
    }
}
if (strtoupper($encoding) == strtoupper($outEncoding)) return $string;
else return iconv($encoding, $outEncoding, $string);
}
?>

登入後複製

识别汉字编码,因为YBlog用的是utf-8,如果引用通告发过来的是gb2312的编码的话,需要可以识别并完成编码转换,代码如下:

<?php
function safeEncoding($string, $outEncoding = &#39;UTF-8&#39;) {
    $encoding = "UTF-8";
    for ($i = 0; $i < strlen($string); $i++) {
        if (ord($string{$i}) < 128) continue;
        if ((ord($string{$i}) & 224) == 224) {
            //第一个字节判断通过
            $char = $string{++$i};
            if ((ord($char) & 128) == 128) {
                //第二个字节判断通过
                $char = $string{++$i};
                if ((ord($char) & 128) == 128) {
                    $encoding = "UTF-8";
                    break;
                }
            }
        }
        if ((ord($string{$i}) & 192) == 192) {
            //第一个字节判断通过
            $char = $string{++$i};
            if ((ord($char) & 128) == 128) {
                //第二个字节判断通过
                $encoding = "GB2312";
                break;
            }
        }
    }
    if (strtoupper($encoding) == strtoupper($outEncoding)) return $string;
    else return iconv($encoding, $outEncoding, $string);
}
?>

登入後複製

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

熱工具

熱門話題

Java教學

1664

CakePHP 教程

1423

Laravel 教程

1318

PHP教程

1268

C# 教程

1248

Related knowledge

11個常見的分類特徵的編碼技術 Apr 12, 2023 pm 12:16 PM

機器學習演算法只接受數值輸入，所以如果我們遇到分類特徵的時候都會對分類特徵進行編碼，本文總結了常見的11個分類變數編碼方法。 1.ONE HOT ENCODING最受歡迎且常用的編碼方法是One Hot Enoding。一個具有n個觀測值和d個不同值的單一變量被轉換成具有n個觀測值的d個二元變量，每個二元變量使用一位（0，1）進行標識。例如：編碼後最簡單的實作是使用pandas的' get_dummiesnew_df=pd.get_dummies(columns=[‘Sex’], data=df)2、

utf8編碼漢字佔多少位元組 Feb 21, 2023 am 11:40 AM

utf8編碼漢字佔3個位元組。在UTF-8編碼中，一個中文等於三個位元組，一個中文標點佔三個位元組；而在Unicode編碼中，一個中文（含繁體）等於兩個位元組。 UTF-8使用1~4位元組為每個字元編碼，一個US-ASCIl字元只需1位元組編碼，帶有變音符號的拉丁文、希臘文、西里爾字母、亞美尼亞語、希伯來文、阿拉伯文、敘利亞文等字母則需要2位元組編碼。

知識圖譜：大模型的理想搭檔 Jan 29, 2024 am 09:21 AM

大型語言模式（LLM）具有產生流暢和連貫文字的能力，為人工智慧的對話、創意寫作等領域帶來了新的前景。然而，LLM也存在一些關鍵限制。首先，它們的知識僅限於從訓練資料中辨識出的模式，缺乏對世界的真正理解。其次，推理能力有限，不能進行邏輯推理或從多個資料來源融合事實。面對更複雜、更開放的問題時，LLM的回答可能變得荒謬或矛盾，被稱為「幻覺」。因此，儘管LLM在某些方面非常有用，但在處理複雜問題和真實世界情境時，仍存在一定的限制。為了彌補這些差距，近年來出現了檢索增強生成（RAG）系統，其核心思想是

常見的幾種編碼方式 Oct 24, 2023 am 10:09 AM

常見的編碼方式有ASCII編碼、Unicode編碼、UTF-8編碼、UTF-16編碼、GBK編碼等。詳細介紹：1、ASCII編碼是最早的字符編碼標準，使用7位二進制數表示128個字符，包括英文字母、數字、標點符號以及控製字符等；2、Unicode編碼是一種用於表示世界上所有字元的標準編碼方式，它為每個字元分配了一個唯一的數字碼點；3、UTF-8編碼等等。

PHP編碼小技巧：如何產生具有防偽驗證功能的二維碼？ Aug 17, 2023 pm 02:42 PM

PHP編碼小技巧：如何產生具有防偽驗證功能的二維碼？隨著電子商務和互聯網的發展，二維碼越來越被廣泛應用於各行各業。而在使用二維碼的過程中，為了確保產品的安全性和防止偽造，為二維碼添加防偽驗證功能是十分重要的一環。本文將介紹如何使用PHP產生具有防偽驗證功能的二維碼，並附上對應程式碼範例。在開始之前，我們需要準備以下幾個必要的工具和函式庫：PHPQRCode：PHP

Oracle資料庫字元集修改方法詳解 Mar 02, 2024 pm 03:18 PM

Oracle資料庫字元集修改方法詳解Oracle資料庫是一款功能強大的關聯式資料庫管理系統，支援多種字元集，包括簡體中文字元集、繁體中文字元集、英文字元集等。在實際應用中，可能會遇到需要修改資料庫字元集的情況，本文將詳細介紹Oracle資料庫字元集修改的方法，並提供具體的程式碼範例供讀者參考。 1.查看目前資料庫字元集在修改資料庫字元集之前，首先需要查看目前數

hdb3編碼規則是啥 Aug 29, 2023 pm 01:38 PM

編碼規則是：1、如果前一個編碼是0，當前資料位元為0，則編碼為0；2、如果前一個編碼是0，當前資料位元為1，則編碼為雙極脈衝（+A或- A），並將計數器加1；3、如果前一個編碼是1，當前資料位元為1，則編碼為0，並將計數器加1；4、如果前一個編碼是1，目前資料位元為0，則根據計數器的奇偶性來決定編碼方式，如果是偶數，則編碼為（+B或-B），如果是奇數，則編碼為零電平，並將計數器清零等等。

一文搞懂如何基於 GenAI 提升編碼效能 Apr 01, 2024 pm 06:49 PM

Hellofolks，我是Luga，今天我們來聊聊人工智慧(AI)生態領域相關的技術-GenAI。面對日新月異的技術創新以及差異化的業務場景挑戰，傳統的編碼方式已經開始出現水土不服，難以完全應對日益增長的訴求。同時，新興的通用GenAI（人工智慧技術）具有極具潛力的能力來滿足這項需求。 GenAI作為人工智慧技術的代表，以其強大的潛力和能力已經開始在各行各業中廣泛應用。它可以自動學習和適應不同場景下的編碼需求，大大提高了編碼效率和品質。透過深度學習和模型優化，GenAI能夠準確地理解不同

See all articles

PHP自动识别字符集编码并完成转码

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題