PHP自动识别字符集编码并完成转码 -php手册-php.cn

Heim

php教程

php手册

PHP自动识别字符集编码并完成转码

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

May 25, 2016 pm 04:44 PM

字符集编码 automatische Erkennung

原理很简单,因为gb2312/gbk是中文两字节,这两个字节是有取值范围的,而utf-8中汉字是三字节,同样每个字节也有取值范围,而英文不管在何种编码情况下,都是小于128,只占用一个字节,全角除外.

在PHP处理页面的时候,我们对于字符集的转换都是采用了iconv或者mb_convert等函数,但这其实是有一个前提的,即我们事先得知道in和out是什么样的编码,我们才能进行正确的转换.

下面这个函数,就可以在不知道源字符串编码的情况下,自动判断其编码并进行转换,虽然只支持UTF8编码和GB2312编码,但对于国内绝大多数网站来说,已经够用了,代码如下:

<?php
function safeEncoding($string, $outEncoding = &#39;UTF-8&#39;) {
    $encoding = "UTF-8";
    for ($i = 0; $i < 128) continue;
    if ((ord($string{$i}) & 224) == 224) {
        //第一个字节判断通过
        $char = $string{++$i};
        if ((ord($char) & 128) == 128) {
            //第二个字节判断通过
            $char = $string{++$i};
            if ((ord($char) & 128) == 128) {
                $encoding = "UTF-8";
                break;
            }
        }
    }
    if ((ord($string{$i}) & 192) == 192) {
        //第一个字节判断通过
        $char = $string{++$i};
        if ((ord($char) & 128) == 128) {
            //第二个字节判断通过
            $encoding = "GB2312";
            break;
        }
    }
}
if (strtoupper($encoding) == strtoupper($outEncoding)) return $string;
else return iconv($encoding, $outEncoding, $string);
}
?>

Nach dem Login kopieren

识别汉字编码,因为YBlog用的是utf-8,如果引用通告发过来的是gb2312的编码的话,需要可以识别并完成编码转换,代码如下:

<?php
function safeEncoding($string, $outEncoding = &#39;UTF-8&#39;) {
    $encoding = "UTF-8";
    for ($i = 0; $i < strlen($string); $i++) {
        if (ord($string{$i}) < 128) continue;
        if ((ord($string{$i}) & 224) == 224) {
            //第一个字节判断通过
            $char = $string{++$i};
            if ((ord($char) & 128) == 128) {
                //第二个字节判断通过
                $char = $string{++$i};
                if ((ord($char) & 128) == 128) {
                    $encoding = "UTF-8";
                    break;
                }
            }
        }
        if ((ord($string{$i}) & 192) == 192) {
            //第一个字节判断通过
            $char = $string{++$i};
            if ((ord($char) & 128) == 128) {
                //第二个字节判断通过
                $encoding = "GB2312";
                break;
            }
        }
    }
    if (strtoupper($encoding) == strtoupper($outEncoding)) return $string;
    else return iconv($encoding, $outEncoding, $string);
}
?>

Nach dem Login kopieren

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Assassin's Creed Shadows: Seashell Riddle -Lösung

3 Wochen vor By DDD

Was ist neu in Windows 11 KB5054979 und wie Sie Update -Probleme beheben

2 Wochen vor By DDD

Wo kann man die Kransteuerungsschlüsselkarten in Atomfall finden

3 Wochen vor By DDD

Assassins Creed Shadows - So finden Sie den Schmied und entsperren Sie die Waffen- und Rüstungsanpassung

1 Monate vor By DDD

<🎜>: Dead Rails - wie man jede Herausforderung abschließt

3 Wochen vor By DDD

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7627

CakePHP-Tutorial

1389

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

140

Related knowledge

11 gängige Techniken zur Kodierung von Klassifizierungsmerkmalen Apr 12, 2023 pm 12:16 PM

Algorithmen für maschinelles Lernen akzeptieren nur numerische Eingaben. Wenn wir also auf kategoriale Merkmale stoßen, werden wir die kategorialen Merkmale kodieren. In diesem Artikel werden 11 gängige Methoden zur Kodierung kategorialer Variablen zusammengefasst. 1. ONE HOT ENCODING Die beliebteste und am häufigsten verwendete Kodierungsmethode ist One Hot Enoding. Eine einzelne Variable mit n Beobachtungen und d unterschiedlichen Werten wird in d binäre Variablen mit n Beobachtungen umgewandelt, wobei jede binäre Variable durch ein Bit (0, 1) identifiziert wird. Beispiel: Die einfachste Implementierung nach dem Codieren ist die Verwendung von pandas' get_dummiesnew_df=pd.get_dummies(columns=[‘Sex’], data=df)2,

Wie viele Bytes belegen utf8-codierte chinesische Zeichen? Feb 21, 2023 am 11:40 AM

UTF8-kodierte chinesische Zeichen belegen 3 Bytes. Bei der UTF-8-Kodierung entspricht ein chinesisches Zeichen drei Bytes und ein chinesisches Satzzeichen belegt drei Bytes, während bei der Unicode-Kodierung ein chinesisches Zeichen (einschließlich traditionellem Chinesisch) zwei Bytes entspricht. UTF-8 benötigt zur Kodierung jedes Zeichens nur 1 Byte. Für Latein, Griechisch, Kyrillisch und Hebräisch sind 2 Byte erforderlich Codierung.

Knowledge Graph: der ideale Partner für große Modelle Jan 29, 2024 am 09:21 AM

Große Sprachmodelle (LLMs) sind in der Lage, flüssige und kohärente Texte zu generieren, was neue Perspektiven für Bereiche wie Konversation mit künstlicher Intelligenz und kreatives Schreiben eröffnet. Allerdings weist LLM auch einige wesentliche Einschränkungen auf. Erstens beschränkt sich ihr Wissen auf Muster, die aus Trainingsdaten erkannt werden, und es mangelt ihnen an einem echten Verständnis der Welt. Zweitens sind die Denkfähigkeiten begrenzt und können keine logischen Schlussfolgerungen ziehen oder Fakten aus mehreren Datenquellen zusammenführen. Bei komplexeren und offeneren Fragen können die Antworten von LLM absurd oder widersprüchlich werden, was als „Illusionen“ bekannt ist. Obwohl LLM in einigen Aspekten sehr nützlich ist, weist es dennoch gewisse Einschränkungen bei der Bearbeitung komplexer Probleme und realer Situationen auf. Um diese Lücken zu schließen, sind in den letzten Jahren Retrieval-Augmented-Generation-Systeme (RAG) entstanden

Mehrere gängige Kodierungsmethoden Oct 24, 2023 am 10:09 AM

Zu den gängigen Kodierungsmethoden gehören ASCII-Kodierung, Unicode-Kodierung, UTF-8-Kodierung, UTF-16-Kodierung, GBK-Kodierung usw. Ausführliche Einführung: 1. Die ASCII-Kodierung ist der früheste Zeichenkodierungsstandard und verwendet 7-Bit-Binärzahlen zur Darstellung von 128 Zeichen, einschließlich englischer Buchstaben, Zahlen, Satzzeichen, Steuerzeichen usw. 2. Die Unicode-Kodierung ist eine Methode zur Darstellung alle Zeichen der Welt Die Standardkodierungsmethode für Zeichen, die jedem Zeichen einen eindeutigen digitalen Codepunkt zuweist. 3. UTF-8-Kodierung usw.

PHP-Codierungstipps: Wie erstelle ich einen QR-Code mit Anti-Fälschungs-Verifizierungsfunktion? Aug 17, 2023 pm 02:42 PM

PHP-Codierungstipps: Wie erstelle ich einen QR-Code mit Anti-Fälschungs-Verifizierungsfunktion? Mit der Entwicklung des E-Commerce und des Internets werden QR-Codes zunehmend in verschiedenen Branchen eingesetzt. Bei der Verwendung von QR-Codes ist es zur Gewährleistung der Produktsicherheit und zur Verhinderung von Fälschungen sehr wichtig, den QR-Codes Funktionen zur Fälschungssicherheit hinzuzufügen. In diesem Artikel wird die Verwendung von PHP zum Generieren eines QR-Codes mit Fälschungsschutzfunktion vorgestellt und entsprechende Codebeispiele angehängt. Bevor wir beginnen, müssen wir die folgenden notwendigen Tools und Bibliotheken vorbereiten: PHPQRCode: PHP

Ausführliche Erläuterung, wie der Zeichensatz der Oracle-Datenbank geändert wird Mar 02, 2024 pm 03:18 PM

Ausführliche Erklärung zum Ändern des Zeichensatzes der Oracle-Datenbank. Die Oracle-Datenbank ist ein leistungsstarkes relationales Datenbankverwaltungssystem, das mehrere Zeichensätze unterstützt, darunter den Zeichensatz für vereinfachtes Chinesisch, den Zeichensatz für traditionelles Chinesisch, den englischen Zeichensatz usw. In praktischen Anwendungen kann es vorkommen, dass Sie den Datenbankzeichensatz ändern müssen. In diesem Artikel wird die Methode zum Ändern des Oracle-Datenbankzeichensatzes ausführlich vorgestellt und den Lesern spezifische Codebeispiele zur Verfügung gestellt. 1. Überprüfen Sie den aktuellen Datenbankzeichensatz. Bevor Sie den Datenbankzeichensatz ändern, müssen Sie zunächst den aktuellen Datenbankzeichensatz überprüfen.

Was sind die HDB3-Kodierungsregeln? Aug 29, 2023 pm 01:38 PM

Die Codierungsregeln lauten: 1. Wenn der vorherige Code 0 und das aktuelle Datenbit 0 ist, ist der Code 0. Wenn der vorherige Code 0 und das aktuelle Datenbit 1 ist, ist der Code ein bipolarer Impuls (+A). oder - A) und der Zähler wird um 1 erhöht. Wenn der vorherige Code 1 ist und das aktuelle Datenbit 1 ist, ist der Code 0 und der Zähler wird um 1 erhöht 1, das aktuelle Datenbit ist 0. Die Codierungsmethode wird anhand der Parität des Zählers bestimmt. Wenn es sich um eine gerade Zahl handelt, ist die Codierung (+B oder -B). Nullniveau und der Zähler wird gelöscht und so weiter.

So lösen Sie das Problem der Codierung von PHP-Datenbankabfrageergebnissen Mar 21, 2023 am 11:49 AM

PHP ist eine beliebte Web-Programmiersprache, mit der dynamische Webseiten und Anwendungen geschrieben werden können. In praktischen Anwendungen muss PHP häufig mit der Datenbank interagieren, um Daten abzufragen und zu verarbeiten. Wenn Sie jedoch PHP verwenden, um Ergebnisse aus einer Datenbank abzurufen, kann es zu Codierungsproblemen kommen, die häufig zu verstümmelten Zeichen führen. Wie lässt sich also das Problem der Codierung von PHP-Datenbankabfrageergebnissen lösen?

See all articles