Unicode mit tragbarem UTF-8 zu PHP bringen-PHP-Tutorial-php.cn

Bringing Unicode to PHP with Portable UTF-8

Kernpunkte

Obwohl PHP in der Lage ist, Multi-Byte-Variablennamen und Unicode-Zeichenfolgen zu verarbeiten, fehlt der Sprache eine umfassende Unicode-Unterstützung, da die Saiten als Einzel-Byte-Zeichensequenzen behandelt werden. Diese Einschränkung beeinflusst alle Aspekte des String -Betriebs, einschließlich der Substring -Extraktion, der Bestimmung der Stringlänge und der String -Segmentierung.
tragbares UTF-8 ist eine Benutzerraumbibliothek, die Unicode-Unterstützung für PHP-Anwendungen bietet. Es ist auf Mbstring und Iconv aufgebaut, bietet etwa 60 auf Unicode-basierte String-Manipulation, Test- und Überprüfungsfunktionen und verwendet UTF-8 als Hauptcharakter-Codierungsschema. Die Bibliothek ist vollständig tragbar und kann mit jeder Installation von PHP 4.2 oder später verwendet werden.
tragbare UTF-8-Bibliothek bietet mehrere Funktionen für die Verarbeitung von Unicode-Zeichenfolgen, einschließlich UTF-8-Eingangsüberprüfung, Entfernen von ungültigen Bytes, Codierung von Text in HTML URL -Fragmente und erzwungene Grenzen der Eingangszeichenlänge. Dies stellt sicher, dass in unicode-fähigen Anwendungen sich der Fokus von Byte- und Byte-Längen zu Charakter- und Zeichenlängen verschiebt.

PHP ermöglicht Multi-Byte-Variablennamen (z. B. $a∩b, $Ʃxy und $Δx), mbstring und andere Erweiterungen können Unicode-Zeichenfolgen verarbeiten, und utf8_encode() und utf8_decode() können in UTF verwendet werden Konvertieren Sie Strings zwischen -8 und ISO-8859-1 Codierung. Es wird jedoch allgemein angenommen, dass PHP die Unicode -Unterstützung fehlt. Dieser Artikel beschreibt die Bedeutung eines Mangels an Unicode -Unterstützung und zeigt, wie eine Bibliothek verwendet wird, die Unicode -Unterstützung für PHP -Anwendungen bringt - tragbarer UTF -8.

Unicode -Unterstützung in PHP

Phps mangelnder Unicode/Multi-Byte-Unterstützung bedeutet, dass Standard-String-Verarbeitungsfunktionen Zeichenfolgen als Single-Byte-Zeichensequenzen behandeln. Tatsächlich definiert das offizielle PHP -Handbuch eine Zeichenfolge in PHP als "eine Reihe von Charakteren, von denen eines wie ein Byte ist". PHP unterstützt nur 8-Bit-Zeichen, während Unicode (und viele andere Zeichensätze) möglicherweise mehrere Bytes erfordern, um ein Zeichen darzustellen. Diese Einschränkung von PHP beeinflusst fast alle Aspekte des String -Betriebs, einschließlich (aber nicht beschränkt auf) Substring -Extraktion, Bestimmung der Stringlänge, String -Segmentierung, Mischung usw. Die Bemühungen, dieses Problem zu lösen, begannen Anfang 2005, aber im Jahr 2010 wurde die Arbeit der Unterstützung der nativen Unicode -Unterstützung für PHP gestoppt und aus verschiedenen Gründen auf Eis gelegt. Da die Unterstützung der nativen Unicode -Unterstützung in PHP Jahre dauern kann (wenn dies der Fall ist), müssen sich Entwickler auf verfügbare Erweiterungen wie mbstring und iconv verlassen, um diese Lücke zu schließen. Diese Erweiterungen bieten jedoch nur begrenzte Unicode -Unterstützung. Diese Bibliotheken sind nicht unicode-zentriert und können auch zwischen Nicht-Unicode-Codierungen umgewandelt werden. Sie leisten positive Beiträge zur Vereinfachung der Unicode -String -Verarbeitung. Die obige Erweiterung hat jedoch auch einige Nachteile. Sie bieten nur begrenzte Funktionen für die Verarbeitung von Unicode -String, und keiner von ihnen ist standardmäßig aktiviert. Serveradministratoren müssen explizit aktivieren, um über PHP -Anwendungen auf sie zugreifen zu können. Shared Hosting-Anbieter verschlimmern sich oft, indem sie ein oder zwei Erweiterungen installieren, was es den Entwicklern schwierig macht, sich auf eine immer verfügbare API zu verlassen, um ihre Unicode-Anforderungen zu erfüllen. Die gute Nachricht ist jedoch, dass PHP Unicode -Text ausgeben kann. Dies liegt daran, dass PHP es egal ist, ob wir in ASCII codiertem englischem Text oder einem anderen Text der Sprache senden, deren Zeichen in mehreren Bytes codiert sind. Wenn Sie dies wissen, benötigen PHP-Entwickler nun nur eine API, die eine bequeme Unicode-basierte String-Manipulation bietet.

tragbares UTF-8

Die jüngste Lösung besteht darin, eine in PHP geschriebene Benutzerraumbibliothek zu erstellen. Auch wenn der Server-/Sprachebene die Unterstützung fehlt, können diese Bibliotheken leicht mit der Anwendung gebündelt werden, um das Vorhandensein einer Unicode -Unterstützung zu gewährleisten. Viele Open-Source-Anwendungen enthalten bereits ihre eigenen Bibliotheken dieser Art, und viele weitere verwenden kostenlose Bibliotheken von Drittanbietern. Tragbares UTF-8 ist eine kostenlose leichte Bibliothek, die auf mbstring und iconv gebaut wird. Es erweitert die Funktionalität dieser beiden Erweiterungen und liefert etwa 60 Unicode-basierte String-Manipulation, Test- und Überprüfungsfunktionen. Wie der Name schon sagt, verwendet tragbarer UTF-8 UTF-8 als primäres Zeichenkodierschema. Die Bibliothek verwendet verfügbare Erweiterungen (mbstring und iconv) aus Geschwindigkeitsgründen und überbrückt einige Inkonsistenzen, wenn sie direkt verwendet werden. Wenn jedoch keine dieser Erweiterungen auf dem Server vorhanden sind, wird die Verwendung von Pure PHP eine UTF-8-Routine verwendet, die geschrieben wurde . Portable-UT8 ist vollständig tragbar und kann mit jeder Installation von PHP 4.2 oder später verwendet werden.

Standverarbeitung mit tragbarem UTF-8

Texteditoren mit schlechter Unicode-Unterstützung können beim Lesen von Text Text beschädigen, und Text kopiert und in Webformen eines solchen Editors eingefügt. Möglicherweise ist die Quelle von ungültigem UTF-8 für die Anwendung. Stellen Sie bei der Verarbeitung von Eingaben der Benutzer ein, ob die Eingabe genau mit den Erwartungen der Anwendung übereinstimmt. Um festzustellen, ob der Text gültig ist, können Sie die is_utf8() -Funktion der Bibliothek verwenden.

if (is_utf8($_POST['title'])) {
    // 执行某些操作...
}

Nach dem Login kopieren

Die Wiederherstellung von Zeichen aus ungültigen Bytes ist unmöglich. Das Entfernen von Bytes, die nicht als gültige UTF-8-Zeichen erkannt werden, können Ihre einzige Wahl sein. Die utf8_clean() -Funktion kann verwendet werden, um ungültige Bytes zu entfernen.

$title = utf8_clean($_POST['title']);

Nach dem Login kopieren

Jedes Unicode -Zeichen kann als entsprechende HTML -Entität codiert werden, und Sie möchten den Text möglicherweise auf diese Weise codieren, um XSS -Angriffe zu verhindern, bevor Sie ihn an den Browser ausgeben.

echo utf8_html_encode($title);

Nach dem Login kopieren

Normalerweise werden Spaces am Anfang und am Ende einer Saite abgeschnitten. Unicode listet etwa 20 Speicherzeichen auf, und einige ASCII-basierte Steuerzeichen sollten auch als Objekte betrachtet werden, die beschnitten werden müssen.

$title = utf8_trim($title);

Nach dem Login kopieren

Andererseits können Duplikate solcher Räume in der Mitte einer Saite existieren und sollten gelöscht werden. Das Folgende zeigt, wie Sie utf8_remove_duplicates() und utf8_ws() in Kombination verwenden:

$title = utf8_remove_duplicates($title, utf8_ws());

Nach dem Login kopieren

Die traditionelle Lösung zum Erstellen von URL-Fragmenten für SEO-Zwecke verwendet Transliteration und entfernt alle Nicht-ASCII-Zeichen aus dem Fragment. Dies macht die URL weniger wertvoll als sie. Während die URL UTF-8-codierte Zeichen ohne solche Entfernung oder Transliteration unterstützen kann, können wir reichhaltige Snippets erstellen, die Zeichen in jeder Sprache enthalten:

$slug = utf8_url_slug($title, 30); // 字符长度30

Nach dem Login kopieren

Von Beginn der Eingabeüberprüfung bis zum Speichern von Daten in einer Datenbank konzentrieren sich die unicode-fähigen Anwendungen auf Zeichen- und Zeichenlängen, nicht auf Byte- und Bytelängen. Diese Verschiebung des Fokus erfordert eine neue Schnittstelle, um diesen Unterschied zu verstehen. Normalerweise ist es erforderlich, die Länge des Eingangszeichens zu begrenzen. Wenn der Eingang mehr als 60 Zeichen lang ist, erstellen wir ein Substring.

if (utf8_strlen($title) > 60) {
    $title  = utf8_substr($title, 0, 60);
}

Nach dem Login kopieren

oder:

if (!utf8_fits_inside($title , 60)) {
    $title  = utf8_substr($title, 0 ,60);
}

Nach dem Login kopieren

Es gibt drei verschiedene Möglichkeiten, mithilfe der Portable-UT8-Bibliothek auf ein einzelnes Zeichen zugreifen zu können. Wir können utf8_access() verwenden, um auf ein einzelnes Zeichen zuzugreifen.

echo '第六个字符是：' . utf8_access($string, 5);

Nach dem Login kopieren

utf8_chr_map() ermöglicht den iterativen Zugriff auf ein einzelnes Zeichen mithilfe einer Rückruffunktion.

utf8_chr_map('some_callback', $string);

Nach dem Login kopieren

Wir können die Zeichenfolge mit utf8_split() in ein Zeichenarray teilen und die Array -Elemente als einzelnes Zeichen verarbeiten.

array_map('some_callback', utf8_split($string));

Nach dem Login kopieren

Training Unicode kann auch verlangen, dass wir den minimalen/maximalen Codepunkt in der Zeichenfolge ermitteln, die Zeichenfolge, die Verfahrensbyte -Bestellmarkierungen, die String -Fallkonvertierung, die Randomisierung/Mischung, den Austausch usw. segmentieren, usw. All dies wird von tragbarem UT8 unterstützt.

Schlussfolgerung

Die Entwicklung von

PHP 6 wurde gestoppt, was dazu führte, dass eine langfristige Notwendigkeit einer nativen Unicode-Unterstützung verzögert wird, was für die Entwicklung mehrsprachiger Anwendungen von entscheidender Bedeutung ist. Daher spielen serverseitige Erweiterungen und Benutzerraumbibliotheken wie tragbarer UTF-8 eine wichtige Rolle bei der Erstellung von besseren standardisierten Netze, um die lokalen Anforderungen zu erfüllen.

(Der FAQS -Teil wird hier aus Platzbeschränkungen weggelassen)

Das obige ist der detaillierte Inhalt vonUnicode mit tragbarem UTF-8 zu PHP bringen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!