Unicode-Escape-Sequenzen in PHP dekodieren
Wenn Sie es mit Unicode-Escape-Sequenzen wie „u00ed“ in PHP zu tun haben, benötigen Sie Folgendes eine Möglichkeit, sie in richtige UTF-8-kodierte Zeichen zu dekodieren. Die Funktion preg_replace_callback() bietet eine Lösung für dieses Problem.
Um Unicode-Escape-Sequenzen mit preg_replace_callback() zu dekodieren, befolgen Sie diese Schritte:
$str = preg_replace_callback('/\\u([0-9a-fA-F]{4})/', function ($match) { return mb_convert_encoding(pack('H*', $match[1]), 'UTF-8', 'UCS-2BE'); }, $str);
Dieses reguläre Ausdrucksmuster entspricht Unicode-Escape-Sequenzen wie „u00ed“ und erfasst den hexadezimalen Codepunkt innerhalb der Klammern. Die passende Rückruffunktion verwendet dann die Funktionen pack() und mb_convert_encoding(), um den hexadezimalen Codepunkt in das entsprechende UTF-8-Zeichen umzuwandeln.
Wenn Sie mit C/C/Java/Json-Stil arbeiten Bei UTF-16-basierten Escape-Sequenzen können Sie eine etwas andere Version des regulären Ausdrucks verwenden:
$str = preg_replace_callback('/\\u([0-9a-fA-F]{4})/', function ($match) { return mb_convert_encoding(pack('H*', $match[1]), 'UTF-8', 'UTF-16BE'); }, $str);
Durch Angabe „UTF-16BE“ als Kodierung für mb_convert_encoding() stellen Sie sicher, dass das UTF-16-Big-Endian-Format korrekt in UTF-8 dekodiert wird.
Das obige ist der detaillierte Inhalt vonWie kann ich Unicode-Escape-Sequenzen in PHP dekodieren?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!