Wie filtere ich Unicode-Zeichen, die die 3-Byte-UTF-8-Codierung in MySQL 5.1 überschreiten?-MySQL-Tutorial-php.cn

Wie filtere ich Unicode-Zeichen, die die 3-Byte-UTF-8-Codierung in MySQL 5.1 überschreiten?

Barbara Streisand

Freigeben： 2024-10-26 10:10:03

Original

876 Leute haben es durchsucht

How to Filter Unicode Characters Exceeding 3-Byte UTF-8 Encoding in MySQL 5.1?

Filtern von Unicode-Zeichen, die 3-Byte-UTF-8-Kodierung überschreiten

Die MySQL-Implementierung in Version 5.1 weist eine Einschränkung auf, da sie nur 3-Byte unterstützt. Byte UTF-8-Zeichen. Um 4-Byte-Zeichen effektiv zu verarbeiten, bietet dieses Handbuch Lösungen zum Filtern oder Ersetzen von Unicode-Zeichen, die möglicherweise mehr als 3 Bytes beanspruchen.

Lösung mit regulärem Ausdruck:

Ein Ansatz besteht darin, einen regulären Ausdruck zu verwenden, um Zeichen außerhalb des zulässigen Bereichs von u0000-uD7FF und uE000-uFFFF zu erkennen. Mit dem re-Modul können Sie ein Muster wie dieses erstellen:

pattern = re.compile(u'[^\u0000-\uD7FF\uE000-\uFFFF]', re.UNICODE)

Nach dem Login kopieren

Um die Zeichenfolge zu filtern, können Sie re.sub() verwenden:

import re

re_pattern = re.compile(u'[^\u0000-\uD7FF\uE000-\uFFFF]', re.UNICODE)
filtered_string = re_pattern.sub(u'\uFFFD', unicode_string)

Nach dem Login kopieren

Alternative Lösung mit Python:

Eine andere Option besteht darin, jedes Unicode-Zeichen in der Zeichenfolge zu durchlaufen und jedes Zeichen durch eine 4-Byte-UTF-8-Kodierung durch das Ersatzzeichen uFFFD:

def filter_using_python(unicode_string):
    return u''.join(
        uc if uc < u'\ud800' or u'\ue000' <= uc <= u'\uffff' else u'\ufffd'
        for uc in unicode_string
    )

Nach dem Login kopieren

Leistungsvergleich:

Um die Leistung dieser Lösungen zu vergleichen, wurden Tests mit cProfile durchgeführt. Die auf regulären Ausdrücken basierende Lösung übertraf die auf Python basierende Lösung deutlich.

Fazit:

Die vorgeschlagene Lösung mit regulären Ausdrücken bietet eine effiziente und zuverlässige Möglichkeit, Unicode zu filtern oder zu ersetzen Zeichen, die die 3-Byte-UTF-8-Kodierung in Python überschreiten. Dies ist besonders vorteilhaft in Situationen, in denen Geschwindigkeitsoptimierung von entscheidender Bedeutung ist.

Das obige ist der detaillierte Inhalt vonWie filtere ich Unicode-Zeichen, die die 3-Byte-UTF-8-Codierung in MySQL 5.1 überschreiten?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!