Unicode-Äquivalente für w und b in regulären Java-Ausdrücken
Javas Regex-Implementierung bietet nur begrenzte Unterstützung für Unicode, was es schwierig macht, Wörter oder zuzuordnen Wortgrenzen genau. Die standardmäßigen W- und B-Escapezeichen entsprechen nur ASCII-Zeichen.
Um dieses Problem zu beheben, sollten Sie die Verwendung einer Funktion in Betracht ziehen, die diese Escapezeichen neu schreibt und sie durch Unicode-fähige Definitionen ersetzt. Diese Funktion kann die folgenden 14 Zeichenklassen-Escapezeichen umschreiben:
\w \W \s \S \v \V \h \H \d \D \b \B \X \R
Umgeschriebene Escape-Definitionen:
Grenzdefinitionen:
Grenzfluchten (b und B) können mit der folgenden Logik umgeschrieben werden:
Java reparieren mit Java:
Diese Funktion kann in Java mithilfe des im ursprünglichen Diskussionsthread bereitgestellten Codes implementiert werden. Mithilfe dieses Codes können Sie Regex-Muster neu schreiben, um Unicode-Zeichen besser zu verarbeiten.
Hinweis:
In Java 7 führt die Pattern-Klasse das Flag UNICODE_CHARACTER_CLASS ein, das die Unicode-Unterstützung für ermöglicht diese Escapes standardmäßig.
Das obige ist der detaillierte Inhalt vonWie kann ich die Unicode-Unterstützung in regulären Java-Ausdrücken für \w und \b verbessern?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!