Um diakritische Zeichen (z. B. Tilde, Umlaut usw.) aus Unicode-Zeichen zu entfernen, sollten Sie die folgenden Algorithmen verwenden:
Verwenden Sie in Java Folgendes Code:
public static final Pattern DIACRITICS_AND_FRIENDS = Pattern.compile("[\p{InCombiningDiacriticalMarks}\p{IsLm}\p{IsSk}\u0591-\u05C7]+"); private static String stripDiacritics(String str) { str = Normalizer.normalize(str, Normalizer.Form.NFD); str = DIACRITICS_AND_FRIENDS.matcher(str).replaceAll(""); return str; }
Beispiel:
stripDiacritics("Björn") = Bjorn
Für eine umfassendere Lösung fügen Sie eine zweite Bereinigungsstufe ein, um nicht diakritische Sonderzeichen zu verarbeiten.
public static final char DEFAULT_REPLACE_CHAR = '-'; public static final String DEFAULT_REPLACE = String.valueOf(DEFAULT_REPLACE_CHAR); private static final ImmutableMap<String, String> NONDIACRITICS = ImmutableMap.<String, String>builder() // ... [List of non-diacritic characters] public static String simplifiedString(String orig) { String str = orig; if (str == null) { return null; } str = stripDiacritics(str); str = stripNonDiacritics(str); if (str.length() == 0) { // ... } return str.toLowerCase(); } // ... [Continued implementation]
Diese Algorithmen entfernen effektiv diakritische Zeichen für Suchzwecke. Allerdings erfordern nichtdiakritische Sonderzeichen wie „ł“ von Białegostok eine zusätzliche Behandlung. Der erweiterte Algorithmus versucht, diese Zeichen durch ihr nächstgelegenes Äquivalent zu ersetzen.
Das obige ist der detaillierte Inhalt vonWie kann ich diakritische Zeichen effizient aus Unicode-Zeichenfolgen in Java entfernen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!