Heim > Java > javaLernprogramm > Wie kann ich diakritische Zeichen effizient aus Unicode-Zeichenfolgen in Java entfernen?

Wie kann ich diakritische Zeichen effizient aus Unicode-Zeichenfolgen in Java entfernen?

Barbara Streisand
Freigeben: 2024-12-11 01:23:10
Original
552 Leute haben es durchsucht

How Can I Efficiently Remove Diacritics from Unicode Strings in Java?

Diakritische Zeichen aus Unicode-Zeichen entfernen

Um diakritische Zeichen (z. B. Tilde, Umlaut usw.) aus Unicode-Zeichen zu entfernen, sollten Sie die folgenden Algorithmen verwenden:

Java-Algorithmus

Verwenden Sie in Java Folgendes Code:

public static final Pattern DIACRITICS_AND_FRIENDS = Pattern.compile("[\p{InCombiningDiacriticalMarks}\p{IsLm}\p{IsSk}\u0591-\u05C7]+");

private static String stripDiacritics(String str) {
    str = Normalizer.normalize(str, Normalizer.Form.NFD);
    str = DIACRITICS_AND_FRIENDS.matcher(str).replaceAll("");
    return str;
}
Nach dem Login kopieren

Beispiel:

stripDiacritics("Björn")  = Bjorn
Nach dem Login kopieren

Erweiterter Algorithmus

Für eine umfassendere Lösung fügen Sie eine zweite Bereinigungsstufe ein, um nicht diakritische Sonderzeichen zu verarbeiten.

public static final char DEFAULT_REPLACE_CHAR = '-';
public static final String DEFAULT_REPLACE = String.valueOf(DEFAULT_REPLACE_CHAR);
private static final ImmutableMap<String, String> NONDIACRITICS = ImmutableMap.<String, String>builder()
        // ... [List of non-diacritic characters]

public static String simplifiedString(String orig) {
    String str = orig;
    if (str == null) {
        return null;
    }
    str = stripDiacritics(str);
    str = stripNonDiacritics(str);
    if (str.length() == 0) {
        // ... 
    }
    return str.toLowerCase();
}

// ... [Continued implementation]
Nach dem Login kopieren

Anwendbarkeit und Einschränkungen

Diese Algorithmen entfernen effektiv diakritische Zeichen für Suchzwecke. Allerdings erfordern nichtdiakritische Sonderzeichen wie „ł“ von Białegostok eine zusätzliche Behandlung. Der erweiterte Algorithmus versucht, diese Zeichen durch ihr nächstgelegenes Äquivalent zu ersetzen.

Das obige ist der detaillierte Inhalt vonWie kann ich diakritische Zeichen effizient aus Unicode-Zeichenfolgen in Java entfernen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Neueste Artikel des Autors
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage