首頁 > Java > java教程 > 如何在 Java 中有效刪除 Unicode 字串中的變音符號?

如何在 Java 中有效刪除 Unicode 字串中的變音符號?

Barbara Streisand
發布: 2024-12-11 01:23:10
原創
608 人瀏覽過

How Can I Efficiently Remove Diacritics from Unicode Strings in Java?

從Unicode 字元中刪除變音標記

要從Unicode 字元中刪除變音標記(例如波浪線、變音符號等),請考慮使用下列演算法:

Java 演算法

在Java中,使用以下程式碼:

public static final Pattern DIACRITICS_AND_FRIENDS = Pattern.compile("[\p{InCombiningDiacriticalMarks}\p{IsLm}\p{IsSk}\u0591-\u05C7]+");

private static String stripDiacritics(String str) {
    str = Normalizer.normalize(str, Normalizer.Form.NFD);
    str = DIACRITICS_AND_FRIENDS.matcher(str).replaceAll("");
    return str;
}
登入後複製

範例:

stripDiacritics("Björn")  = Bjorn
登入後複製

增強演算法

要獲得更全面的解決方案,請包括第二個清理階段來處理非變音符號特殊字元。

public static final char DEFAULT_REPLACE_CHAR = '-';
public static final String DEFAULT_REPLACE = String.valueOf(DEFAULT_REPLACE_CHAR);
private static final ImmutableMap<String, String> NONDIACRITICS = ImmutableMap.<String, String>builder()
        // ... [List of non-diacritic characters]

public static String simplifiedString(String orig) {
    String str = orig;
    if (str == null) {
        return null;
    }
    str = stripDiacritics(str);
    str = stripNonDiacritics(str);
    if (str.length() == 0) {
        // ... 
    }
    return str.toLowerCase();
}

// ... [Continued implementation]
登入後複製

適用性和限制

這些演算法有效地刪除了用於搜尋目的的變音符號。但是,非變音符號特殊字元(例如 Białegostok 的“ł”)需要額外處理。增強演算法嘗試用最接近的等效字元取代這些字元。

以上是如何在 Java 中有效刪除 Unicode 字串中的變音符號?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

來源:php.cn
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
作者最新文章
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板