Java의 유니코드 문자열에서 분음 부호를 효율적으로 제거하려면 어떻게 해야 합니까?-java지도 시간-php.cn

Java의 유니코드 문자열에서 분음 부호를 효율적으로 제거하려면 어떻게 해야 합니까?

Barbara Streisand

풀어 주다： 2024-12-11 01:23:10

원래의

636명이 탐색했습니다.

How Can I Efficiently Remove Diacritics from Unicode Strings in Java?

유니코드 문자에서 발음 구별 기호 제거

유니코드 문자에서 발음 구별 기호(예: 물결표, 움라우트 등)를 제거하려면 다음 알고리즘 사용을 고려하세요.

자바 알고리즘

에서 Java에서는 다음 코드를 활용합니다.

public static final Pattern DIACRITICS_AND_FRIENDS = Pattern.compile("[\p{InCombiningDiacriticalMarks}\p{IsLm}\p{IsSk}\u0591-\u05C7]+");

private static String stripDiacritics(String str) {
    str = Normalizer.normalize(str, Normalizer.Form.NFD);
    str = DIACRITICS_AND_FRIENDS.matcher(str).replaceAll("");
    return str;
}

로그인 후 복사

예:

stripDiacritics("Björn")  = Bjorn

로그인 후 복사

향상된 알고리즘

보다 포괄적인 솔루션을 위해 두 번째 정리 단계를 포함하여 발음 구별 특수 문자

public static final char DEFAULT_REPLACE_CHAR = '-';
public static final String DEFAULT_REPLACE = String.valueOf(DEFAULT_REPLACE_CHAR);
private static final ImmutableMap<String, String> NONDIACRITICS = ImmutableMap.<String, String>builder()
        // ... [List of non-diacritic characters]

public static String simplifiedString(String orig) {
    String str = orig;
    if (str == null) {
        return null;
    }
    str = stripDiacritics(str);
    str = stripNonDiacritics(str);
    if (str.length() == 0) {
        // ... 
    }
    return str.toLowerCase();
}

// ... [Continued implementation]

로그인 후 복사