Unicode テキストから発音区別符号を効率的に削除するにはどうすればよいですか?-＆＃＆チュートリアル-php.cn

Unicode テキストから発音区別符号を効率的に削除するにはどうすればよいですか?

Mary-Kate Olsen

リリース： 2024-12-04 14:27:12

オリジナル

1049 人が閲覧しました

How Can I Efficiently Remove Diacritical Marks from Unicode Text?

Unicode 文字から発音区別符号を削除する: 総合ガイド

チルダ、曲折記号、ウムラウトなどの発音区別符号は、文字にニュアンスを加えることができます。文字を拡張し、その意味の可能性を広げます。ただし、テキストを検索または比較する場合、これらのマークは問題を引き起こす可能性があります。発音区別符号を含む文字のさまざまなバリエーションを入力するユーザーは、関連する情報を見つけられない可能性があります。

Unicode に関する考慮事項

発音区別符号は通常、Unicode スカラー値の組み合わせにマップされます。これらのマークを効果的に処理するには、Unicode のアプローチを理解することが不可欠です。 Unicode は、特定のコードポイントを「結合発音記号」として分類します。これらのマークは基本文字の後に続き、その外観を変更します。

発音記号の削除の実装

Unicode 文字から発音記号を削除するには、次の複数の手順のプロセスに従うことができます。

正規化: 文字列を変換しますUnicode 正規化形式 NFD に変換し、結合文字を基本文字と発音記号に分解します。
削除: 正規表現を使用して結合発音記号を照合し、空の文字列に置き換えます。
再構築: 必要に応じて、残りの文字を正規化された文字に再構築します。 string.

Java 実装

Java では、次のメソッドを利用できます:

public static final Pattern DIACRITICS_AND_FRIENDS = Pattern.compile(
    "[\p{InCombiningDiacriticalMarks}\p{IsLm}\p{IsSk}\u0591-\u05C7]+");

public static String stripDiacritics(String str) {
    str = Normalizer.normalize(str, Normalizer.Form.NFD);
    str = DIACRITICS_AND_FRIENDS.matcher(str).replaceAll("");
    return str;
}

ログイン後にコピー

追加の考慮事項

発音記号を削除すると検索機能が向上しますが、すべてのシナリオに必ずしも適しているとは限りません。「ß」 (ドイツ語のシャープ s) や「æ」 (ラテン語の ae 合字) などの特定の文字は、単なる発音記号ではなく、個別の音の代わりになります。これに対処するには、対応する同等の文字に置き換えることができる非付加文字を定義するカスタムマップを作成することをお勧めします。

これらの手法を実装することで、開発者は検索と比較の機能を強化し、ユーザーが簡単に検索できるようになります。さまざまな言語バリエーションにわたるデータを検索して照合します。

以上がUnicode テキストから発音区別符号を効率的に削除するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。