Python Unicode 文字列のアクセント (正規化) を削除する
Unicode 文字列からアクセント (発音記号) を削除するには、文字列を長い正規化された形式に変換する必要があります。 、文字と発音記号は別々の文字を持ちます。その後、発音区別符号が削除され、目的の正規化された文字列が得られます。
Python 標準ライブラリの使用
残念ながら、Python 標準ライブラリはアクセントの直接的な解決策を提供しません。 Unicode 文字列の削除。ただし、unicodedata モジュールを使用して文字情報を取得し、それに応じて文字列を変更することはできます。
サードパーティ ライブラリの使用
より便利で包括的なソリューションについては、3 番目を参照してください。 -pyICU のようなパーティ ライブラリを使用できます。以下に unidecode を使用する例を示します。
import unidecode accented_string = 'kožušček' normalized_string = unidecode.unidecode(accented_string) print(normalized_string) # Output: 'kozuscek'
実装の詳細
unidecode は、Unicode 文字を最も近い ASCII 文字に音訳します。広範なマッピング テーブルを利用して、アクセント付き文字を基本形式に変換します。明示的なマッピング手法とは異なり、一般的に使用されないものを含む幅広い Unicode 文字を処理します。
以上がPython で Unicode 文字列からアクセントを削除するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。