Python で Unicode 文字列からアクセントを削除するにはどうすればよいですか?-Python チュートリアル-php.cn

Python で Unicode 文字列からアクセントを削除するにはどうすればよいですか?

Linda Hamilton

リリース： 2024-12-27 06:10:10

オリジナル

692 人が閲覧しました

How Can I Remove Accents from Unicode Strings in Python?

Python Unicode 文字列のアクセント (正規化) を削除する

Unicode 文字列からアクセント (発音記号) を削除するには、文字列を長い正規化された形式に変換する必要があります。、文字と発音記号は別々の文字を持ちます。その後、発音区別符号が削除され、目的の正規化された文字列が得られます。

Python 標準ライブラリの使用

残念ながら、Python 標準ライブラリはアクセントの直接的な解決策を提供しません。 Unicode 文字列の削除。ただし、unicodedata モジュールを使用して文字情報を取得し、それに応じて文字列を変更することはできます。

サードパーティライブラリの使用

より便利で包括的なソリューションについては、3 番目を参照してください。 -pyICU のようなパーティライブラリを使用できます。以下に unidecode を使用する例を示します。

import unidecode

accented_string = 'kožušček'
normalized_string = unidecode.unidecode(accented_string)

print(normalized_string)  # Output: 'kozuscek'

ログイン後にコピー

実装の詳細

unidecode は、Unicode 文字を最も近い ASCII 文字に音訳します。広範なマッピングテーブルを利用して、アクセント付き文字を基本形式に変換します。明示的なマッピング手法とは異なり、一般的に使用されないものを含む幅広い Unicode 文字を処理します。

以上がPython で Unicode 文字列からアクセントを削除するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。