Mengalih keluar Aksen daripada Rentetan Unikod Python
Apabila bekerja dengan rentetan Unicode dalam Python, anda mungkin perlu mengalih keluar aksen atau diakritik. Ini boleh dicapai dengan menukar rentetan kepada "bentuk ternormal panjang" dan kemudian mengalih keluar semua aksara yang diklasifikasikan sebagai "diakritik."
Python Standard Library
Sebelum memasang tambahan perpustakaan, semak perpustakaan standard Python. Modul unicodedata menyediakan fungsi untuk bekerja dengan aksara Unicode, termasuk penormalan. Walau bagaimanapun, ia tidak menawarkan cara mudah untuk mengalih keluar aksen mengikut jenis aksara.
PyICU dan Python 3
PyICU ialah perpustakaan yang melaksanakan ICU (Komponen Antarabangsa untuk Unicode) data dan API. Ia menyediakan sokongan Unicode lanjutan, termasuk normalisasi dan klasifikasi aksara. Walau bagaimanapun, pyICU bukan sebahagian daripada perpustakaan standard Python dan memerlukan pemasangan.
Untuk Python 3, perpustakaan unidecode ialah pilihan yang lebih mudah. Ia menyediakan penyelesaian merentas platform yang mudah untuk mentransliterasi rentetan Unicode ke dalam persamaan ASCII terdekatnya.
Contoh
from unidecode import unidecode original = "kožušček" normalized = unidecode(original) print(normalized) # Output: kozuscek
Kaedah ini mudah dan cekap untuk mengalih keluar aksen daripada rentetan Python Unicode. Ia menghapuskan keperluan untuk pemetaan aksara eksplisit atau prosedur normalisasi dan pengelasan yang kompleks.
Atas ialah kandungan terperinci Bagaimanakah Saya Boleh Mengeluarkan Aksen dengan Cekap daripada Rentetan Unicode dalam Python?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!