Alih Keluar Aksen (Normalkan) dalam Python Unicode String
Mengalih keluar loghat (diakritik) daripada rentetan Unicode melibatkan penukarannya kepada bentuk normal yang lama , di mana huruf dan diakritik mempunyai aksara yang berasingan. Selepas itu, aksara diakritik dialih keluar untuk mendapatkan rentetan normal yang dikehendaki.
Menggunakan Perpustakaan Standard Python
Malangnya, perpustakaan standard Python tidak menyediakan penyelesaian langsung untuk aksen penyingkiran dalam rentetan Unicode. Walau bagaimanapun, anda boleh menggunakan modul unicodedata untuk mendapatkan maklumat aksara dan mengubah suai rentetan dengan sewajarnya.
Menggunakan Perpustakaan Pihak Ketiga
Untuk penyelesaian yang lebih mudah dan komprehensif, ketiga -perpustakaan parti seperti pyICU boleh digunakan. Berikut ialah contoh menggunakan unidecode:
import unidecode accented_string = 'kožušček' normalized_string = unidecode.unidecode(accented_string) print(normalized_string) # Output: 'kozuscek'
Butiran Pelaksanaan
unidecode mentransliterasi aksara Unicode ke dalam persamaan ASCII yang paling hampir. Ia menggunakan jadual pemetaan yang luas untuk menukar aksara beraksen kepada bentuk asasnya. Tidak seperti pendekatan pemetaan eksplisit, ia mengendalikan pelbagai jenis aksara Unicode, termasuk yang tidak biasa digunakan.
Atas ialah kandungan terperinci Bagaimanakah saya boleh mengalih keluar Aksen daripada Rentetan Unicode dalam Python?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!