Bagaimana untuk Menyahkod Rentetan UTF-8 dengan Aksara Bukan UTF-8?-Tutorial Python-php.cn

Bagaimana untuk Menyahkod Rentetan UTF-8 dengan Aksara Bukan UTF-8?

Mary-Kate Olsen

Lepaskan： 2024-11-14 09:22:02

asal

700 orang telah melayarinya

How to Decode UTF-8 Strings with Non-UTF-8 Characters?

Menyahkod Rentetan UTF-8

Apabila menghadapi ralat "UnicodeDecodeError: codec 'utf8' tidak boleh menyahkod bait 0x9c," ia biasanya menunjukkan bahawa aksara bukan UTF-8 terdapat dalam data. Untuk menangani perkara ini, kami memerlukan pendekatan yang mantap untuk mengendalikan aksara sedemikian dan menjadikan rentetan UTF-8 mematuhi.

Untuk kes di mana aksara bukan UTF-8 tidak dijangka, seperti protokol berasaskan arahan seperti MTA, menanggalkan aksara ini boleh menjadi penyelesaian yang berkesan.

Penyelesaian

Python menyediakan beberapa kaedah untuk mengendalikan aksara bukan UTF-8:

unicode() dengan ralat 'ganti' atau 'abaikan': Gantikan aksara bukan UTF-8 dengan aksara gantian ( cth., '?') atau abaikan mereka sepenuhnya.

str = unicode(str, errors='replace')
str = unicode(str, errors='ignore')

Salin selepas log masuk

Pengekodan UTF-8 dengan ralat 'abaikan' semasa membaca daripada fail:

import codecs
with codecs.open(file_name, 'r', encoding='utf-8',
                 errors='ignore') as fdata:

Salin selepas log masuk

Ini akan mengabaikan aksara bukan UTF-8 yang mengekalkan data yang tinggal, yang sesuai untuk kebanyakan orang senario.

Pertimbangan Khusus Aplikasi

Pilihan kaedah bergantung pada aplikasi tertentu. Dalam sesetengah kes, mengabaikan atau menggantikan aksara bukan UTF-8 mungkin lebih baik untuk mengelakkan daripada merosakkan data. Walau bagaimanapun, dalam situasi di mana integriti data adalah penting, kaedah alternatif seperti penormalan aksara atau pengendalian pengecualian harus dipertimbangkan.

Atas ialah kandungan terperinci Bagaimana untuk Menyahkod Rentetan UTF-8 dengan Aksara Bukan UTF-8?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!