用python處理中文,讀取文件或訊息時,如果發現亂碼(字串處理,讀寫文件,print),大多數人的做法是,呼叫encode/decode進行調試,並沒有明確思考為何出現亂碼, 今天我們來討論如何處理編碼問題。
注意: 以下討論為Python2.x版本, Py3k下未測試
#調試時最常出現的錯誤
錯誤1
Traceback (most recent call last): File "<stdin>", line 1, in <module> UnicodeDecodeError: ‘ascii‘ codec can‘t decode byte 0xe6 in position 0: ordinal not in range(128)
錯誤2
Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/encodings/utf_8.py", line 16, in decode return codecs.utf_8_decode(input, errors, True) UnicodeEncodeError: ‘ascii‘ codec can‘t encode characters in position 0-1: ordinal not in range(128)
首先
必須有大體概念,了解下字元集,字元編碼
ASCII | Unicode | UTF-8 | 等等
字元編碼筆記:ASCII,Unicode和UTF-8
str和unicode都是basestring的子類別
所以有判斷是否為字串的方法
def is_str(s): return isinstance(s, basestring)
str和unicode 轉換
str -> decode('the_coding_of_str') -> unicode unicode -> encode('the_coding_you_want') -> str
#區別
#str是位元組串,由unicode經過(encode)後的位元組組成的
宣告方式
>>> s = ‘中文‘ s = u‘中文‘.encode(‘utf-8‘) >>> type(‘中文‘) <type ‘str‘>
求長度(返回位元組數)
>>> u‘中文‘.encode(‘utf-8‘) ‘\xe4\xb8\xad\xe6\x96\x87‘ >>> len(u‘中文‘.encode(‘utf-8‘)) 6
unicode才是真正意義上的字串,由字元組成
宣告方式
>>> s = u‘中文‘ >>> s = ‘中文‘.decode(‘utf-8‘) >>> s = unicode(‘中文‘, ‘utf-8‘) >>> type(u‘中文‘) <type ‘unicode‘>
求長度(傳回字元數),在邏輯中真正想要用的
>>> u‘中文‘ u‘\u4e2d\u6587‘ >>> len(u‘中文‘) 2
搞懂要處理的是str還是unicode, 使用對的處理方法(str.decode/unicode.encode)
下面是判斷是否為unicode/str的方法
>>> isinstance(u‘中文‘, unicode) True >>> isinstance(‘中文‘, unicode) False >>> isinstance(‘中文‘, str) True >>> isinstance(u‘中文‘, str) False
簡單原則:不要對str使用encode,不要對unicode使用decode (事實上可以對str進行encode的,具體見最後,為了保證簡單,不建議)
>>> ‘中文‘.encode(‘utf-8‘) Traceback (most recent call last): File "", line 1, in UnicodeDecodeError: ‘ascii‘ codec can‘t decode byte 0xe4 in position 0: ordinal not in range(128) >>> u‘中文‘.decode(‘utf-8‘) Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/encodings/utf_8.py", line 16, in decode return codecs.utf_8_decode(input, errors, True) UnicodeEncodeError: ‘ascii‘ codec can‘t encode characters in position 0-1: ordinal not in range(128)
不同編碼轉換,使用unicode作為中間編碼
#s是code_A的str s.decode(‘code_A‘).encode(‘code_B‘)
#檔案處理,IDE和控制台
處理流程,可以這麼使用,把python看做一個水池,一個入口,一個出口
入口處,全部轉成unicode , 池裡全部使用unicode處理,出口處,再轉成目標編碼(當然,有例外,處理邏輯中要用到具體編碼的情況)
讀文件 外部輸入編碼,decode轉成unicode 處理(內部編碼,統一unicode) encode轉成所需的目標編碼 寫到目標輸出(檔案或控制台)
IDE和控制台報錯,原因是print時,編碼和IDE自身編碼不一致導致
輸出時將編碼轉換成一致的就可以正常輸出
>>> print u‘中文‘.encode(‘gbk‘) ???? >>> print u‘中文‘.encode(‘utf-8‘) 中文
規範編碼
統一編碼,防止因為某個環節產生的亂碼
環境編碼,IDE/文字編輯器, 檔案編碼,資料庫資料表編碼
保證程式碼原始檔編碼
這很重要
py檔案預設編碼是ASCII, 在原始碼檔案中,如果用到非ASCII字符,需要在檔案頭進行編碼聲明文件
#不聲明的話,輸入非ASCII會遇到的錯誤,必須放在檔案第一行或第二行
File "XXX.py", line 3 SyntaxError: Non-ASCII character ‘\xd6‘ in file c.py on line 3, but no encoding declared; see http://www.python.org/peps/pep-0263.html for details
宣告方法
# -*- coding: utf-8 -*- 或者 #coding=utf-8
若頭部宣告coding=utf-8, a = '中文' 其編碼為utf-8
若頭部聲明coding=gb2312, a = '中文' 其編碼為gbk
so, 同一項目中所有來源文件頭統一一個編碼,並且聲明的編碼要和源文件保存的編碼一致(編輯器相關)
在原始碼用作處理的硬編碼字串,統一用unicode
将其类型和源文件本身的编码隔离开, 独立无依赖方便流程中各个位置处理
if s == u‘中文‘: #而不是 s == ‘中文‘ pass #注意这里 s到这里时,确保转为unicode
以上几步搞定后,你只需要关注两个 unicode和 你设定的编码(一般使用utf-8)
处理顺序
1. Decode early 2. Unicode everywhere 3. Encode later
相关模块及一些方法
获得和设置系统默认编码
>>> import sys >>> sys.getdefaultencoding() ‘ascii‘ >>> reload(sys) <module ‘sys‘ (built-in)> >>> sys.setdefaultencoding(‘utf-8‘) >>> sys.getdefaultencoding() ‘utf-8‘ >>> str.encode(‘other_coding‘)
在python中,直接将某种编码的str进行encode成另一种编码str
#str_A为utf-8 str_A.encode(‘gbk‘) 执行的操作是 str_A.decode(‘sys_codec‘).encode(‘gbk‘) 这里sys_codec即为上一步 sys.getdefaultencoding() 的编码
‘获得和设置系统默认编码‘和这里的str.encode是相关的,但我一般很少这么用,主要是觉得复杂不可控,还是输入明确decode,输出明确encode来得简单些
chardet
文件编码检测,下载
>>> import chardet >>> f = open(‘test.txt‘,‘r‘) >>> result = chardet.detect(f.read()) >>> result {‘confidence‘: 0.99, ‘encoding‘: ‘utf-8‘}
\u字符串转对应unicode字符串
>>> u‘中‘ u‘\u4e2d‘ >>> s = ‘\u4e2d‘ >>> print s.decode(‘unicode_escape‘) 中 >>> a = ‘\\u4fee\\u6539\\u8282\\u70b9\\u72b6\\u6001\\u6210\\u529f‘ >>> a.decode(‘unicode_escape‘) u‘\u4fee\u6539\u8282\u70b9\u72b6\u6001\u6210\u529f‘
以上是詳解Python編碼處理之str與Unicode的區別與使用分析的詳細內容。更多資訊請關注PHP中文網其他相關文章!