python 有str object 和 unicode object 兩個字串, 都可以存放字元的位元組編碼,但是他們是不同的type,這一點很重要,也是為什麼會有encode 和decode。
encode 和decode在pyhton 的意義可表示為
encode
unicode -------------------------> str
unicode
decode
幾個常用法:
str_string.decode('codec') 是把str_string轉換為unicode_string, codec是來源str_string的編碼方式
unicode_string.encode('codec') 是把unicode_string 轉換為str_string,codec是目標str_string的編碼方式
str_string.decode(from_string的編碼方式
') 可實現不同編碼的str_string之間的轉換例如:>>> t='長城'>>> t'xb3xa4xb3xc7'.encode('utf-8')
'xe9x95xbfxe5x9fx8e'
str_string.encode('codec') 是先呼叫系統的預設codec去把str_string轉換為unicode_string,然後用encode的參數c str_string. 相當於str_string.decode('sys_codec').encode('codec')。
unicode_string.decode('codec') 基本上沒有意義,unicode 在python裡只用一種unicode編碼,UTF16或UTF32(編譯python時就已經確定),沒有編碼轉換的需要。
註:缺省codec在site-packages下的sitecustomize.py檔案中指定,例如
import sys
sys.setdefaultencoding('utf-8')
sys.setdefaultencoding('utf-8')