詳解Python編碼處理之str與Unicode的區別與使用分析-Python教學-PHP中文網

str 和unicode

結論

建議

首頁

後端開發

Python教學

詳解Python編碼處理之str與Unicode的區別與使用分析

高洛峰

Mar 16, 2017 pm 04:23 PM

用python處理中文，讀取文件或訊息時，如果發現亂碼(字串處理，讀寫文件，print)，大多數人的做法是，呼叫encode/decode進行調試，並沒有明確思考為何出現亂碼，今天我們來討論如何處理編碼問題。

注意: 以下討論為Python2.x版本, Py3k下未測試

#調試時最常出現的錯誤

錯誤1

1	`Traceback (most recent call last): File` `"<stdin>", line 1, in <module> UnicodeDecodeError: ‘ascii‘ codec can‘t decode byte 0xe6 in position 0: ordinal not in range(128)`

登入後複製

錯誤2

Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/encodings/utf_8.py", line 16, in decode return codecs.utf_8_decode(input, errors, True) UnicodeEncodeError: ‘ascii‘ codec can‘t encode characters in position 0-1: ordinal not in range(128)

登入後複製

首先

必須有大體概念，了解下字元集，字元編碼

ASCII | Unicode | UTF-8 | 等等

字元編碼筆記：ASCII，Unicode和UTF-8

str 和unicode

str和unicode都是basestring的子類別

所以有判斷是否為字串的方法

def is_str(s): return isinstance(s, basestring)

str和unicode 轉換

str -> decode('the_coding_of_str') -> unicode unicode -> encode('the_coding_you_want') -> str

#區別

#str是位元組串，由unicode經過(encode)後的位元組組成的

宣告方式

1 2	`>>> s = ‘中文‘ s = u‘中文‘.encode(‘utf-8‘)` `>>> type(‘中文‘) <type ‘str‘>`

登入後複製

求長度(返回位元組數)

>>> u‘中文‘.encode(‘utf-8‘) ‘\xe4\xb8\xad\xe6\x96\x87‘ 
>>> len(u‘中文‘.encode(‘utf-8‘)) 
6

登入後複製

unicode才是真正意義上的字串，由字元組成

宣告方式

>>> s = u‘中文‘ 
>>> s = ‘中文‘.decode(‘utf-8‘) 
>>> s = unicode(‘中文‘, ‘utf-8‘)  
>>> type(u‘中文‘) <type ‘unicode‘>

登入後複製

求長度(傳回字元數),在邏輯中真正想要用的

>>> u‘中文‘ u‘\u4e2d\u6587‘ 
>>> len(u‘中文‘) 
2

登入後複製

結論

搞懂要處理的是str還是unicode, 使用對的處理方法(str.decode/unicode.encode)

下面是判斷是否為unicode/str的方法

>>> isinstance(u‘中文‘, unicode) True 
>>> isinstance(‘中文‘, unicode) False  
>>> isinstance(‘中文‘, str) True 
>>> isinstance(u‘中文‘, str) False

登入後複製

簡單原則：不要對str使用encode，不要對unicode使用decode (事實上可以對str進行encode的，具體見最後，為了保證簡單，不建議)

>>> ‘中文‘.encode(‘utf-8‘) 
Traceback (most recent call last): File "<stdin>", line 1, in <module> UnicodeDecodeError: ‘ascii‘ codec can‘t decode byte 0xe4 in position 0: ordinal not in range(128)  
>>> u‘中文‘.decode(‘utf-8‘) 
Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/encodings/utf_8.py", line 16, in decode     return codecs.utf_8_decode(input, errors, True) UnicodeEncodeError: ‘ascii‘ codec can‘t encode characters in position 0-1: ordinal not in range(128)</module></stdin>

登入後複製

不同編碼轉換,使用unicode作為中間編碼

1	`#s是code_A的str s.decode(‘code_A‘).encode(‘code_B‘)`

登入後複製

#檔案處理,IDE和控制台

處理流程，可以這麼使用，把python看做一個水池，一個入口，一個出口

入口處，全部轉成unicode , 池裡全部使用unicode處理，出口處，再轉成目標編碼(當然，有例外，處理邏輯中要用到具體編碼的情況)

讀文件外部輸入編碼，decode轉成unicode 處理(內部編碼，統一unicode) encode轉成所需的目標編碼寫到目標輸出(檔案或控制台)

IDE和控制台報錯，原因是print時，編碼和IDE自身編碼不一致導致

輸出時將編碼轉換成一致的就可以正常輸出

1 2	`>>>` `print` `u‘中文‘.encode(‘gbk‘) ????` `>>>` `print` `u‘中文‘.encode(‘utf-8‘) 中文`

登入後複製

建議

規範編碼

統一編碼，防止因為某個環節產生的亂碼

環境編碼，IDE/文字編輯器, 檔案編碼，資料庫資料表編碼

保證程式碼原始檔編碼

這很重要

py檔案預設編碼是ASCII, 在原始碼檔案中，如果用到非ASCII字符，需要在檔案頭進行編碼聲明文件

#不聲明的話，輸入非ASCII會遇到的錯誤,必須放在檔案第一行或第二行

1	`File` `"XXX.py", line 3 SyntaxError: Non-ASCII character ‘\xd6‘ in file c.py on line 3, but no encoding declared; see http://www.python.org/peps/pep-0263.html for details`

登入後複製

宣告方法

1	`# -- coding: utf-8 -- 或者 #coding=utf-8`

登入後複製

若頭部宣告coding=utf-8, a = '中文' 其編碼為utf-8

若頭部聲明coding=gb2312, a = '中文' 其編碼為gbk

so, 同一項目中所有來源文件頭統一一個編碼,並且聲明的編碼要和源文件保存的編碼一致(編輯器相關)

在原始碼用作處理的硬編碼字串，統一用unicode

将其类型和源文件本身的编码隔离开, 独立无依赖方便流程中各个位置处理

1	`if` `s == u‘中文‘: #而不是 s == ‘中文‘ pass #注意这里 s到这里时，确保转为unicode`

登入後複製

以上几步搞定后，你只需要关注两个 unicode和你设定的编码(一般使用utf-8)

处理顺序

1. Decode early 2. Unicode everywhere 3. Encode later

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

Video Face Swap

使用我們完全免費的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學

1669

CakePHP 教程

1428

Laravel 教程

1329

PHP教程

1273

C# 教程

1256

Related knowledge

Python與C：學習曲線和易用性 Apr 19, 2025 am 12:20 AM

Python更易學且易用，C 則更強大但複雜。 1.Python語法簡潔，適合初學者，動態類型和自動內存管理使其易用，但可能導致運行時錯誤。 2.C 提供低級控制和高級特性，適合高性能應用，但學習門檻高，需手動管理內存和類型安全。

Python和時間：充分利用您的學習時間 Apr 14, 2025 am 12:02 AM

要在有限的時間內最大化學習Python的效率，可以使用Python的datetime、time和schedule模塊。 1.datetime模塊用於記錄和規劃學習時間。 2.time模塊幫助設置學習和休息時間。 3.schedule模塊自動化安排每週學習任務。

Python vs.C：探索性能和效率 Apr 18, 2025 am 12:20 AM

Python在開發效率上優於C ，但C 在執行性能上更高。 1.Python的簡潔語法和豐富庫提高開發效率。 2.C 的編譯型特性和硬件控制提升執行性能。選擇時需根據項目需求權衡開發速度與執行效率。

學習Python：2小時的每日學習是否足夠？ Apr 18, 2025 am 12:22 AM

每天學習Python兩個小時是否足夠？這取決於你的目標和學習方法。 1)制定清晰的學習計劃，2)選擇合適的學習資源和方法，3)動手實踐和復習鞏固，可以在這段時間內逐步掌握Python的基本知識和高級功能。

Python標準庫的哪一部分是：列表或數組？ Apr 27, 2025 am 12:03 AM

pythonlistsarepartofthestAndArdLibrary，herilearRaysarenot.listsarebuilt-In，多功能，和Rused ForStoringCollections，而EasaraySaraySaraySaraysaraySaraySaraysaraySaraysarrayModuleandleandleandlesscommonlyusedDduetolimitedFunctionalityFunctionalityFunctionality。

Python vs. C：了解關鍵差異 Apr 21, 2025 am 12:18 AM

Python和C 各有優勢，選擇應基於項目需求。 1)Python適合快速開發和數據處理，因其簡潔語法和動態類型。 2)C 適用於高性能和系統編程，因其靜態類型和手動內存管理。

Python：自動化，腳本和任務管理 Apr 16, 2025 am 12:14 AM

Python在自動化、腳本編寫和任務管理中表現出色。 1)自動化：通過標準庫如os、shutil實現文件備份。 2)腳本編寫：使用psutil庫監控系統資源。 3)任務管理：利用schedule庫調度任務。 Python的易用性和豐富庫支持使其在這些領域中成為首選工具。

Web開發的Python：關鍵應用程序 Apr 18, 2025 am 12:20 AM

Python在Web開發中的關鍵應用包括使用Django和Flask框架、API開發、數據分析與可視化、機器學習與AI、以及性能優化。 1.Django和Flask框架：Django適合快速開發複雜應用，Flask適用於小型或高度自定義項目。 2.API開發：使用Flask或DjangoRESTFramework構建RESTfulAPI。 3.數據分析與可視化：利用Python處理數據並通過Web界面展示。 4.機器學習與AI：Python用於構建智能Web應用。 5.性能優化：通過異步編程、緩存和代碼優

See all articles

詳解Python編碼處理之str與Unicode的區別與使用分析

str 和unicode

結論

建議

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題