Python 程式設計處理-str與Unicode-Python教學-PHP中文網

首頁

後端開發

Python教學

Python 程式設計處理-str與Unicode

高洛峰

Feb 27, 2017 am 10:02 AM

python 編碼處理

一篇關於STR和UNICODE的好文章

整理下python編碼相關的內容

##注意: 以下討論為Python2.x版本, Py3k的待嘗試

開始

用python處理中文時，讀取檔案或訊息，http參數等等

一運行，發現亂碼(字串處理，讀寫文件，print)

然後，大多數人的做法是，調用encode/decode進行調試，並沒有明確思考為何出現亂碼

所以調試時最常出現的錯誤

錯誤1

Traceback (most recent call last): File "", line 1, in UnicodeDecodeError: 'ascii' codec can't decode byte 0xe6 in position 0: ordinal not in range(128)

##錯誤2

recent call last): File "", line 1, in File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/encodings/utf_8.py" , line 16, in decode return codecs.utf_8_decode(input, errors, True) UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(#128)

#首先

必須有大致概念，了解下字元集，字元編碼

ASCII | Unicode | UTF-8 | 等等

字元編碼筆記：ASCII，Unicode和UTF-8

淘寶搜尋技術部落格-中文編碼雜談

str 和unicode

str和unicode都是basestring的子類別

所以有判斷是否為字串的方法

def is_str(s): return isinstance(s, basestring)

#str和unicode 轉換

decode 文件

encode 文件

##str -> decode('the_coding_of_str') -> unicode unicode -> ; encode('the_coding_you_want') -> str

##區別

str是位元組串，由unicode經過編碼(encode)後的位元組組成的宣告方式

s = '中文' s = u'中文'.encode('utf-8') >>> type( '中文')

求長度(回傳位元組數)

>>> u'中文'.encode('utf-8') '\xe4\xb8\xad\xe6\x96\x87' >>> len(u'中文'.encode('utf-8')) 6

unicode才是真正意義上的字串，由字元組成

宣告方式

##s = u'中文' s = '中文'.decode('utf-8') s = unicode('中文', 'utf-8') >>> type(u'中文')

求長度(回傳字元數),邏輯中真正想要用的
#>>> u'中文' u'\ u4e2d\u6587' >>> len(u'中文') 2

結論
##弄清楚要處理的是str還是unicode, 使用對的處理方法(str.decode/unicode.encode)

下面是判斷是否為unicode/str的方法>>> isinstance(u'中文', unicode) 真 >>> isinstance('中文', unicode) False >>> isinstance('中文', str) True >>> isinstance(u'中文', str) False

簡單原則：不要對str使用encode，不要對unicode使用decode (事實上可以對str進行encode的，具體見最後，為了保證簡單，不建議)

>>> '中文'.encode('utf-8') Traceback (most recent call last): File "", line 1, in UnicodeDecodeError: 'ascii' codec can; UnicodeDecodeError: 'ascii' codec can; UnicodeDecodeError: 'ascii' codec can; UnicodeDecodeError: 'ascii' codec can; UnicodeDecodeError: 'ascii' codec can; UnicodeDecodeError: 'ascii' codec can; UnicodeDecodeError: 'ascii' codec can； 't decode byte 0xe4 in position 0: ordinal not in range(128) >>> u'中文'.decode('utf-8') Traceback (most recent call last): File "" , line 1, in File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/encodings/utf_8.py", line 16, in decode , errors, True) UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)

不同編碼轉換,使用unicode作為中間編碼

#s是code_A的str s.decode('code_A').encode('code_B')

檔案處理,IDE和控制台

處理流程，可以這麼使用，把python看做一個水池，一個入口，一個出口

入口處，全部轉成unicode, 池裡全部使用unicode處理，出口處，再轉成目標編碼(當然，有例外，處理邏輯中要用到具體編碼的情況)

讀取檔案外部輸入編碼，decode轉換為unicode 處理(內部編碼，統一unicode) encode轉成所需的目標編碼寫到目標輸出(檔案或控制台)

#IDE與控制台報錯，原因是print時，編碼和IDE自身編碼不一致導致

輸出時將編碼轉換成一致的就可以正常輸出

>>> print u '中文'.encode('gbk') ???? >>> print u'中文'.encode('utf-8') 中文

建議

規範編碼

統一編碼，防止因為某個環節產生的亂碼

環境編碼，IDE/文字編輯器, 檔案編碼，資料庫資料表編碼

保證程式碼原始檔編碼

這個很重要

py檔案預設編碼是ASCII, 在原始碼檔案中，如果使用到非ASCII字符，則需要在檔案頭部進行編碼聲明文檔

不聲明的話，輸入非ASCII會遇到的錯誤,必須放在文件第一行或第二行

File "XXX.py", line 3 SyntaxError: Non-ASCII character '\xd6' in file c.py on line 3, but no encoding declared; see http://www.php.cn/ for details
宣告方法

# -*- coding: utf-8 -*- 或#coding=utf- 8

若頭部宣告coding=utf-8, a = '中文' 其編碼為utf-8

若頭部宣告coding=gb2312, a = '中文' 其編碼為gbk

so, 同一項目中所有源文件頭統一一個編碼,並且聲明的編碼要和源文件保存的編碼一致(編輯器相關)

在原始碼用作處理的硬編碼字串，統一用unicode

將其類型和原始檔本身的編碼隔離開, 獨立無依賴方便流程中各個位置處理

if s == u'中文': #而不是s == '中文' pass #注意這裡s到這裡時，確保轉為unicode

以上幾步搞定後，你只需要關注兩個unicode和你設定的編碼(一般使用utf-8)

處理順序

1. Decode early 2. Unicode everywhere 3. Encode later

相關模組及一些方法

取得與設定係統預設編碼

>>> import sys >>> sys.getdefaultencoding() 'ascii' >>> reload(sys) >>> sys.setdefaultencoding('utf-8') >>> sys. getdefaultencoding() 'utf-8'
str.encode('other_coding')

在python中，直接將某種編碼的str進行encode成另一種編碼str

#str_A為utf-8 str_A.encode('gbk') 執行的操作是str_A.decode('sys_codec').encode('gbk') 這裡sys_codec即為上一步sys.getdefaultencoding() 的編碼

'獲得和設定係統預設編碼'和這裡的str.encode是相關的，但我一般很少這麼用，主要是覺得複雜不可控,還是輸入明確decode，輸出明確encode來得簡單(個人觀點)

chardet

檔案編碼偵測，下載

>>> import chardet >>> f = open ('test.txt','r') >>> result = chardet.detect(f.read()) >>> result {'confidence': 0.99, 'encoding': 'utf- 8'}

\u字串轉對應unicode字串

#>>> u'中' u'\u4e2d' > >> s = '\u4e2d' >>> print s.decode('unicode_escape') 中 >>> a = '\\u4fee\\u6539\\u8282\\u70b9\u72b66 \\u6001\\u6210\\u529f' >>> a.decode('unicode_escape') u'\u4fee\u6539\u8282\u70b9\u72b6\u6001\u6210#u529f以上就是Python 編碼處理的資料整理，後續繼續補充相關資料，謝謝大家對本站的支持！

更多Python 編碼處理-str與Unicode相關文章請關注PHP中文網！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

AI Hentai Generator

免費產生 AI 無盡。

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

gmail信箱登陸入口在哪裡

7494

CakePHP 教程

1377

steam的賬戶名稱是什麼格式

win11激活密鑰永久

NYT連接提示和答案

Related knowledge

mysql 是否要付費 Apr 08, 2025 pm 05:36 PM

MySQL 有免費的社區版和收費的企業版。社區版可免費使用和修改，但支持有限，適合穩定性要求不高、技術能力強的應用。企業版提供全面商業支持，適合需要穩定可靠、高性能數據庫且願意為支持買單的應用。選擇版本時考慮的因素包括應用關鍵性、預算和技術技能。沒有完美的選項，只有最合適的方案，需根據具體情況謹慎選擇。

HadiDB：Python 中的輕量級、可水平擴展的數據庫 Apr 08, 2025 pm 06:12 PM

HadiDB：輕量級、高水平可擴展的Python數據庫HadiDB(hadidb)是一個用Python編寫的輕量級數據庫，具備高度水平的可擴展性。安裝HadiDB使用pip安裝：pipinstallhadidb用戶管理創建用戶：createuser()方法創建一個新用戶。 authentication()方法驗證用戶身份。 fromhadidb.operationimportuseruser_obj=user("admin","admin")user_obj.

mysql workbench 可以連接到 mariadb 嗎 Apr 08, 2025 pm 02:33 PM

MySQL Workbench 可以連接 MariaDB，前提是配置正確。首先選擇 "MariaDB" 作為連接器類型。在連接配置中，正確設置 HOST、PORT、USER、PASSWORD 和 DATABASE。測試連接時，檢查 MariaDB 服務是否啟動，用戶名和密碼是否正確，端口號是否正確，防火牆是否允許連接，以及數據庫是否存在。高級用法中，使用連接池技術優化性能。常見錯誤包括權限不足、網絡連接問題等，調試錯誤時仔細分析錯誤信息和使用調試工具。優化網絡配置可以提升性能

Navicat查看MongoDB數據庫密碼的方法 Apr 08, 2025 pm 09:39 PM

直接通過 Navicat 查看 MongoDB 密碼是不可能的，因為它以哈希值形式存儲。取回丟失密碼的方法：1. 重置密碼；2. 檢查配置文件（可能包含哈希值）；3. 檢查代碼（可能硬編碼密碼）。

mysql 無法連接到本地主機怎麼解決 Apr 08, 2025 pm 02:24 PM

無法連接 MySQL 可能是由於以下原因：MySQL 服務未啟動、防火牆攔截連接、端口號錯誤、用戶名或密碼錯誤、my.cnf 中的監聽地址配置不當等。排查步驟包括：1. 檢查 MySQL 服務是否正在運行；2. 調整防火牆設置以允許 MySQL 監聽 3306 端口；3. 確認端口號與實際端口號一致；4. 檢查用戶名和密碼是否正確；5. 確保 my.cnf 中的 bind-address 設置正確。

mysql 需要互聯網嗎 Apr 08, 2025 pm 02:18 PM

MySQL 可在無需網絡連接的情況下運行，進行基本的數據存儲和管理。但是，對於與其他系統交互、遠程訪問或使用高級功能（如復制和集群）的情況，則需要網絡連接。此外，安全措施（如防火牆）、性能優化（選擇合適的網絡連接）和數據備份對於連接到互聯網的 MySQL 數據庫至關重要。

如何針對高負載應用程序優化 MySQL 性能？ Apr 08, 2025 pm 06:03 PM

MySQL數據庫性能優化指南在資源密集型應用中，MySQL數據庫扮演著至關重要的角色，負責管理海量事務。然而，隨著應用規模的擴大，數據庫性能瓶頸往往成為製約因素。本文將探討一系列行之有效的MySQL性能優化策略，確保您的應用在高負載下依然保持高效響應。我們將結合實際案例，深入講解索引、查詢優化、數據庫設計以及緩存等關鍵技術。 1.數據庫架構設計優化合理的數據庫架構是MySQL性能優化的基石。以下是一些核心原則：選擇合適的數據類型選擇最小的、符合需求的數據類型，既能節省存儲空間，又能提升數據處理速度