Python 程式設計處理-str與Unicode
一篇關於STR和UNICODE的好文章
整理下python編碼相關的內容
##注意: 以下討論為Python2.x版本, Py3k的待嘗試開始
用python處理中文時,讀取檔案或訊息,http參數等等一運行,發現亂碼(字串處理,讀寫文件,print)然後,大多數人的做法是,調用encode/decode進行調試,並沒有明確思考為何出現亂碼所以調試時最常出現的錯誤錯誤1
Traceback (most recent call last): File "
recent call last): File "
必須有大致概念,了解下字元集,字元編碼
ASCII | Unicode | UTF-8 | 等等
字元編碼筆記:ASCII,Unicode和UTF-8
淘寶搜尋技術部落格-中文編碼雜談
str 和unicodestr和unicode都是basestring的子類別
所以有判斷是否為字串的方法
def is_str(s): return isinstance(s, basestring)
#str和unicode 轉換
decode 文件
encode 文件
##str -> decode('the_coding_of_str') -> unicode unicode -> ; encode('the_coding_you_want') -> str
##區別
str是位元組串,由unicode經過編碼(encode)後的位元組組成的宣告方式
s = '中文' s = u'中文'.encode('utf-8') >>> type( '中文')求長度(回傳位元組數)
unicode才是真正意義上的字串,由字元組成
##s = u'中文' s = '中文'.decode('utf-8') s = unicode('中文', 'utf-8') >>> type(u'中文')
求長度(回傳字元數),邏輯中真正想要用的
#>>> u'中文' u'\ u4e2d\u6587' >>> len(u'中文') 2
結論
##弄清楚要處理的是str還是unicode, 使用對的處理方法(str.decode/unicode.encode)
下面是判斷是否為unicode/str的方法>>> isinstance(u'中文', unicode) 真 >>> isinstance('中文', unicode) False >>> isinstance('中文', str) True >>> isinstance(u'中文', str) False
簡單原則:不要對str使用encode,不要對unicode使用decode (事實上可以對str進行encode的,具體見最後,為了保證簡單,不建議)>>> '中文'.encode('utf-8') Traceback (most recent call last): File "
#s是code_A的str s.decode('code_A').encode('code_B')
檔案處理,IDE和控制台
讀取檔案 外部輸入編碼,decode轉換為unicode 處理(內部編碼,統一unicode) encode轉成所需的目標編碼 寫到目標輸出(檔案或控制台)
#IDE與控制台報錯,原因是print時,編碼和IDE自身編碼不一致導致
輸出時將編碼轉換成一致的就可以正常輸出
>>> print u '中文'.encode('gbk') ???? >>> print u'中文'.encode('utf-8') 中文
建議
規範編碼
統一編碼,防止因為某個環節產生的亂碼
環境編碼,IDE/文字編輯器, 檔案編碼,資料庫資料表編碼
保證程式碼原始檔編碼
這個很重要
py檔案預設編碼是ASCII, 在原始碼檔案中,如果使用到非ASCII字符,則需要在檔案頭部進行編碼聲明文檔
不聲明的話,輸入非ASCII會遇到的錯誤,必須放在文件第一行或第二行
File "XXX.py", line 3 SyntaxError: Non-ASCII character '\xd6' in file c.py on line 3, but no encoding declared; see http://www.php.cn/ for details
宣告方法
# -*- coding: utf-8 -*- 或#coding=utf- 8
若頭部宣告coding=utf-8, a = '中文' 其編碼為utf-8
若頭部宣告coding=gb2312, a = '中文' 其編碼為gbk
so, 同一項目中所有源文件頭統一一個編碼,並且聲明的編碼要和源文件保存的編碼一致(編輯器相關)
在原始碼用作處理的硬編碼字串,統一用unicode
將其類型和原始檔本身的編碼隔離開, 獨立無依賴方便流程中各個位置處理
if s == u'中文': #而不是s == '中文' pass #注意這裡s到這裡時,確保轉為unicode
以上幾步搞定後,你只需要關注兩個unicode和你設定的編碼(一般使用utf-8)
處理順序
1. Decode early 2. Unicode everywhere 3. Encode later
相關模組及一些方法
取得與設定係統預設編碼
>>> import sys >>> sys.getdefaultencoding() 'ascii' >>> reload(sys)
str.encode('other_coding')
在python中,直接將某種編碼的str進行encode成另一種編碼str
#str_A為utf-8 str_A.encode('gbk') 執行的操作是str_A.decode('sys_codec').encode('gbk') 這裡sys_codec即為上一步sys.getdefaultencoding() 的編碼
'獲得和設定係統預設編碼'和這裡的str.encode是相關的,但我一般很少這麼用,主要是覺得複雜不可控,還是輸入明確decode,輸出明確encode來得簡單(個人觀點)
chardet
檔案編碼偵測,下載
>>> import chardet >>> f = open ('test.txt','r') >>> result = chardet.detect(f.read()) >>> result {'confidence': 0.99, 'encoding': 'utf- 8'}
\u字串轉對應unicode字串
#>>> u'中' u'\u4e2d' > >> s = '\u4e2d' >>> print s.decode('unicode_escape') 中 >>> a = '\\u4fee\\u6539\\u8282\\u70b9\u72b66 \\u6001\\u6210\\u529f' >>> a.decode('unicode_escape') u'\u4fee\u6539\u8282\u70b9\u72b6\u6001\u6210#u529f以上就是Python 編碼處理的資料整理,後續繼續補充相關資料,謝謝大家對本站的支持!
更多Python 編碼處理-str與Unicode相關文章請關注PHP中文網!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

MySQL 有免費的社區版和收費的企業版。社區版可免費使用和修改,但支持有限,適合穩定性要求不高、技術能力強的應用。企業版提供全面商業支持,適合需要穩定可靠、高性能數據庫且願意為支持買單的應用。選擇版本時考慮的因素包括應用關鍵性、預算和技術技能。沒有完美的選項,只有最合適的方案,需根據具體情況謹慎選擇。

HadiDB:輕量級、高水平可擴展的Python數據庫HadiDB(hadidb)是一個用Python編寫的輕量級數據庫,具備高度水平的可擴展性。安裝HadiDB使用pip安裝:pipinstallhadidb用戶管理創建用戶:createuser()方法創建一個新用戶。 authentication()方法驗證用戶身份。 fromhadidb.operationimportuseruser_obj=user("admin","admin")user_obj.

MySQL Workbench 可以連接 MariaDB,前提是配置正確。首先選擇 "MariaDB" 作為連接器類型。在連接配置中,正確設置 HOST、PORT、USER、PASSWORD 和 DATABASE。測試連接時,檢查 MariaDB 服務是否啟動,用戶名和密碼是否正確,端口號是否正確,防火牆是否允許連接,以及數據庫是否存在。高級用法中,使用連接池技術優化性能。常見錯誤包括權限不足、網絡連接問題等,調試錯誤時仔細分析錯誤信息和使用調試工具。優化網絡配置可以提升性能

直接通過 Navicat 查看 MongoDB 密碼是不可能的,因為它以哈希值形式存儲。取回丟失密碼的方法:1. 重置密碼;2. 檢查配置文件(可能包含哈希值);3. 檢查代碼(可能硬編碼密碼)。

無法連接 MySQL 可能是由於以下原因:MySQL 服務未啟動、防火牆攔截連接、端口號錯誤、用戶名或密碼錯誤、my.cnf 中的監聽地址配置不當等。排查步驟包括:1. 檢查 MySQL 服務是否正在運行;2. 調整防火牆設置以允許 MySQL 監聽 3306 端口;3. 確認端口號與實際端口號一致;4. 檢查用戶名和密碼是否正確;5. 確保 my.cnf 中的 bind-address 設置正確。

MySQL 可在無需網絡連接的情況下運行,進行基本的數據存儲和管理。但是,對於與其他系統交互、遠程訪問或使用高級功能(如復制和集群)的情況,則需要網絡連接。此外,安全措施(如防火牆)、性能優化(選擇合適的網絡連接)和數據備份對於連接到互聯網的 MySQL 數據庫至關重要。

MySQL數據庫性能優化指南在資源密集型應用中,MySQL數據庫扮演著至關重要的角色,負責管理海量事務。然而,隨著應用規模的擴大,數據庫性能瓶頸往往成為製約因素。本文將探討一系列行之有效的MySQL性能優化策略,確保您的應用在高負載下依然保持高效響應。我們將結合實際案例,深入講解索引、查詢優化、數據庫設計以及緩存等關鍵技術。 1.數據庫架構設計優化合理的數據庫架構是MySQL性能優化的基石。以下是一些核心原則:選擇合適的數據類型選擇最小的、符合需求的數據類型,既能節省存儲空間,又能提升數據處理速度

作為數據專業人員,您需要處理來自各種來源的大量數據。這可能會給數據管理和分析帶來挑戰。幸運的是,兩項 AWS 服務可以提供幫助:AWS Glue 和 Amazon Athena。
