Python中的字串操作與編碼Unicode詳解

首頁

後端開發

Python教學

Python中的字串操作與編碼Unicode詳解_

高洛峰

Feb 21, 2017 am 10:12 AM

其實字串也是一種資料型，但是，字串比較特殊的是還有一個編碼問題。以下這篇文章主要給大家介紹了Python中的字串操作和編碼Unicode詳解的相關資料,需要的朋友可以參考借鑒，下面來一起看看吧。

本文主要給大家介紹了關於 Python中的字串操作和編碼Unicode的一些知識，下面話不多說，需要的朋友們下面來一起學習吧。

字串類型

str：Unicode字串。採用''或r''建構的字串皆為str，單引號可以用雙引號或三引號來取代。無論用哪種方式進行製定，在Python內部儲存時沒有區別。

bytes：二進位字串。由於jpg等其他格式的檔案不能用str來顯示，所以才用bytes來表示，bytes的每個位元組為一個0-255的數字。如果列印的時候，Python會把能夠用ASCII表示的部分顯示為ASCII，這樣方便閱讀。 bytes幾乎支援除了格式化以外的所有str的方法，甚至包含了re模組

bytearray() ：二進位可原地變動的字串。

utf-8編碼範圍

xxxxxx 0x4000000~0x7FFFFFFF) 6位元組1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx*&BOM*字節標記順序標記順序標記*

範圍	位元組數	儲存格式
0x0000~0x007F (0 ~ 127)	1位元組	0xxxxxxx
0x0080~0x07FF(128 ~ 2047)	2位元組	110xxxxx 10xxxxxx
0x0800~FFFF(2048 ~ 65535)	3位元組	1110xxxx 10xxxxxx 10xxxxxx
0x10000~1FFFFFF(65536 ~ 2097152)	4位元組	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
0x2000000~0x3FFFFFF	5位元組	1111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxx

BOM是byte order marker的縮寫，

指定編碼寫入時的規則

Python在使用'utf-8 '編碼寫入檔案時不會寫入BOM頭，但如果指定編碼'utf-8-sig'則會迫使Python寫入一個BOM頭。

使用'utf-16-be'不會寫入一個BOM頭，但是採用'utf-16'則會寫入一個BOM頭。

>>> open(&#39;h.txt&#39;,&#39;w&#39;,encoding=&#39;utf-8-sig&#39;).write(&#39;aaa&#39;)
3
>>> open(&#39;h.txt&#39;,&#39;rb&#39;).read()
b&#39;\xef\xbb\xbfaaa&#39;
>>> open(&#39;h.txt&#39;,&#39;w&#39;,encoding=&#39;utf-16&#39;).write(&#39;bbb&#39;)
3
>>> open(&#39;h.txt&#39;,&#39;rb&#39;).read()
b&#39;\xff\xfeb\x00b\x00b\x00&#39;
>>> open(&#39;hh.txt&#39;,&#39;w&#39;,encoding=&#39;utf-16-be&#39;).write(&#39;ccc&#39;)
3
>>> open(&#39;hh.txt&#39;,&#39;rb&#39;).read()
b&#39;\x00c\x00c\x00c&#39;
>>> open(&#39;h.txt&#39;,&#39;w&#39;,encoding=&#39;utf-8&#39;).write(&#39;ddd&#39;)
3
>>> open(&#39;h.txt&#39;,&#39;rb&#39;).read()
b&#39;ddd&#39;

登入後複製

讀取時的規則

如果指定了正確的編碼，那麼BOM會忽略，否則BOM會顯示為亂碼或回傳異常。

>>> open(&#39;h.txt&#39;,&#39;r&#39;).read()
&#39;锘縟dd&#39;
>>> open(&#39;h.txt&#39;,&#39;r&#39;,encoding=&#39;utf-8-sig&#39;).read()
&#39;ddd&#39;

登入後複製

編碼與解碼

chr和ord

>>> ord(&#39;中&#39;) #20013
>>> chr(20013) #&#39;中&#39;

登入後複製

把Unicode硬編碼進字串中。

'xhh'：以2位元十六進位表示一個字元

'uhhhh'：以4位元十六進位表示一個字元

'uhhhh'：以4位元十六進位表示一個字元：

'Uhhhhhhhh'：以8位元十六進位表示一個字元

>>> s = 'pyx74hu4e2don' # 'pyth中on'

str和bytes， bytearray進行轉換

str.encode(encoding='utf-8' ) 

bytes(s,encoding='utf-8') 

bytes.decode(encoding=' utf-8') 

str(B, encoding='utf-8')

bytearray(string , encoding='utf-8')

bytearray(bytes)

文檔編碼聲明

Python預設使用utf-8編碼。

# -*- coding: latin-1 -*- ：表示聲明文件為latin-1編碼。

幫助函數

sys.platform  #&#39;win32&#39;
sys.getdefaultencoding() # &#39;utf-8&#39;
sys.byteorder  #&#39;little&#39;
s.isalnum()  #s表示字符串
s.isalpha()
s.isdecimal
s.isdigit()
s.isnumeric()
s.isprintable()
s.isspace()
s.isidentifier() #如果字符串可以用作变量名，那么返回True
s.islower()
s.isupper()
s.istitle()

登入後複製

更多Python中的字串操作和編碼Unicode詳解相關文章請關注PHP中文網！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

熱工具

熱門話題

Java教學

1665

CakePHP 教程

1424

Laravel 教程

1321

PHP教程

1269

C# 教程

1249

Related knowledge

Python vs.C：申請和用例 Apr 12, 2025 am 12:01 AM

Python适合数据科学、Web开发和自动化任务，而C 适用于系统编程、游戏开发和嵌入式系统。Python以简洁和强大的生态系统著称，C 则以高性能和底层控制能力闻名。

Python：遊戲，Guis等 Apr 13, 2025 am 12:14 AM

Python在遊戲和GUI開發中表現出色。 1)遊戲開發使用Pygame，提供繪圖、音頻等功能，適合創建2D遊戲。 2)GUI開發可選擇Tkinter或PyQt，Tkinter簡單易用，PyQt功能豐富，適合專業開發。

Python與C：學習曲線和易用性 Apr 19, 2025 am 12:20 AM

Python更易學且易用，C 則更強大但複雜。 1.Python語法簡潔，適合初學者，動態類型和自動內存管理使其易用，但可能導致運行時錯誤。 2.C 提供低級控制和高級特性，適合高性能應用，但學習門檻高，需手動管理內存和類型安全。

Python和時間：充分利用您的學習時間 Apr 14, 2025 am 12:02 AM

要在有限的時間內最大化學習Python的效率，可以使用Python的datetime、time和schedule模塊。 1.datetime模塊用於記錄和規劃學習時間。 2.time模塊幫助設置學習和休息時間。 3.schedule模塊自動化安排每週學習任務。

Python vs.C：探索性能和效率 Apr 18, 2025 am 12:20 AM

Python在開發效率上優於C ，但C 在執行性能上更高。 1.Python的簡潔語法和豐富庫提高開發效率。 2.C 的編譯型特性和硬件控制提升執行性能。選擇時需根據項目需求權衡開發速度與執行效率。

Python：自動化，腳本和任務管理 Apr 16, 2025 am 12:14 AM

Python在自動化、腳本編寫和任務管理中表現出色。 1)自動化：通過標準庫如os、shutil實現文件備份。 2)腳本編寫：使用psutil庫監控系統資源。 3)任務管理：利用schedule庫調度任務。 Python的易用性和豐富庫支持使其在這些領域中成為首選工具。

Python標準庫的哪一部分是：列表或數組？ Apr 27, 2025 am 12:03 AM

pythonlistsarepartofthestAndArdLibrary，herilearRaysarenot.listsarebuilt-In，多功能，和Rused ForStoringCollections，而EasaraySaraySaraySaraysaraySaraySaraysaraySaraysarrayModuleandleandleandlesscommonlyusedDduetolimitedFunctionalityFunctionalityFunctionality。