Python中的字串操作與編碼Unicode詳解_

高洛峰
發布: 2017-02-21 10:12:31
原創
1499 人瀏覽過

其實字串也是一種資料型,但是,字串比較特殊的是還有一個編碼問題。以下這篇文章主要給大家介紹了Python中的字串操作和編碼Unicode詳解的相關資料,需要的朋友可以參考借鑒,下面來一起看看吧。

本文主要給大家介紹了關於 Python中的字串操作和編碼Unicode的一些知識,下面話不多說,需要的朋友們下面來一起學習吧。

字串類型

str:Unicode字串。採用''或r''建構的字串皆為str,單引號可以用雙引號或三引號來取代。無論用哪種方式進行製定,在Python內部儲存時沒有區別。

bytes:二進位字串。由於jpg等其他格式的檔案不能用str來顯示,所以才用bytes來表示,bytes的每個位元組為一個0-255的數字。如果列印的時候,Python會把能夠用ASCII表示的部分顯示為ASCII,這樣方便閱讀。 bytes幾乎支援除了格式化以外的所有str的方法,甚至包含了re模組

bytearray() :二進位可原地變動的字串。

utf-8編碼範圍

xxxxxx 0x4000000~0x7FFFFFFF) 6位元組1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx*&BOM*字節標記順序標記順序標記*
範圍 位元組數 儲存格式
0x0000~0x007F (0 ~ 127) 1位元組 0xxxxxxx
0x0080~0x07FF(128 ~ 2047) 2位元組 110xxxxx 10xxxxxx
0x0800~FFFF(2048 ~ 65535)  3位元組 1110xxxx 10xxxxxx 10xxxxxx
0x10000~1FFFFFF(65536 ~ 2097152) 4位元組 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
0x2000000~0x3FFFFFF 5位元組 1111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxx

BOM是byte order marker的縮寫,

指定編碼寫入時的規則

Python在使用'utf-8 '編碼寫入檔案時不會寫入BOM頭,但如果指定編碼'utf-8-sig'則會迫使Python寫入一個BOM頭。

使用'utf-16-be'不會寫入一個BOM頭,但是採用'utf-16'則會寫入一個BOM頭。


>>> open('h.txt','w',encoding='utf-8-sig').write('aaa')
3
>>> open('h.txt','rb').read()
b'\xef\xbb\xbfaaa'
>>> open('h.txt','w',encoding='utf-16').write('bbb')
3
>>> open('h.txt','rb').read()
b'\xff\xfeb\x00b\x00b\x00'
>>> open('hh.txt','w',encoding='utf-16-be').write('ccc')
3
>>> open('hh.txt','rb').read()
b'\x00c\x00c\x00c'
>>> open('h.txt','w',encoding='utf-8').write('ddd')
3
>>> open('h.txt','rb').read()
b'ddd'
登入後複製

讀取時的規則

如果指定了正確的編碼,那麼BOM會忽略,否則BOM會顯示為亂碼或回傳異常。

>>> open('h.txt','r').read()
'锘縟dd'
>>> open('h.txt','r',encoding='utf-8-sig').read()
'ddd'
登入後複製

編碼與解碼

<br/>chr和ord

  • >>> ord(&#39;中&#39;) #20013
    >>> chr(20013) #&#39;中&#39;
    登入後複製

把Unicode硬編碼進字串中。

  •        'xhh':以2位元十六進位表示一個字元

       'uhhhh':以4位元十六進位表示一個字元

<br/>

       'uhhhh':以4位元十六進位表示一個字元:

<br/>

       'Uhhhhhhhh':以8位元十六進位表示一個字元

<br/>

      

>>> s = 'pyx74hu4e2don' # 'pyth中on'

str和bytes, bytearray進行轉換<br/>

str.encode(encoding='utf-8' )<br/>

bytes(s,encoding='utf-8')<br/>

bytes.decode(encoding=' utf-8')<br/>

str(B, encoding='utf-8')<br/>

bytearray(string , encoding='utf-8')<br/>

bytearray(bytes)

文檔編碼聲明<br/>

Python預設使用utf-8編碼。

<br/>

# -*- coding: latin-1 -*- :表示聲明文件為latin-1編碼。

幫助函數<br/>

sys.platform  #&#39;win32&#39;
sys.getdefaultencoding() # &#39;utf-8&#39;
sys.byteorder  #&#39;little&#39;
s.isalnum()  #s表示字符串
s.isalpha()
s.isdecimal
s.isdigit()
s.isnumeric()
s.isprintable()
s.isspace()
s.isidentifier() #如果字符串可以用作变量名,那么返回True
s.islower()
s.isupper()
s.istitle()
登入後複製

更多Python中的字串操作和編碼Unicode詳解相關文章請關注PHP中文網!

相關標籤:
來源:php.cn
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板
關於我們 免責聲明 Sitemap
PHP中文網:公益線上PHP培訓,幫助PHP學習者快速成長!