Python3解決棘手的字符編碼問題詳解-Python教學-PHP中文網

首頁

後端開發

Python教學

Python3解決棘手的字符編碼問題詳解

PHPz

Apr 02, 2017 pm 01:23 PM

Python3 最重要的一項改進之一就是解決了 Python2 中字串與字元編碼遺留下來的這個大坑。 Python 編碼為什麼那麼蛋會痛？已經介紹過 Python2 字串設計上的一些缺陷：
- 使用 ASCII 碼作為預設編碼方式，對中文處理很不友善。
- 把字串牽強地分成 unicode 和 str 兩種類型，誤導開發者

#當然這並不算Bug，只要處理的時候多留心也可以避免這些坑。但在 Python3兩個問題都很好的解決了。

首先，Python3把系統預設編碼設定為UTF-8

>>> import sys
>>> sys.getdefaultencoding()
&#39;utf-8&#39;
>>>

登入後複製

然後，文字字元和二進位資料區分得更清晰，分別用str和bytes表示。文字字符全部用str類型表示，str能表示Unicode字符集中所有字符，而二進位位元組資料用一種全新的資料類型，用bytes來表示。

str

>>> a = "a"
>>> a
&#39;a&#39;
>>> type(a)
<class &#39;str&#39;>
>>> b = "禅"
>>> b
&#39;禅&#39;
>>> type(b)
<class &#39;str&#39;>

登入後複製

bytes

Python3 中，在字元引號前加'b'，明確表示這是一個bytes 類型的物件，實際上它就是一組二進位位元組序列組成的數據，bytes 類型可以是ASCII範圍內的字元和其它十六進位形式的字元數據，但不能用中文等非ASCII字元表示。

>>> c = b&#39;a&#39;>>> c
b&#39;a&#39;>>> type(c)
<class &#39;bytes&#39;>

>>> d = b&#39;\xe7\xa6\x85&#39;>>> d
b&#39;\xe7\xa6\x85&#39;>>> type(d)
<class &#39;bytes&#39;>
>>>

>>> e = b&#39;禅&#39;
  File "<stdin>", line 1SyntaxError: bytes can only contain ASCII literal characters.

登入後複製

bytes類型提供的運算和str一樣，支援分片、索引、基本數值運算等運算。但是str與bytes類型的資料不能執行+操作，儘管在py2中是可行的。

>>> b"a"+b"c"
b&#39;ac&#39;
>>> b"a"*2
b&#39;aa&#39;
>>> b"abcdef\xd6"[1:]
b&#39;bcdef\xd6&#39;
>>> b"abcdef\xd6"[-1]
214
>>> b"a" + "b"
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
TypeError: can&#39;t concat bytes to str

登入後複製

encode 與 decode

str與bytes之間的轉換可以用encode和從decode方法。

encode負責字元到位元組的編碼轉換。預設使用UTF-8編碼準換。

>>> s = "Python之禅"
>>> s.encode()
b&#39;Python\xe4\xb9\x8b\xe7\xa6\x85&#39;
>>> s.encode("gbk")
b&#39;Python\xd6\xae\xec\xf8&#39;

登入後複製

decode負責位元組到字元的解碼轉換，通用使用UTF-8編碼格式進行轉換。

>>> b&#39;Python\xe4\xb9\x8b\xe7\xa6\x85&#39;.decode()
&#39;Python之禅&#39;
>>> b&#39;Python\xd6\xae\xec\xf8&#39;.decode("gbk")
&#39;Python之禅&#39;

登入後複製

以上是Python3解決棘手的字符編碼問題詳解的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

熱工具

熱門話題

Java教學

1669

CakePHP 教程

1428

Laravel 教程

1329

PHP教程

1273

C# 教程

1256

Related knowledge

Python與C：學習曲線和易用性 Apr 19, 2025 am 12:20 AM

Python更易學且易用，C 則更強大但複雜。 1.Python語法簡潔，適合初學者，動態類型和自動內存管理使其易用，但可能導致運行時錯誤。 2.C 提供低級控制和高級特性，適合高性能應用，但學習門檻高，需手動管理內存和類型安全。

Python和時間：充分利用您的學習時間 Apr 14, 2025 am 12:02 AM

要在有限的時間內最大化學習Python的效率，可以使用Python的datetime、time和schedule模塊。 1.datetime模塊用於記錄和規劃學習時間。 2.time模塊幫助設置學習和休息時間。 3.schedule模塊自動化安排每週學習任務。

Python vs.C：探索性能和效率 Apr 18, 2025 am 12:20 AM

Python在開發效率上優於C ，但C 在執行性能上更高。 1.Python的簡潔語法和豐富庫提高開發效率。 2.C 的編譯型特性和硬件控制提升執行性能。選擇時需根據項目需求權衡開發速度與執行效率。

學習Python：2小時的每日學習是否足夠？ Apr 18, 2025 am 12:22 AM

每天學習Python兩個小時是否足夠？這取決於你的目標和學習方法。 1)制定清晰的學習計劃，2)選擇合適的學習資源和方法，3)動手實踐和復習鞏固，可以在這段時間內逐步掌握Python的基本知識和高級功能。

Python標準庫的哪一部分是：列表或數組？ Apr 27, 2025 am 12:03 AM

pythonlistsarepartofthestAndArdLibrary，herilearRaysarenot.listsarebuilt-In，多功能，和Rused ForStoringCollections，而EasaraySaraySaraySaraysaraySaraySaraysaraySaraysarrayModuleandleandleandlesscommonlyusedDduetolimitedFunctionalityFunctionalityFunctionality。

Python vs. C：了解關鍵差異 Apr 21, 2025 am 12:18 AM

Python和C 各有優勢，選擇應基於項目需求。 1)Python適合快速開發和數據處理，因其簡潔語法和動態類型。 2)C 適用於高性能和系統編程，因其靜態類型和手動內存管理。

Python：自動化，腳本和任務管理 Apr 16, 2025 am 12:14 AM

Python在自動化、腳本編寫和任務管理中表現出色。 1)自動化：通過標準庫如os、shutil實現文件備份。 2)腳本編寫：使用psutil庫監控系統資源。 3)任務管理：利用schedule庫調度任務。 Python的易用性和豐富庫支持使其在這些領域中成為首選工具。

Web開發的Python：關鍵應用程序 Apr 18, 2025 am 12:20 AM

Python在Web開發中的關鍵應用包括使用Django和Flask框架、API開發、數據分析與可視化、機器學習與AI、以及性能優化。 1.Django和Flask框架：Django適合快速開發複雜應用，Flask適用於小型或高度自定義項目。 2.API開發：使用Flask或DjangoRESTFramework構建RESTfulAPI。 3.數據分析與可視化：利用Python處理數據並通過Web界面展示。 4.機器學習與AI：Python用於構建智能Web應用。 5.性能優化：通過異步編程、緩存和代碼優

See all articles

Python3解決棘手的字符編碼問題詳解

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題