簡單介紹Python程式設計中的字串編碼問題-Python教學-PHP中文網

首頁

後端開發

Python教學

簡單介紹Python程式設計中的字串編碼問題

Tomorin

Aug 23, 2018 pm 05:47 PM

本文介紹了Python的字串程式設計,我們已經講過了，字串也是一種資料型別，但是，字符串比較特殊的是還有一個編碼問題。

因為計算機只能處理數字，如果要處理文本，就必須先把文本轉換為數字才能處理。最早的電腦在設計時採用8個位元（bit）作為一個位元組（byte），所以，一個位元組能表示的最大的整數就是255（二進制11111111=十進制255），如果要表示更大的整數，就必須用更多的位元組。例如兩個位元組可以表示的最大整數是65535，4個位元組可以表示的最大整數是4294967295。

由於電腦是美國人發明的，因此，最早只有127個字元被編碼到電腦裡，也就是大小寫英文字母、數字和一些符號，這個編碼表被稱為ASCII編碼，例如大寫字母A的編碼是65，小寫字母z的編碼是122。

但要處理中文顯然一個字節是不夠的，至少需要兩個字節，而且還不能和ASCII編碼衝突，所以，中國製定了GB2312編碼，用來把中文編進去。

你可以想得到的是，全世界有上百種語言，日本把日文編到Shift_JIS裡，韓國把韓文編到Euc-kr裡，各國有各國的標準，就會不可避免地出現衝突，結果就是，在多語言混合的文字中，顯示出來會有亂碼。

因此，Unicode應運而生。 Unicode把所有語言都統一到一套編碼裡，這樣就不會再有亂碼問題了。

Unicode標準也在不斷發展，但最常用的是用兩個位元組表示一個字元（如果要用到非常偏僻的字符，就需要4個位元組）。現代作業系統和大多數程式語言都直接支援Unicode。

現在，捋一捋ASCII編碼和Unicode編碼的區別：ASCII編碼是1個位元組，而Unicode編碼通常是2個位元組。

字母A用ASCII編碼是十進位的65，二進位的01000001；

字元0用ASCII編碼是十進位的48，二進位的00110000，注意字元'0'和整數0是不同的；

漢字中已經超出了ASCII編碼的範圍，用Unicode編碼是十進位的20013，二進位的01001110 00101101。

你可以猜測，如果把ASCII編碼的A用Unicode編碼，只需要在前面補0就可以，因此，A的Unicode編碼是00000000 01000001。

新的問題又出現了：如果統一成Unicode編碼，亂碼問題就從此消失了。但是，如果你寫的文字基本上全部是英文的話，用Unicode編碼比ASCII編碼需要多一倍的儲存空間，在儲存和傳輸上就十分不划算。

所以，本著節約的精神，又出現了把Unicode編碼轉換成「可變長編碼」的UTF-8編碼。 UTF-8編碼把一個Unicode字元依照不同的數字大小編碼成1-6個位元組，常用的英文字母被編碼成1個位元組，漢字通常是3個字節，只有很生僻的字元才會被編碼成4-6個位元組。如果你要傳輸的文字包含大量英文字符，用UTF-8編碼就能節省空間：

簡單介紹Python程式設計中的字串編碼問題

#所以你看到很多網頁的源碼上會有類似的訊息，表示該網頁正是用的UTF-8編碼。

以上是簡單介紹Python程式設計中的字串編碼問題的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

熱工具

熱門話題

Java教學

1665

CakePHP 教程

1423

Laravel 教程

1321

PHP教程

1269

C# 教程

1249

Related knowledge

Python vs.C：申請和用例 Apr 12, 2025 am 12:01 AM

Python适合数据科学、Web开发和自动化任务，而C 适用于系统编程、游戏开发和嵌入式系统。Python以简洁和强大的生态系统著称，C 则以高性能和底层控制能力闻名。

Python：遊戲，Guis等 Apr 13, 2025 am 12:14 AM

Python在遊戲和GUI開發中表現出色。 1)遊戲開發使用Pygame，提供繪圖、音頻等功能，適合創建2D遊戲。 2)GUI開發可選擇Tkinter或PyQt，Tkinter簡單易用，PyQt功能豐富，適合專業開發。

Python與C：學習曲線和易用性 Apr 19, 2025 am 12:20 AM

Python更易學且易用，C 則更強大但複雜。 1.Python語法簡潔，適合初學者，動態類型和自動內存管理使其易用，但可能導致運行時錯誤。 2.C 提供低級控制和高級特性，適合高性能應用，但學習門檻高，需手動管理內存和類型安全。

Python和時間：充分利用您的學習時間 Apr 14, 2025 am 12:02 AM

要在有限的時間內最大化學習Python的效率，可以使用Python的datetime、time和schedule模塊。 1.datetime模塊用於記錄和規劃學習時間。 2.time模塊幫助設置學習和休息時間。 3.schedule模塊自動化安排每週學習任務。

Python vs.C：探索性能和效率 Apr 18, 2025 am 12:20 AM

Python在開發效率上優於C ，但C 在執行性能上更高。 1.Python的簡潔語法和豐富庫提高開發效率。 2.C 的編譯型特性和硬件控制提升執行性能。選擇時需根據項目需求權衡開發速度與執行效率。

Python：自動化，腳本和任務管理 Apr 16, 2025 am 12:14 AM

Python在自動化、腳本編寫和任務管理中表現出色。 1)自動化：通過標準庫如os、shutil實現文件備份。 2)腳本編寫：使用psutil庫監控系統資源。 3)任務管理：利用schedule庫調度任務。 Python的易用性和豐富庫支持使其在這些領域中成為首選工具。

Python標準庫的哪一部分是：列表或數組？ Apr 27, 2025 am 12:03 AM

pythonlistsarepartofthestAndArdLibrary，herilearRaysarenot.listsarebuilt-In，多功能，和Rused ForStoringCollections，而EasaraySaraySaraySaraysaraySaraySaraysaraySaraysarrayModuleandleandleandlesscommonlyusedDduetolimitedFunctionalityFunctionalityFunctionality。