python解決漢字編碼問題：Unicode Decode Error

首頁

後端開發

Python教學

python解決漢字編碼問題：Unicode Decode Error_python

高洛峰

Feb 23, 2017 pm 03:53 PM

前言

最近由於專案需要，需要讀取一個含有中文的txt文檔，完了也要儲存文件。文件之前是由base64編碼，導致所有漢字讀取顯示亂碼。專案群組把base64廢棄之後，先後出現兩個錯誤：

ascii codec can&#39;t encode characters in position ordinal not in range 128
UnicodeDecodeError: ‘utf8&#39; codec can&#39;t decode byte 0x。

登入後複製

如果對於ascii、unicode和utf-8還不了解的小夥伴，可以看之前的這篇文章關於字串和編碼

那麼必須對這三個概念有所了解：

ascii只能表示數字、英文字母和一些特殊符號，不能表示漢字
unicode和utf-8都可以表示漢字，unicode是固定長度，utf-8是可變長度
記憶體中儲存方式一般為unicode，而磁碟檔案儲存方式一般為utf-8，因為utf-8可以節省儲存空間

那麼python的預設編碼是什麼？

>>> import sys
>>> sys.getdefaultencoding()
&#39;ascii&#39;
>>> reload(sys)
<module &#39;sys&#39; (built-in)>
>>> sys.setdefaultencoding(&#39;utf-8&#39;)
>>> sys.getdefaultencoding()
&#39;utf-8&#39;

登入後複製

python的預設編碼是ascii，可以透過sys.setdefaultencoding('utf-8')函數來設定python的預設編碼。

python中可以透過encode和decode的方式改變資料的編碼，例如：

>>> u&#39;汉字&#39;
u&#39;\u6c49\u5b57&#39;
>>> u&#39;汉字&#39;.encode(&#39;utf-8&#39;)
&#39;\xe6\xb1\x89\xe5\xad\x97&#39;
>>> u&#39;汉字&#39;.encode(&#39;utf-8&#39;).decode(&#39;utf-8&#39;)
u&#39;\u6c49\u5b57&#39;

登入後複製

##我們可以透過這兩個函數來設定編碼。

那麼，python中的str是什麼型別？

>>> import binascii
>>> &#39;汉字&#39;
&#39;\xba\xba\xd7\xd6&#39;
>>> type(&#39;汉字&#39;)
<type &#39;str&#39;>
>>> print binascii.b2a_hex(&#39;汉字&#39;)
babad7d6
>>> print binascii.b2a_hex(u&#39;汉字&#39;)
Traceback (most recent call last):
 File "<stdin>", line 1, in <module>
UnicodeEncodeError: &#39;ascii&#39; codec can&#39;t encode characters in
position 0-1: ordinal not in range(128)
>>> print binascii.b2a_hex(u&#39;汉字&#39;.encode(&#39;utf-8&#39;))
e6b189e5ad97
>>> print binascii.b2a_hex(u&#39;汉字&#39;.encode(&#39;gbk&#39;))
babad7d6

登入後複製

binascii是將資料的二進位轉換成ascii，上面的解釋是：'漢字'的類型是str，二進位是babad7d6，u '漢字'是無法轉換成ascii，這樣就報出了開頭的第一個錯誤。解決方法就是把它.encode(‘utf-8')成str類型。因為我命令列是windows預設的GBK編碼，所有u'漢字'

.encode(‘gbk')的時候，輸出結果和『漢字'結果一樣。

總結一下，python的str其實是unicode的一種，python的預設編碼是ascii，對於非ascii轉成ascii的時候都會報錯，牢記下面的規則：

#unicode => encode('合適的編碼') => str
#str => decode('合適的編碼') => unicode

還有一個簡單的方式，就是在檔案頭設定編碼，可以省去很多麻煩：

import sys
reloads(sys)
sys.setdefaultencoding(&#39;utf-8&#39;)

登入後複製

對於第二個問題，是檔案讀取的時候發生的錯。 utf-8的文件有bom和無bom兩種方式，兩者的差別好像在bom文件比無bom文件多了一個頭，導致以utf-8方式讀文件時報錯，我先前曾嘗試讀文件的時候先對有無bom進行判斷，跳過bom文件的頭，後來失敗了，真尷尬～～。

還得上google求助大神，具體的操作方法就是使用codecs庫來讀文件（我猜這個庫就是對文件的頭進行檢測）。

import codecs
codecs.open(file_name, "r",encoding=&#39;utf-8&#39;, errors=&#39;ignore&#39;)

登入後複製

對於程式設計問題，一定要懂得ascii、unicode和utf-8運作原理。

更多python解決漢字編碼問題：Unicode Decode Error_python相關文章請關注PHP中文網！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

熱工具

熱門話題

gmail信箱登陸入口在哪裡

7781

Java教學

1644

CakePHP 教程

1399

Laravel 教程

1296

PHP教程

1234

Related knowledge

如何解決Linux終端中查看Python版本時遇到的權限問題？ Apr 01, 2025 pm 05:09 PM

Linux終端中查看Python版本時遇到權限問題的解決方法當你在Linux終端中嘗試查看Python的版本時，輸入python...

如何在使用 Fiddler Everywhere 進行中間人讀取時避免被瀏覽器檢測到？ Apr 02, 2025 am 07:15 AM

使用FiddlerEverywhere進行中間人讀取時如何避免被檢測到當你使用FiddlerEverywhere...

在Python中如何高效地將一個DataFrame的整列複製到另一個結構不同的DataFrame中？ Apr 01, 2025 pm 11:15 PM

在使用Python的pandas庫時，如何在兩個結構不同的DataFrame之間進行整列複製是一個常見的問題。假設我們有兩個Dat...

如何在10小時內通過項目和問題驅動的方式教計算機小白編程基礎？ Apr 02, 2025 am 07:18 AM

如何在10小時內教計算機小白編程基礎？如果你只有10個小時來教計算機小白一些編程知識，你會選擇教些什麼�...

Uvicorn是如何在沒有serve_forever()的情況下持續監聽HTTP請求的？ Apr 01, 2025 pm 10:51 PM

Uvicorn是如何持續監聽HTTP請求的？ Uvicorn是一個基於ASGI的輕量級Web服務器，其核心功能之一便是監聽HTTP請求並進�...

在Linux終端中使用python --version命令時如何解決權限問題？ Apr 02, 2025 am 06:36 AM

Linux終端中使用python...

FastAPI中如何處理逗號分隔的列表查詢參數？ Apr 02, 2025 am 06:51 AM

fastapi ...

如何繞過Investing.com的反爬蟲機制獲取新聞數據？ Apr 02, 2025 am 07:03 AM

攻克Investing.com的反爬蟲策略許多人嘗試爬取Investing.com（https://cn.investing.com/news/latest-news）的新聞數據時，常常�...

See all articles

python解決漢字編碼問題：Unicode Decode Error_python

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題