python解決漢字編碼問題:Unicode Decode Error_python
前言
最近由於專案需要,需要讀取一個含有中文的txt文檔,完了也要儲存文件。文件之前是由base64編碼,導致所有漢字讀取顯示亂碼。專案群組把base64廢棄之後,先後出現兩個錯誤:
ascii codec can't encode characters in position ordinal not in range 128 UnicodeDecodeError: ‘utf8' codec can't decode byte 0x。
如果對於ascii、unicode和utf-8還不了解的小夥伴,可以看之前的這篇文章關於字串和編碼
那麼必須對這三個概念有所了解:
ascii只能表示數字、英文字母和一些特殊符號,不能表示漢字
unicode和utf-8都可以表示漢字,unicode是固定長度,utf-8是可變長度
記憶體中儲存方式一般為unicode,而磁碟檔案儲存方式一般為utf-8,因為utf-8可以節省儲存空間
那麼python的預設編碼是什麼?
>>> import sys >>> sys.getdefaultencoding() 'ascii' >>> reload(sys) <module 'sys' (built-in)> >>> sys.setdefaultencoding('utf-8') >>> sys.getdefaultencoding() 'utf-8'
python的預設編碼是ascii,可以透過sys.setdefaultencoding('utf-8')
函數來設定python的預設編碼。
python中可以透過encode和decode的方式改變資料的編碼,例如:
#>>> u'汉字' u'\u6c49\u5b57' >>> u'汉字'.encode('utf-8') '\xe6\xb1\x89\xe5\xad\x97' >>> u'汉字'.encode('utf-8').decode('utf-8') u'\u6c49\u5b57'
那麼,python中的str是什麼型別?
>>> import binascii >>> '汉字' '\xba\xba\xd7\xd6' >>> type('汉字') <type 'str'> >>> print binascii.b2a_hex('汉字') babad7d6 >>> print binascii.b2a_hex(u'汉字') Traceback (most recent call last): File "<stdin>", line 1, in <module> UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128) >>> print binascii.b2a_hex(u'汉字'.encode('utf-8')) e6b189e5ad97 >>> print binascii.b2a_hex(u'汉字'.encode('gbk')) babad7d6
.encode(‘gbk')的時候,輸出結果和『漢字'結果一樣。
- #unicode => encode('合適的編碼') => str
- #str => decode('合適的編碼') => unicode
import sys reloads(sys) sys.setdefaultencoding('utf-8')
對於第二個問題,是檔案讀取的時候發生的錯。 utf-8的文件有bom和無bom兩種方式,兩者的差別好像在bom文件比無bom文件多了一個頭,導致以utf-8方式讀文件時報錯,我先前曾嘗試讀文件的時候先對有無bom進行判斷,跳過bom文件的頭,後來失敗了,真尷尬~~。 還得上google求助大神,具體的操作方法就是使用codecs庫來讀文件(我猜這個庫就是對文件的頭進行檢測)。
import codecs codecs.open(file_name, "r",encoding='utf-8', errors='ignore')

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

Linux終端中查看Python版本時遇到權限問題的解決方法當你在Linux終端中嘗試查看Python的版本時,輸入python...

使用FiddlerEverywhere進行中間人讀取時如何避免被檢測到當你使用FiddlerEverywhere...

在使用Python的pandas庫時,如何在兩個結構不同的DataFrame之間進行整列複製是一個常見的問題。假設我們有兩個Dat...

如何在10小時內教計算機小白編程基礎?如果你只有10個小時來教計算機小白一些編程知識,你會選擇教些什麼�...

Uvicorn是如何持續監聽HTTP請求的? Uvicorn是一個基於ASGI的輕量級Web服務器,其核心功能之一便是監聽HTTP請求並進�...

攻克Investing.com的反爬蟲策略許多人嘗試爬取Investing.com(https://cn.investing.com/news/latest-news)的新聞數據時,常常�...
