同樣的程式碼在 Notepad 環境(測試過記事本)過不了,在 Pycharm 可以過( Python3.5 )
程式碼:
import urllib
import urllib.request
url = "http://www.baidu.com"
data = urllib.request.urlopen(url).read()
data = data.decode('UTF-8')
這句話,兩個環境都可以過
data.decode('gbk', 'ignore').encode('UTF-8')
print(data)
在 Pycharm 顯示爬出的網頁,在 cmd 視窗顯示
UnicodeEncodeError: 'gbk' codec can't encode character 'xbb' in position 26830:
illegal multibyte sequence
#必須移除無效字元。
import urllib
import urllib.request
url = "http://www.baidu.com"
data = urllib.request.urlopen(url).read()
data.decode('gbk', 'ignore').encode('UTF-8')
print(data)
這樣可以過,求解釋
你遇到的可能跟我一樣是python編碼問題,或是使用的terminal的編碼支援問題。看看下面的問題。
【python編碼問題? 】分享自@SegmentFault,傳送門:/q/10...