Derselbe Code kann nicht in der Notepad-Umgebung übergeben werden (getestet mit Notepad), kann aber in Pycharm (Python3.5) übergeben werden
Code:
import urllib
import urllib.request
url = "http://www.baidu.com"
data = urllib.request.urlopen(url).read()
data = data.decode('UTF-8')
Diese Aussage kann in beiden Umgebungen übergeben werden
data.decode('gbk', 'ignore').encode('UTF-8')
print(data)
Zeigen Sie die gecrawlte Webseite in Pycharm an und zeigen Sie sie im cmd-Fenster an
UnicodeEncodeError: Der Codec „gbk“ kann das Zeichen „xbb“ in Position 26830 nicht codieren:
illegale Multibyte-Sequenz
Ungültige Zeichen müssen entfernt werden.
import urllib
import urllib.request
url = "http://www.baidu.com"
data = urllib.request.urlopen(url).read()
data.decode('gbk', 'ignore').encode('UTF-8')
print(data)
Ich kann so leben, bitte erklären Sie es
你遇到的可能和我一样是python编码问题,或者使用的terminal的编码支持问题。看看下面的问题。
【python编码问题?】分享自@SegmentFault,传送门:/q/10...