Chinesisches verstümmeltes Problem, wenn Python HTML-Dateien schreibt
Verwenden Sie die Open-Funktion, um den vom Crawler gecrawlten HTML-Code in eine Datei zu schreiben, manchmal in die Konsole Es wird nicht verstümmelt, aber das Chinesisch im in die Datei geschriebenen HTML ist verstümmelt
Fallanalyse
Sehen Sie sich den folgenden Code an :
# 爬虫未使用cookiefrom urllib import requestif __name__ == '__main__': url = "http://www.renren.com/967487029/profile" rsp = request.urlopen(url) html = rsp.read().decode() with open("rsp.html","w")as f: # 将爬取的页面 print(html) f.write(html)
scheint kein Problem zu haben, und die HTML-Ausgabe in der Konsole enthält keine verstümmelten chinesischen Zeichen, sondern in der erstellten HTML-Datei
Lösung
Verwenden Sie einen Parameter der offenen Methode mit dem Namen „encoding="“ und fügen Sie „encoding="utf-8“ hinzu
# 爬虫未使用cookiefrom urllib import requestif __name__ == '__main__': url = "http://www.renren.com/967487029/profile" rsp = request.urlopen(url) html = rsp.read().decode() with open("rsp.html","w",encoding="utf-8")as f: # 将爬取的页面 print(html) f.write(html)
Laufergebnisse
Vielen Dank fürs Lesen, ich hoffe, Sie werden viel davon profitieren.
Dieser Artikel ist reproduziert von: https://blog.csdn.net/qq_40147863/article/details/81746445
Empfohlenes Tutorial: „Python-Tutorial“
Das obige ist der detaillierte Inhalt vonSo lösen Sie das Problem verstümmelter Zeichen in von Python geschriebenen HTML-Dateien (ausführliche Erklärung mit Bildern und Texten). Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!