파이썬이 html 파일을 작성할 때 중국어 문자가 깨지는 문제
open 함수를 사용하여 크롤러가 크롤링한 html을 파일에 쓰는 경우가 있습니다. 콘솔에서는 깨지지 않지만 html의 중국어가 쓰여지는 경우가 있습니다.
Case Analysis
다음 코드를 보세요:
# 爬虫未使用cookiefrom urllib import requestif __name__ == '__main__': url = "http://www.renren.com/967487029/profile" rsp = request.urlopen(url) html = rsp.read().decode() with open("rsp.html","w")as f: # 将爬取的页面 print(html) f.write(html)
문제가 없는 것 같고, 콘솔의 html 출력에 중국어 문자가 깨져서도 안 됩니다. , 그러나 생성된 html 파일에서
해결 방법
encoding=" "이라는 open 메소드의 매개변수를 사용하고, 인코딩="utf-8"
# 爬虫未使用cookiefrom urllib import requestif __name__ == '__main__': url = "http://www.renren.com/967487029/profile" rsp = request.urlopen(url) html = rsp.read().decode() with open("rsp.html","w",encoding="utf-8")as f: # 将爬取的页面 print(html) f.write(html)
실행 결과
를 추가합니다.읽어주셔서 감사합니다. 모두에게 많은 혜택이 되기를 바랍니다.
이 기사는 https://blog.csdn.net/qq_40147863/article/details/81746445
추천 튜토리얼: "python tutorial"
에서 복제되었습니다.위 내용은 Python으로 작성된 HTML 파일의 문자 깨짐 문제를 해결하는 방법(자세한 설명은 그림과 텍스트로 설명)의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!