masyarakat

Belajar

Perpustakaan Alatan

Alat AI

Masa lapang

Melayu

Rumah > pembangunan bahagian belakang > Tutorial Python > python 采集中文乱码问题的方法

python 采集中文乱码问题的方法

高洛峰

Lepaskan： 2017-02-24 15:31:42

asal

1577 orang telah melayarinya

近几日遇到采集某网页的时候大部分网页OK,少部分网页出现乱码的问题,调试了几日,终于发现了是含有一些非法字符造成的..特此记录

1. 在正常情况下..可以用

import chardet

thischarset = chardet.detect(strs)["encoding"]

Salin selepas log masuk

来获取该文件或页面的编码方式

或直接抓取页面的charset = xxxx 来获取

2. 遇到内容中有特殊字符时指定的编码一样会造成乱码..即内容中非法字符造成的,可以采用编码忽略非法字符的方式来处理.

strs = strs.decode("UTF-8","ignore").encode("UTF-8")

Salin selepas log masuk

decode的第二个参数表示遇到非法字符时所采取的方式

该参数默认为抛出异常.

以上就是小编为大家带来的python 采集中文乱码问题的完美解决方法的全部内容了，希望对大家有所帮助，多多支持PHP中文网

更多python 采集中文乱码问题的方法相关文章请关注PHP中文网！

Label berkaitan：

python 中文乱码

Artikel sebelumnya：Python黑帽编程 3.4 跨越VLAN Artikel seterusnya：20招让你的Python飞起来

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel terbaru oleh pengarang

html设置加粗、倾斜、下划线、删除线等字体效果示例介绍

1970-01-01 08:00:00
实现一个 Java 版的 Redis

1970-01-01 08:00:00
最简单的微信小程序Demo

1970-01-01 08:00:00
python中pandas.DataFrame（创建、索引、增添与删除）的简单操作方法介绍

1970-01-01 08:00:00
微信小程序：如何实现tabs选项卡效果示例

1970-01-01 08:00:00
Python构造自定义方法来美化字典结构输出

1970-01-01 08:00:00
HTML5:使用Canvas实时处理Video

1970-01-01 08:00:00
Asp.net使用SignalR实现发送图片

1970-01-01 08:00:00
微信小程序开发教程-App()和Page()函数概述

1970-01-01 08:00:00
详解python redis使用方法

1970-01-01 08:00:00

Isu terkini

Huraikan langkah -langkah yang terlibat dalam membina saluran paip pembelajaran mesin.

2025-03-27 19:34:19
Bagaimana anda boleh menggunakan python untuk penglihatan komputer?

2025-03-27 19:31:56
Terangkan konsep pembelajaran yang diawasi, pembelajaran tanpa pengawasan, dan pembelajaran tetulang.

2025-03-27 19:27:19
Huraikan pengalaman anda dengan perpustakaan pembelajaran mesin seperti Scikit-learn, tensorflow, atau pytorch.

2025-03-27 19:25:41
Terangkan pengalaman anda dengan bahasa skrip untuk automasi.

2025-03-27 19:24:28

Topik-topik yang berkaitan

Lagi>

Cadangan popular

Tutorial Popular

Lagi>

Tutorial berkaitan

Cadangan popular

Kursus terkini

Muat turun terkini

Lagi>

kesan web

Kod sumber laman web

Bahan laman web

Templat hujung hadapan