Maison > développement back-end > Tutoriel Python > Méthode Python pour collecter des caractères chinois tronqués

Méthode Python pour collecter des caractères chinois tronqués

高洛峰
Libérer: 2017-02-24 15:31:42
original
1505 Les gens l'ont consulté

Ces derniers jours, lors de la collecte d'une certaine page Web, la plupart des pages Web étaient correctes, mais un petit nombre de pages Web contenaient des caractères tronqués. Après quelques jours de débogage, j'ai finalement découvert que cela était dû à des caractères illégaux. . Ceci est enregistré

1. Dans des circonstances normales, vous pouvez utiliser

import chardet

thischarset = chardet.detect(strs)["encoding"]
Copier après la connexion

pour obtenir l'encodage. méthode du fichier ou de la page

Ou récupérez directement le charset = xxxx de la page pour obtenir

2. Lorsqu'il y a des caractères spéciaux dans le contenu, l'encodage spécifié provoquera également des caractères tronqués. Autrement dit, en raison de caractères illégaux dans le contenu, vous pouvez utiliser le processus de codage en ignorant les caractères illégaux.

strs = strs.decode("UTF-8","ignore").encode("UTF-8")
Copier après la connexion

Le deuxième paramètre du décodage indique la méthode à adopter en cas de rencontre de caractères illégaux

Ce paramètre lève par défaut une exception.

Ce qui précède est la solution parfaite au problème de la collection chinoise tronquée en python apporté par l'éditeur. J'espère que cela sera utile à tout le monde. S'il vous plaît, soutenez-moi. Site Web PHP chinois

Pour plus d'articles liés à la méthode Python de collecte de caractères chinois tronqués, veuillez faire attention au site Web PHP chinois !

Étiquettes associées:
source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers numéros
解密 - 怎么用python来解读一些中文乱码?
Depuis 1970-01-01 08:00:00
0
0
0
vim - windows下vi中文乱码
Depuis 1970-01-01 08:00:00
0
0
0
中文乱码怎么办啊
Depuis 1970-01-01 08:00:00
0
0
0
git - SourceTree中文显示乱码
Depuis 1970-01-01 08:00:00
0
0
0
中文乱码问题
Depuis 1970-01-01 08:00:00
0
0
0
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal