communauté

Apprendre

Bibliothèque d'outils

Outils d'IA

Loisirs

Français

Maison > interface Web > tutoriel HTML > Node做网页爬虫时遇到的Html entites对象造成乱码_html/css_WEB-ITnose

Node做网页爬虫时遇到的Html entites对象造成乱码_html/css_WEB-ITnose

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Libérer： 2016-06-24 11:28:22

original

1625 Les gens l'ont consulté

Node做网页爬虫时遇到的Html entites对象造成乱码

就是文字内容是这种货：

��һҳ

尝试用iconv-lite模块的decode去转码，但是失败了。

这种叫HTML Entities，可以借助一些模块来转换，比如，html-entities Github。

HTML Entities是什么请参照如下网址：

http://www.w3school.com.cn/html/html_entities.asp

html-entities的使用方法如下

var Entities = require('html-entities').XmlEntities;entities = new Entities();var str = '&#xFFFD;&#xFFFD;&#x4BB;&#x4B3;';console.log(entities.decode(str));

Copier après la connexion

在爬虫的请求上也要调整：

1 var headers = {  2   'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.65 Safari/537.36'3 }

Copier après la connexion

加上简单的伪装

使用Node爬的话，应该会用cheerio，在接受request返回的网页内容时，还是经过iconv的转换，再用cheerio

1 var html = iconv.decode(body, 'gbk')2 var $ = cheerio.load(html, {decodeEntities: false})

Copier après la connexion

如果你不知道抓取的网页的编码的话，请使用:

res.headers['content-type']

根据返回的编码格式进行处理即可

关于网页内容转码和乱码的深层分析可以阅读如下博文：

http://www.dewen.io/q/13755

http://www.99css.com/nodejs-request-chinese-encoding/

这个帅哥的分析也很有趣

http://blog.vichamp.com/program/2015/07/04/Common-Messy-Code/

Étiquettes associées：

Node做网页爬虫时遇到的Html entites对象造成乱码

Article précédent：：关于使用jquery UI组件后页面被某个div遮罩导致超级连接无法点击的问题_html/css_WEB-ITnose Article suivant：electron之Windows下使用 html js css 开发桌面应用程序_html/css_WEB-ITnose

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Derniers articles par auteur

Qu'est-ce qu'une NullPointerException et comment y remédier ?

2024-10-22 09:46:29
De novice à codeur : votre voyage commence par les principes fondamentaux du C

2024-10-13 13:53:41
Débloquer le développement Web avec PHP : guide du débutant

2024-10-12 12:15:51
Démystifier C : un chemin clair et simple pour les nouveaux programmeurs

2024-10-11 22:47:31
Libérez votre potentiel de codage : programmation C pour les débutants absolus

2024-10-11 19:36:51
Libérez votre programmeur intérieur : C pour les débutants absolus

2024-10-11 15:50:41
Automatisez votre vie avec C : scripts et outils pour les débutants

2024-10-11 15:07:41
PHP Made Easy : vos premiers pas dans le développement Web

2024-10-11 14:21:21
Construisez n'importe quoi avec Python : un guide du débutant pour libérer votre créativité

2024-10-11 12:59:11
La clé du codage : libérer la puissance de Python pour les débutants

2024-10-11 12:17:31

Derniers numéros

javascript - Le code pour modifier l'image de la boîte dans la liste déroulante.

Depuis 1970-01-01 08:00:00

0

0

0

Comment ionic2 utilise-t-il les styles d'iOS sur la plateforme Android

Depuis 1970-01-01 08:00:00

0

0

0

javascript - Existe-t-il un excellent outil de point d'arrêt sur NPM?

Depuis 1970-01-01 08:00:00

0

0

0

javascript - Comment Webpack bloque-t-il globalement la valeur de hachage de cette build pour une utilisation par le code JS ?

Depuis 1970-01-01 08:00:00

0

0

0

javascript - Comment jQuery implémente-t-il le préchargement des effets sonores sur les pages mobiles?

Depuis 1970-01-01 08:00:00

0

0

0

Rubriques connexes

Plus>

Recommandations populaires

Tutoriels populaires

Plus>

Tutoriels associés

Recommandations populaires

Derniers cours

Derniers téléchargements

Plus>

effets Web

Code source du site Web

Matériel du site Web

Modèle frontal