node.js - nodejs 爬虫遇到形如;安卓端的编码如何转换为中文?
ringa_lee
ringa_lee 2017-04-17 12:00:33
0
1
1091

爬前网页的源码:

<p>虽然可以在网上搜索很多的这样类似的插件,但是就是因为太多了而不知道该怎么选择,所以请大家啊推荐一下,好用的,而且还在积极维护的触屏插件</p>

爬到后返回的结果:

<p>&#x867D;&#x7136;&#x53EF;&#x4EE5;&#x5728;&#x7F51;&#x4E0A;&#x641C;&#x7D22;&#x5F88;&#x591A;&#x7684;&#x8FD9;&#x6837;&#x7C7B;&#x4F3C;&#x7684;&#x63D2;&#x4EF6;,&#x4F46;&#x662F;&#x5C31;&#x662F;&#x56E0;&#x4E3A;&#x592A;&#x591A;&#x4E86;&#x800C;&#x4E0D;&#x77E5;&#x9053;&#x8BE5;&#x600E;&#x4E48;&#x9009;&#x62E9;,&#x6240;&#x4EE5;&#x8BF7;&#x5927;&#x5BB6;&#x554A;&#x63A8;&#x8350;&#x4E00;&#x4E0B;,&#x597D;&#x7528;&#x7684;,&#x800C;&#x4E14;&#x8FD8;&#x5728;&#x79EF;&#x6781;&#x7EF4;&#x62A4;&#x7684;&#x89E6;&#x5C4F;&#x63D2;&#x4EF6;</p>

尝试用iconv-lite模块的decode去转码,但是失败了。

ringa_lee
ringa_lee

ringa_lee

membalas semua(1)
洪涛

这种叫HTML Entities,可以借助一些模块来转换,比如,html-entities Github。

代码如下:

var Entities = require('html-entities').XmlEntities;
entities = new Entities();
var str = '<p>&#x867D;&#x7136;&#x53EF;&#x4EE5;&#x5728;&#x7F51;&#x4E0A;&#x641C;&#x7D22;&#x5F88;&#x591A;&#x7684;&#x8FD9;&#x6837;&#x7C7B;&#x4F3C;&#x7684;&#x63D2;&#x4EF6;,&#x4F46;&#x662F;&#x5C31;&#x662F;&#x56E0;&#x4E3A;&#x592A;&#x591A;&#x4E86;&#x800C;&#x4E0D;&#x77E5;&#x9053;&#x8BE5;&#x600E;&#x4E48;&#x9009;&#x62E9;,&#x6240;&#x4EE5;&#x8BF7;&#x5927;&#x5BB6;&#x554A;&#x63A8;&#x8350;&#x4E00;&#x4E0B;,&#x597D;&#x7528;&#x7684;,&#x800C;&#x4E14;&#x8FD8;&#x5728;&#x79EF;&#x6781;&#x7EF4;&#x62A4;&#x7684;&#x89E6;&#x5C4F;&#x63D2;&#x4EF6;</p>';

console.log(entities.decode(str)); //output <p>虽然可以在网上搜索很多的这样类似的插件,但是就是因为太多了而不知道该怎么选择,所以请大家啊推荐一下,好用的,而且还在积极维护的触屏插件</p>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan