masyarakat

Belajar

Perpustakaan Alatan

Alat AI

Masa lapang

Melayu

Rumah > hujung hadapan web > html tutorial > Node做网页爬虫时遇到的Html entites对象造成乱码_html/css_WEB-ITnose

Node做网页爬虫时遇到的Html entites对象造成乱码_html/css_WEB-ITnose

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Lepaskan： 2016-06-24 11:28:22

asal

1720 orang telah melayarinya

Node做网页爬虫时遇到的Html entites对象造成乱码

就是文字内容是这种货：

��һҳ

尝试用iconv-lite模块的decode去转码，但是失败了。

这种叫HTML Entities，可以借助一些模块来转换，比如，html-entities Github。

HTML Entities是什么请参照如下网址：

http://www.w3school.com.cn/html/html_entities.asp

html-entities的使用方法如下

var Entities = require('html-entities').XmlEntities;entities = new Entities();var str = '&#xFFFD;&#xFFFD;&#x4BB;&#x4B3;';console.log(entities.decode(str));

Salin selepas log masuk

在爬虫的请求上也要调整：

1 var headers = {  2   'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.65 Safari/537.36'3 }

Salin selepas log masuk

加上简单的伪装

使用Node爬的话，应该会用cheerio，在接受request返回的网页内容时，还是经过iconv的转换，再用cheerio

1 var html = iconv.decode(body, 'gbk')2 var $ = cheerio.load(html, {decodeEntities: false})

Salin selepas log masuk

如果你不知道抓取的网页的编码的话，请使用:

res.headers['content-type']

根据返回的编码格式进行处理即可

关于网页内容转码和乱码的深层分析可以阅读如下博文：

http://www.dewen.io/q/13755

http://www.99css.com/nodejs-request-chinese-encoding/

这个帅哥的分析也很有趣

http://blog.vichamp.com/program/2015/07/04/Common-Messy-Code/

Label berkaitan：

Node做网页爬虫时遇到的Html entites对象造成乱码

Artikel sebelumnya：：关于使用jquery UI组件后页面被某个div遮罩导致超级连接无法点击的问题_html/css_WEB-ITnose Artikel seterusnya：electron之Windows下使用 html js css 开发桌面应用程序_html/css_WEB-ITnose

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel terbaru oleh pengarang

Bagaimana LLMS Berfungsi: Pra-latihan ke Latihan Pasca, Rangkaian Neural, Hallucinations, dan Kesimpulan

2025-02-26 03:58:14
Saya menggabungkan blockchain dan AI untuk menjana seni. Di sini ’ s Apa yang berlaku seterusnya.

2025-02-26 03:38:10
Kejuruteraan Prompt Lanjutan: Rantai Pemikiran (COT)

2025-02-26 03:17:10
Pengambilan semula Generasi Tambahan di SQLite

2025-02-26 02:49:09
Cara menggunakan boilerplate berkuasa LLM untuk membina API Node.js anda sendiri

2025-02-26 01:08:13
LLMS untuk pengekodan pada tahun 2024: harga, prestasi, dan pertempuran untuk yang terbaik

2025-02-26 00:46:10
Mendorong model bahasa penglihatan

2025-02-25 23:42:08
Cara Mengukur Kebolehpercayaan Respons Model Bahasa Besar

2025-02-25 22:50:13
Ilusi hidup

2025-02-25 21:54:11
Para saintis serius mengenai model bahasa besar yang mencerminkan pemikiran manusia

2025-02-25 20:45:11

Isu terkini

Apakah tujuan & lt; iframe & gt; Tag? Apakah pertimbangan keselamatan semasa menggunakannya?

2025-03-20 18:05:46
Bagaimana anda menggunakan & lt; noscript & gt; Tag?

2025-03-20 18:05:09
Apakah tujuan & lt; asas & gt; Tag?

2025-03-20 18:04:28
Bagaimana anda menggunakan atribut data tersuai (data-*) dalam HTML?

2025-03-20 18:02:57
Bagaimana anda menggunakan & lt; template & gt; Elemen untuk templat sisi pelanggan?

2025-03-20 18:02:21

Topik-topik yang berkaitan

Lagi>

Cadangan popular

Tutorial Popular

Lagi>

Tutorial berkaitan

Cadangan popular

Kursus terkini

Muat turun terkini

Lagi>

kesan web

Kod sumber laman web

Bahan laman web

Templat hujung hadapan