Gemeinschaft

Lernen

Tools-Bibliothek

KI-Tools

Freizeit

Deutsch

Heim > Web-Frontend > js-Tutorial > Codierungsproblem beim Crawlen von data_node.js durch den NodeJS-Crawler

Codierungsproblem beim Crawlen von data_node.js durch den NodeJS-Crawler

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Freigeben： 2016-05-16 15:51:39

Original

1545 Leute haben es durchsucht

cheerio DOM化并解析的时候

1.假如使用了 .text()方法，则一般不会有html实体编码的问题出现

2.如果使用了 .html()方法，则很多情况下(多数是非英文的时候）都会出现，这时，可能就需要转义一番了

类似这些因为需要作数据存储，所有需要转换

复制代码代码如下:

Халк крушит. Новый способ исполнен

大多数都是(x)?\w+的格式

所以就用正则转换一番

var body = ....//这里就是请求后获得的返回数据，或者那些 .html()后获取的

//一般可以先转换为标准unicode格式（有需要就添加：当返回的数据呈现太多\\u 之类的时）
body=unescape(body.replace(/\\u/g,"%u"));
//再对实体符进行转义
//有x则表示是16进制，$1就是匹配是否有x ，$2就是匹配出的第二个括号捕获到的内容，将$2以对应进制表示转换
body = body.replace(/&#(x)&#63;(\w+);/g,function($,$1,$2){
        return String.fromCharCode(parseInt($2,$1&#63;16:10));
       });

Nach dem Login kopieren

ok ～

当然了，网上也有很多个转换的版本，适用的就行了

后记：

当使用爬虫抓取网页数据时，cheerio模块是经常使用到底，它像jq那样方便快捷

（但有些功能并未支持或者换了某种形式，比如 jq的 jQuery('.myClass').prop('outerHTML') ，cheerio则等价于 jQuery.html('.myClass')http://www.mgenware.com/blog/?p=2514）

Verwandte Etiketten：

nodejs 爬虫编码

Vorheriger Artikel：Rendering-Komponente von Javascript table_javascript skills Nächster Artikel：Lösen Sie das Problem der durch jquery_jquery implementierten Radio-Neuauswahl

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Neueste Artikel des Autors

Wie LLMs funktionieren: Vorausbildung zu Nachtraining, neuronalen Netzwerken, Halluzinationen und Inferenz

2025-02-26 03:58:14
Ich kombinierte die Blockchain und die KI, um Kunst zu erzeugen. Hier ist das, was als nächstes geschah.

2025-02-26 03:38:10
Erweiterte schnelle Technik: Denkkette (COT)

2025-02-26 03:17:10
Wiederaufnahme der Augmented -Generation in SQLite

2025-02-26 02:49:09
So verwenden Sie eine mit LLM betriebene Kesselplatte zum Erstellen Ihrer eigenen Node.js-API

2025-02-26 01:08:13
LLMs für die Codierung im Jahr 2024: Preis, Leistung und der Kampf um das Beste

2025-02-26 00:46:10
Sehenssprachmodelle auffordern

2025-02-25 23:42:08
So messen Sie die Zuverlässigkeit der Reaktion eines Großsprachenmodells

2025-02-25 22:50:13
Eine Illusion des Lebens

2025-02-25 21:54:11
Wissenschaftler werden es ernst mit großen Sprachmodellen, die das menschliche Denken widerspiegeln

2025-02-25 20:45:11

Aktuelle Ausgaben

TypeScript für Anfänger, Teil 2: Grundlegende Datentypen

2025-03-19 09:10:13
Wie verwende ich Quellkarten zum Debuggen, um den JavaScript -Code zu debuggen?

2025-03-18 15:17:30
Wie debugge ich den JavaScript -Code effektiv mithilfe von Browser -Entwickler -Tools?

2025-03-18 15:16:33
Wie optimiere ich den JavaScript -Code für die Leistung im Browser?

2025-03-18 15:14:33
Wie erstelle ich meine eigenen JavaScript -Bibliotheken?

2025-03-18 15:12:30

verwandte Themen

Mehr>

Beliebte Empfehlungen

Beliebte Tutorials

Mehr>

Verwandte Tutorials

Beliebte Empfehlungen

Aktuelle Kurse

Neueste Downloads

Mehr>

Web-Effekte

Quellcode der Website

Website-Materialien

Frontend-Vorlage