コミュニティ

学ぶ

ツールライブラリ

AIツール

レジャー

日本語

ホームページ > ウェブフロントエンド > jsチュートリアル > data_node.jsをクローリングするnodejsクローラーのコーディングの問題

data_node.jsをクローリングするnodejsクローラーのコーディングの問題

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

リリース： 2016-05-16 15:51:39

オリジナル

1545 人が閲覧しました

cheerio DOM化并解析的时候

1.假如使用了 .text()方法，则一般不会有html实体编码的问题出现

2.如果使用了 .html()方法，则很多情况下(多数是非英文的时候）都会出现，这时，可能就需要转义一番了

类似这些因为需要作数据存储，所有需要转换

复制代码代码如下:

Халк крушит. Новый способ исполнен

大多数都是(x)?\w+的格式

所以就用正则转换一番

var body = ....//这里就是请求后获得的返回数据，或者那些 .html()后获取的

//一般可以先转换为标准unicode格式（有需要就添加：当返回的数据呈现太多\\u 之类的时）
body=unescape(body.replace(/\\u/g,"%u"));
//再对实体符进行转义
//有x则表示是16进制，$1就是匹配是否有x ，$2就是匹配出的第二个括号捕获到的内容，将$2以对应进制表示转换
body = body.replace(/&#(x)&#63;(\w+);/g,function($,$1,$2){
        return String.fromCharCode(parseInt($2,$1&#63;16:10));
       });

ログイン後にコピー

ok ～

当然了，网上也有很多个转换的版本，适用的就行了

后记：

当使用爬虫抓取网页数据时，cheerio模块是经常使用到底，它像jq那样方便快捷

（但有些功能并未支持或者换了某种形式，比如 jq的 jQuery('.myClass').prop('outerHTML') ，cheerio则等价于 jQuery.html('.myClass')http://www.mgenware.com/blog/?p=2514）

関連ラベル：

nodejs 爬虫類コーディング

前の記事：JavaScriptのレンダリングコンポーネント table_javascriptスキル次の記事：jquery_jquery によって実装された無線再選択の問題を解決する

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

著者別の最新記事

LLMSの仕組み：トレーニング後、ニューラルネットワーク、幻覚、推論への事前トレーニング

2025-02-26 03:58:14
ブロックチェーンとAIを組み合わせてアートを生成しました。次に何が起こったのか。

2025-02-26 03:38:10
高度なプロンプトエンジニアリング：思考チェーン（COT）

2025-02-26 03:17:10
SQLiteでの検索拡張生成

2025-02-26 02:49:09
独自のnode.js APIを構築するためにLLM駆動のボイラープレートを使用する方法

2025-02-26 01:08:13
2024年のコーディングのためのLLMS：価格、パフォーマンス、そして最高の戦い

2025-02-26 00:46:10
ビジョン言語モデルを促します

2025-02-25 23:42:08
大手言語モデルの応答の信頼性を測定する方法

2025-02-25 22:50:13
人生の幻想

2025-02-25 21:54:11
科学者は人間の思考を反映する大きな言語モデルに真剣に取り組む

2025-02-25 20:45:11

最新の問題

初心者向けのタイプスクリプト、パート2：基本データ型

2025-03-19 09:10:13
ソースマップを使用して、マイナイドJavaScriptコードをデバッグするにはどうすればよいですか？

2025-03-18 15:17:30
ブラウザ開発者ツールを使用してJavaScriptコードを効果的にデバッグするにはどうすればよいですか？

2025-03-18 15:16:33
ブラウザでのパフォーマンスのためにJavaScriptコードを最適化するにはどうすればよいですか？

2025-03-18 15:14:33
独自のJavaScriptライブラリを作成および公開するにはどうすればよいですか？

2025-03-18 15:12:30

関連トピック

詳細>

人気のおすすめ

人気のチュートリアル

詳細>

関連するチュートリアル

人気のおすすめ

最新のコース

最新のダウンロード

詳細>

ウェブエフェクト

公式サイト

サイト素材

フロントエンドテンプレート