ノードクローリングデータの例: 小説の章をクロールする方法について話しましょう-jsチュートリアル-php.cn

ノードクローリングデータの例: 小説の章をクロールする方法について話しましょう

青灯夜游

リリース： 2022-06-02 21:08:45

転載

4083 人が閲覧しました

ノードはどのようにデータをクロールしますか?次の記事では、node クローラーの例を紹介し、node を使用して小説の章をクロールする方法について説明します。

ノードクローリングデータの例: 小説の章をクロールする方法について話しましょう

electron を使用して、練習用の新しい読書ツールを作成します。最初に解決するのはデータの問題です。小説の本文。

ここでは、nodejs を使用して小説 Web サイトをクロールします。次の小説をクロールしてみます。データはデータベースに保存されません。最初に txt## を使用します。 # テキストストレージとして使用します

node の Web サイトリクエストの場合、http および https ライブラリがあり、これらには request が含まれますリクエストのメソッド。

例:

request = https.request(TestUrl, { encoding:&#39;utf-8&#39; }, (res)=>{
    let chunks = &#39;&#39;
    res.on(&#39;data&#39;, (chunk)=>{
        chunks += chunk
    })
    res.on(&#39;end&#39;,function(){
        console.log(&#39;请求结束&#39;);
    })
})

ログイン後にコピー

しかしそれだけです。

html テキストデータにアクセスするだけで、内部要素を抽出することはできません。作業 (定期的に取得することもできますが、複雑すぎる）。

アクセスされたデータは

fs.writeFile メソッドを通じて保存しました。これは Web ページ全体の単なる HTML です。

ノードクローリングデータの例: 小説の章をクロールする方法について話しましょう

しかしI 必要なのは各章のコンテンツです。このようにして、章のハイパーリンクを取得し、ハイパーリンクのリンクリストを作成して、それをクロールする必要があります。 #cheerio library

#ということで、ここではjsライブラリ##cheerio

ノードクローリングデータの例: 小説の章をクロールする方法について話しましょう

公式ドキュメント: https://cheerio.js.org/ を紹介します。

中国語のドキュメント: https://github.com/cheeriojs/cheerio/wiki/ Chinese-README

ドキュメントでは、デバッグ用の例を使用できます

##cheerio を使用して HTML を解析する

cheerio が HTML を解析する場合、dom ノードを取得する方法は

jquery## と似ています。＃。

以前に取得した書籍のホームページの HTML に基づいて必要な dom ノードデータを見つけますノードクローリングデータの例: 小説の章をクロールする方法について話しましょう

const fs = require(&#39;fs&#39;)
const cheerio = require(&#39;cheerio&#39;);

// 引入读取方法
const { getFile, writeFun } = require(&#39;./requestNovel&#39;)

let hasIndexPromise = getFile(&#39;./hasGetfile/index.html&#39;);

let bookArray = [];

hasIndexPromise.then((res)=>{
    let htmlstr = res;
    let $ = cheerio.load(htmlstr);

    $(".listmain dl dd a").map((index, item)=>{
        let name = $(item).text(), href = &#39;https://www.shuquge.com/txt/147032/&#39; + $(item).attr(&#39;href&#39;)
        if (index > 11){
            bookArray.push({ name, href })
        }
        
    })
    // console.log(bookArray)
    writeFun(&#39;./hasGetfile/hrefList.txt&#39;, JSON.stringify(bookArray), &#39;w&#39;)
})

ログイン後にコピー

情報を印刷します

わかりました同時に、この情報も保存されます。

#章の数と章へのリンクが表示されたので、章の内容を取得できます。

バッチクローリングは最終的にIPプロキシが必要なのでまだ準備ができていませんが、とりあえず小説のとある章の内容を取得するメソッドを書きます

ノードクローリングデータの例: 小説の章をクロールする方法について話しましょう

特定の章をクロールする内容は実際には比較的単純です:

// 爬取某一章节的内容方法
function getOneChapter(n) {
    return new Promise((resolve, reject)=>{
        if (n >= bookArray.length) {
            reject(&#39;未能找到&#39;)
        }
        let name = bookArray[n].name;
        request = https.request(bookArray[n].href, { encoding:&#39;gbk&#39; }, (res)=>{
            let html = &#39;&#39;
            res.on(&#39;data&#39;, chunk=>{
                html += chunk;
            })
            res.on(&#39;end&#39;, ()=>{           
                let $ = cheerio.load(html);
                let content = $("#content").text();
                if (content) {
                    // 写成txt
                    writeFun(`./hasGetfile/${name}.txt`, content, &#39;w&#39;)
                    resolve(content);
                } else {
                    reject(&#39;未能找到&#39;)
                }
            })
        })
        request.end();
    })
}

getOneChapter(10)

ログイン後にコピー

ノードクローリングデータの例: 小説の章をクロールする方法について話しましょう

このようにして、上記に従って呼び出しインターフェイスを作成できます。メソッドを使用して、さまざまなチャプタパラメータを渡し、現在のチャプタデータを取得します。

const express = require(&#39;express&#39;); 
const IO = express();
const { getAllChapter, getOneChapter } = require(&#39;./readIndex&#39;)
// 获取章节超链接链表
getAllChapter();

IO.use(&#39;/book&#39;,function(req, res) {
    // 参数
    let query = req.query;
    if (query.n) {
        // 获取某一章节数据
        let promise = getOneChapter(parseInt(query.n - 1));
        promise.then((d)=>{
            res.json({ d: d })
        }, (d)=>{
            res.json({ d: d })
        })
    } else {
        res.json({ d: 404 })
    }
    
})

//服务器本地主机的数字
IO.listen(&#39;7001&#39;,function(){
    console.log("启动了。。。");
})

ログイン後にコピー

効果:

これで、シンプルなチャプタ検索インターフェイスが準備できました。パラメータの判定も可能です。

データインターフェースが異なれば、クローラーの処理方法も異なりますが、今回クロールしたリンクでは、コンテンツの表示がフロントエンドによって動的にレンダリングされないため、静的なHTMLを直接クロールできます。。できる。データが Ajax またはその他のメソッドを通じて取得された json 文字列である場合、データはネットワークインターフェイスを通じてリクエストする必要があります。ノードクローリングデータの例: 小説の章をクロールする方法について話しましょう