Jsoupを使用してクローラー技術を実装する方法の紹介-＆＃＆チュートリアル-php.cn

Jsoupを使用してクローラー技術を実装する方法の紹介

不言

リリース： 2019-03-08 15:37:54

転載

3446 人が閲覧しました

この記事では、Jsoup を使用してクローラ技術を実装する方法を紹介します。一定の参考価値があります。困っている友人は参考にしてください。お役に立てれば幸いです。

1. Jsoup の簡単な説明

Java では、WebMagic、Spider、Jsoup、等今日は Jsoup を使用して、単純なクローラープログラムを実装します。

Jsoup には、DOM オブジェクトのドキュメントトラバーサルメソッドの参照、CSS セレクターの使用方法の参照など、HTML ドキュメントを処理するための非常に便利な API が用意されているため、Jsoup を使用してメソッドをすぐに習得できます。ページデータをクローリングするスキル。

2. クイックスタート

1) HTML ページを作成します

表の製品情報ページは私たちのものですクロールするデータ。このうち属性は、pnameクラスの商品名とpimgクラスに属する商品画像です。

2) HttpClient を使用して HTML ページを読み取る

HttpClient は Http プロトコルデータを処理するツールで、HTML ページを入力ストリームとして Java プログラムに読み取るために使用できます。 HttpClient jar パッケージは http://hc.apache.org/ からダウンロードできます。

3) Jsoup を使用して HTML 文字列を解析する

Jsoup ツールを導入することで、parse メソッドを直接呼び出して、HTML のコンテンツを説明する文字列を解析します。 Document オブジェクトを取得するページ。 Document オブジェクトは、DOM ツリーを操作して、HTML ページ上の指定されたコンテンツを取得します。関連する API については、Jsoup 公式ドキュメントを参照してください: https://jsoup.org/cookbook/

以下では、Jsoup を使用して、上記の HTML で指定された製品名と価格情報を取得します。