JAVAがWebページデータをクロールするjsoup-＆＃＆チュートリアル-php.cn

JAVAがWebページデータをクロールするjsoup

TmDGl

リリース： 2020-04-30 09:34:03

オリジナル

313 人が閲覧しました

近年出てきたクローリングデータですが、ほとんどの人がPythonを使ってクローリングを行っています。 Java がデータクローリングも実行できることをまだ知らない人もいます。次に、編集者が Java を使用した Web ページデータのクロールに関する記事を共有します。

データをクロールする意味は、リクエストによって返されたページ情報を取得し、必要なデータをフィルターで除外することです。

それでは、簡単に説明します:

1. 環境の準備

ツールが Eclipse または IDEA の場合

Maven を設定する

2. jsoup 関連の依存関係をインポートする

soup

public static void main( String[] args) throws Exception { Scanner sc = new Scanner(System.in); System.out.println("検索キーワードを入力してください!!!"); // URL を取得します。 request、ここで自分でリクエストを見つけます String url = "https://search.xx.com/Search?keyword="+input; // Web ページを解析します (ここで jsoup によって返されるドキュメントはページドキュメントオブジェクトです) ドキュメントドキュメント= Jsoup.parse(new URL(url), 30000); //ここでは js のすべてのメソッドを使用できます。ここでは、クロール対象の div 要素要素の ID を取得します。 = document.getElementById("x_goodsList"); out.println(element.html()); //クロール対象の div 内のすべての li タグを取得します。 Elements = document.getElementsByTag("li"); // li タグ内のすべてのコンテンツをスキャンします。 elements){

//多くの画像をクロールする Web サイトでは遅延読み込みが使用されることがあります。取得する属性は src ではなく Source-Data-Lazy-IMG です

/ *

IMG はクローリングの画像です

String img = el.getElementsByTag("img").eq(0).attr("src" ); 文字列価格 = el.getElementsByClass("p-price").eq(0).text(); 文字列名 = el.getElementsByClass("p-name").eq(0).text(); out.println("====================== ===); 違法なクローリング行為はここで止めます、ハハハ、友達に何ができるかを知ってもらいたいですクロールできるものとクロールできないもの。

以上がJAVAがWebページデータをクロールするjsoupの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。