ホームページ Java &#&チュートリアル 効率的な Java クローラーの実践: Web データ クローリング技術の共有

効率的な Java クローラーの実践: Web データ クローリング技術の共有

Jan 09, 2024 pm 12:29 PM
java 爬虫類 データスクレイピング

効率的な Java クローラーの実践: Web データ クローリング技術の共有

Java クローラーの実践: Web ページ データを効率的にクロールする方法

はじめに:

インターネットの急速な発展に伴い、大量の貴重なデータがデータはさまざまな Web ページに保存されます。このデータを取得するには、多くの場合、各 Web ページに手動でアクセスして情報を 1 つずつ抽出する必要がありますが、これは間違いなく退屈で時間のかかる作業です。この問題を解決するために、人々はさまざまなクローラー ツールを開発しましたが、その中で Java クローラーは最もよく使用されているツールの 1 つです。この記事は、Java を使用して効率的な Web クローラーを作成する方法を読者に理解させ、具体的なコード例を通じてその実践方法を示します。

1. クローラーの基本原理

Web クローラーの基本原理は、ブラウザーをシミュレートして HTTP リクエストを送信し、Web ページを解析して必要なデータを抽出することです。作業プロセスは、次のステップに大別されます。

  1. HTTP リクエストの送信: HttpURLConnection、HttpClient などの Java のネットワーク プログラミング ライブラリを使用して、HTTP リクエストを作成し、ターゲットに送信します。ウェブページ。
  2. Web ページの解析: Web ページの構造に応じて、Jsoup、XPath などの適切な解析ライブラリを使用して、Web ページを HTML、XML、または JSON 形式で解析し、必要なデータを抽出します。
  3. データの処理と保存: 抽出されたデータをクリーニング、フィルタリングなどで処理し、後で使用できるようにデータベース、ファイル、またはメモリに保存します。

2. クローラー開発環境の作成

Java クローラーの開発を開始するには、対応する環境を構築する必要があります。まず、Java 開発キット (JDK) と、Eclipse、IntelliJ IDEA などの Java 統合開発環境 (IDE) がインストールされていることを確認します。次に、HttpClient、Jsoup などの必要なネットワーク プログラミング ライブラリをプロジェクトに導入します。

3. 実践的な演習: Douban 映画ランキング データのキャプチャ

クローラーの開発プロセスを練習するために、例として Douban 映画ランキングのデータをキャプチャすることにしました。私たちの目標は、映画の名前、評価、レビュー者数を抽出することです。

  1. HTTP リクエストの送信

まず、Java のネットワーク プログラミング ライブラリを使用して HTTP リクエストを送信し、Web ページのコンテンツを取得する必要があります。以下は、HttpClient ライブラリを使用して GET リクエストを送信するサンプル コードです。

import org.apache.http.HttpEntity;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;

public class HttpClientExample {
    public static void main(String[] args) {
        CloseableHttpClient httpClient = HttpClients.createDefault();
        HttpGet httpGet = new HttpGet("https://movie.douban.com/top250");
        
        try (CloseableHttpResponse response = httpClient.execute(httpGet)){
            HttpEntity entity = response.getEntity();
            String result = EntityUtils.toString(entity);
            System.out.println(result);
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}
ログイン後にコピー
  1. Web ページ分析

HTTP リクエストを送信することで、Web コンテンツを取得しました。 Douban映画ランキングの。次に、解析ライブラリを使用して必要なデータを抽出する必要があります。以下は、Jsoup ライブラリを使用して HTML ページを解析するためのサンプル コードです。

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class JsoupExample {
    public static void main(String[] args) {
        try {
            Document document = Jsoup.connect("https://movie.douban.com/top250").get();
            Elements elements = document.select("ol.grid_view li");
            
            for (Element element : elements) {
                String title = element.select(".title").text();
                String rating = element.select(".rating_num").text();
                String votes = element.select(".star span:nth-child(4)").text();
                
                System.out.println("电影名称:" + title);
                System.out.println("评分:" + rating);
                System.out.println("评价人数:" + votes);
                System.out.println("-------------------------");
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}
ログイン後にコピー
  1. データの処理とストレージ

実際のアプリケーションでは、さらに処理する必要がある場合があります。抽出されたデータの処理と保管。たとえば、後で使用するためにデータをデータベースに保存できます。以下は、MySQL データベースを使用してデータを保存するためのサンプル コードです:

import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.PreparedStatement;
import java.sql.SQLException;

public class DataProcessingExample {
    public static void main(String[] args) {
        String jdbcUrl = "jdbc:mysql://localhost:3306/spider";
        String username = "root";
        String password = "password";
        
        try (Connection conn = DriverManager.getConnection(jdbcUrl, username, password)) {
            String sql = "INSERT INTO movie (title, rating, votes) VALUES (?, ?, ?)";
            PreparedStatement statement = conn.prepareStatement(sql);
            
            // 假设从网页中获取到了以下数据
            String title = "肖申克的救赎";
            String rating = "9.7";
            String votes = "2404447";
            
            statement.setString(1, title);
            statement.setString(2, rating);
            statement.setString(3, votes);
            
            int rowsAffected = statement.executeUpdate();
            System.out.println("插入了 " + rowsAffected + " 条数据");
        } catch (SQLException e) {
            e.printStackTrace();
        }
    }
}
ログイン後にコピー

IV. 概要

この記事では、Java クローラーの基本原理を紹介し、Java を使用して効率的な Web ページを作成する方法を示します。具体的なコード例を通して。これらの基本知識を学ぶことで、読者は実際のニーズに応じて、より複雑で柔軟なクローラ プログラムを開発できるようになります。実際のアプリケーションでは、法的紛争を避けるために、クローラーの法的使用に注意し、Web サイトのプライバシー ポリシーと利用規約を尊重する必要もあります。この記事が読者にとって Java クローラーの学習と応用のガイドとして役立つことを願っています。

以上が効率的な Java クローラーの実践: Web データ クローリング技術の共有の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Javaの平方根 Javaの平方根 Aug 30, 2024 pm 04:26 PM

Java の平方根のガイド。ここでは、Java で平方根がどのように機能するかを、例とそのコード実装をそれぞれ示して説明します。

Javaの完全数 Javaの完全数 Aug 30, 2024 pm 04:28 PM

Java における完全数のガイド。ここでは、定義、Java で完全数を確認する方法、コード実装の例について説明します。

Java の乱数ジェネレーター Java の乱数ジェネレーター Aug 30, 2024 pm 04:27 PM

Java の乱数ジェネレーターのガイド。ここでは、Java の関数について例を挙げて説明し、2 つの異なるジェネレーターについて例を挙げて説明します。

ジャワのウェカ ジャワのウェカ Aug 30, 2024 pm 04:28 PM

Java の Weka へのガイド。ここでは、weka java の概要、使い方、プラットフォームの種類、利点について例を交えて説明します。

Javaのスミス番号 Javaのスミス番号 Aug 30, 2024 pm 04:28 PM

Java のスミス番号のガイド。ここでは定義、Java でスミス番号を確認する方法について説明します。コード実装の例。

Java Springのインタビューの質問 Java Springのインタビューの質問 Aug 30, 2024 pm 04:29 PM

この記事では、Java Spring の面接で最もよく聞かれる質問とその詳細な回答をまとめました。面接を突破できるように。

Java 8 Stream Foreachから休憩または戻ってきますか? Java 8 Stream Foreachから休憩または戻ってきますか? Feb 07, 2025 pm 12:09 PM

Java 8は、Stream APIを導入し、データ収集を処理する強力で表現力のある方法を提供します。ただし、ストリームを使用する際の一般的な質問は次のとおりです。 従来のループにより、早期の中断やリターンが可能になりますが、StreamのForeachメソッドはこの方法を直接サポートしていません。この記事では、理由を説明し、ストリーム処理システムに早期終了を実装するための代替方法を調査します。 さらに読み取り:JavaストリームAPIの改善 ストリームを理解してください Foreachメソッドは、ストリーム内の各要素で1つの操作を実行する端末操作です。その設計意図はです

Java での日付までのタイムスタンプ Java での日付までのタイムスタンプ Aug 30, 2024 pm 04:28 PM

Java での日付までのタイムスタンプに関するガイド。ここでは、Java でタイムスタンプを日付に変換する方法とその概要について、例とともに説明します。

See all articles