Java を使用して Linux 上で Web ページをクロールするスクリプトを作成する方法-＆＃＆チュートリアル-php.cn

Java を使用して Linux 上で Web ページをクロールするスクリプトを作成する方法

PHPz

リリース： 2023-10-05 08:53:02

オリジナル

1300 人が閲覧しました

Java を使用して Linux 上で Web ページをクロールするスクリプトを作成する方法

Java を使用して Linux 上で Web ページクローリングを実装するスクリプトを作成する方法には、具体的なコード例が必要です。

はじめに:

日々の仕事や勉強では、 Web ページ上のデータを取得します。 Java を使用して Web ページをクロールするスクリプトを作成するのが一般的な方法です。この記事では、Java を使用して Linux 環境で Web ページをクロールするスクリプトを作成する方法を紹介し、具体的なコード例を示します。

1. 環境構成

JRE のインストール

sudo apt-get update
sudo apt-get install default-jre

ログイン後にコピー

JDK のインストール

sudo apt-get install default-jdk

ログイン後にコピー

インストールが完了したら、次のコマンドを使用してインストールが成功したかどうかを確認します。

java -version
javac -version

ログイン後にコピー

2. 次のコマンドを使用します。 Web ページクローリングスクリプトを作成するための Java

次は、Java で書かれた簡単な Web ページクローリングスクリプトの例です:

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.URL;

public class WebpageCrawler {
    public static void main(String[] args) {
        try {
            // 定义要抓取的网页地址
            String url = "https://www.example.com";

            // 创建URL对象
            URL webpage = new URL(url);

            // 打开URL连接
            BufferedReader in = new BufferedReader(new InputStreamReader(webpage.openStream()));

            // 读取网页内容并输出
            String inputLine;
            while ((inputLine = in.readLine()) != null) {
                System.out.println(inputLine);
            }

            // 关闭连接
            in.close();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

ログイン後にコピー

上記のコードは、Java の入力ストリームと出力ストリームおよび URL オブジェクトを介して Web ページクローリングを実装します。。まず、クロールする Web ページのアドレスが定義されます。次に、URL 接続を開いて Web ページのコンテンツを読み取るために URL オブジェクトと BufferedReader オブジェクトが作成されます。最後に、入力ストリームのコンテンツがループを通じて読み取られて出力されます。コンソールに。

3. Web ページクローリングスクリプトを実行します