インターネット時代の到来により、大量のデータの生成と共有がトレンドになっています。このデータをより有効に活用するには、インターネットからデータをクロールする方法を学ぶことが必要なスキルの 1 つになっています。この記事では、Java を使用してネットワーク クローリング データを実装する方法を紹介します。
1. Web クローリング データの基礎知識
Web クローリング データとは、簡単に言うと、ネットワーク経由で指定された Web サイトにアクセスし、Web サイトから必要なデータを取得して保存することです。この処理は、実際にはクライアントがサーバーにリクエストを送信し、サーバーがリクエストに応答してデータを返す処理です。
クライアントがサーバーにリクエストを送信するときは、次の点に注意する必要があります。
2. Java を使用してネットワークからデータをキャプチャする手順
1. 接続を確立します
Java を使用してネットワークからデータをキャプチャするには、まず、ターゲットの Web サイトへのリンクを確立する必要があります。 JavaにはURLクラスが用意されており、このクラスをインスタンス化することで接続を表すオブジェクトを取得できます。例:
URL url = new URL("https://www.example.com");
2. 接続を開きます
接続を確立した後、この接続は、サーバーから返されたデータを取得するリクエストを送信する準備ができています。 Java では、接続を開き、URL オブジェクトの openConnection() メソッドを通じて URLConnection オブジェクトを返すことができます (例:
URLConnection connection = url.openConnection();
3)。ヘッダー情報
リクエストを送信する前に、リクエストのヘッダー情報をサーバーに提供する必要があります。 Java では、URLConnection クラスの setRequestProperty() メソッドを通じて設定できます:
connection.setRequestProperty("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML、Gecko など) Chrome/83.0.4103.61 Safari/537.36");
最初のパラメーターはヘッダー情報の名前、2 番目のパラメーターはヘッダー情報の値です。
4. リクエストの送信
リクエスト ヘッダー情報を設定した後、URLConnection クラスの connect() メソッドを呼び出して、ターゲット サーバーとの接続を確立できます。例:
connection.connect();
5. 応答情報の取得
サーバーが応答した後、サーバーから返されたデータを取得して処理する必要があります。 URLConnection は、返されたデータを読み取ることができる入力ストリーム オブジェクトを返す getInputStream() メソッドを提供します。例:
InputStream inputStream = connection.getInputStream();
6. 責任連鎖モードのカプセル化
データキャプチャの効率を向上させ、コード構造を作成するためより明確に、責任連鎖パターンを使用して、データをキャプチャするプロセス全体をカプセル化することを検討できます。例:
public class DataLoader {
private Chain chain; public DataLoader() { chain = new ConnectionWrapper(new HeaderWrapper(new RequestWrapper(new ResponseWrapper(null)))); } public String load(String url) { return chain.process(url); }
}
このうち、ConnectionWrapper、HeaderWrapper、RequestWrapper、ResponseWrapper クラスは、接続、リクエスト ヘッダー、リクエストの 4 つのリンクを表します。と応答をそれぞれ実装しており、それらはすべて同じ Chain インターフェイスを実装しており、コンストラクター内で次から次へと受け渡され、最終的に責任の連鎖を形成します。 load() メソッドは URL 文字列をパラメータとして受け取り、最終的に文字列型の結果を返します。ロードするときは、DataLoader クラスのインスタンスのload() メソッドを呼び出すだけで済みます。
3. 注意事項
4. 概要
この記事では、Java を使用してネットワークからデータをキャプチャする方法を紹介します。 Web スクレイピングはリソースを大量に消費する操作であるため、誤って大量のデータをスクレイピングするとサーバーに負荷がかかる可能性があることに注意してください。したがって、Web スクレイピングは、インターネット倫理に従って、適切な状況下で実行する必要があります。
以上がJava を使用してインターネットからデータをキャプチャする方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。