ホームページ Java &#&チュートリアル 基礎ゼロで Java を作成し、まず Baidu ホームページで Zhihu クローラーを練習します

基礎ゼロで Java を作成し、まず Baidu ホームページで Zhihu クローラーを練習します

Dec 24, 2016 am 11:11 AM

前回のエピソードでは、Zhihu クローラーを作成するために Java を使用する必要性について話しました。今回は、コードを使用して Web ページのコンテンツを取得する方法を学習します。

まず、HTML、CSS、JS、AJAX の経験がない場合は、W3C (ここをクリックしてください) にアクセスして少し学ぶことをお勧めします。

HTMLと言えば、GETアクセスとPOSTアクセスの問題があります。

この側面についての理解が不足している場合は、W3C の記事「GET vs. POST」を読むことができます。

あ、ここでは詳しくは説明しません。

次に、Java を使用して Web ページのコンテンツをクロールする必要があります。

このとき、Baiduが役に立ちます。

はい、彼はもはや無名のインターネット速度テスターではなく、私たちの爬虫類モルモットになろうとしています! ~

まず Baidu のホームページを見てみましょう:

基礎ゼロで Java を作成し、まず Baidu ホームページで Zhihu クローラーを練習します

このようなページが HTML と CSS の共同作業の結果であることは誰もが知っていると思います。

ブラウザでページを右クリックし、「ページのソースコードを表示」を選択します:

基礎ゼロで Java を作成し、まず Baidu ホームページで Zhihu クローラーを練習します


はい、これは次のようなものです。これはBaiduページのソースコードです。

次のタスクは、クローラーを使用して同じものを取得することです。

まず簡単なソースコードを見てみましょう:

import java.io.*;
import java.net.*;
public class Main {
 public static void main(String[] args) {
  // 定义即将访问的链接
  String url = "http://www.baidu.com";
  // 定义一个字符串用来存储网页内容
  String result = "";
  // 定义一个缓冲字符输入流
  BufferedReader in = null;
  try {
   // 将string转成url对象
   URL realUrl = new URL(url);
   // 初始化一个链接到那个url的连接
   URLConnection connection = realUrl.openConnection();
   // 开始实际的连接
   connection.connect();
   // 初始化 BufferedReader输入流来读取URL的响应
   in = new BufferedReader(new InputStreamReader(
     connection.getInputStream()));
   // 用来临时存储抓取到的每一行的数据
   String line;
   while ((line = in.readLine()) != null) {
    //遍历抓取到的每一行并将其存储到result里面
    result += line;
   }
  } catch (Exception e) {
   System.out.println("发送GET请求出现异常!" + e);
   e.printStackTrace();
  }
  // 使用finally来关闭输入流
  finally {
   try {
    if (in != null) {
     in.close();
    }
   } catch (Exception e2) {
    e2.printStackTrace();
   }
  }
  System.out.println(result);
 }
}
ログイン後にコピー

上記は、Baidu にアクセスする Java をシミュレートする Main メソッドです

それを実行して結果を確認できます:

ああ、それはまさに以前ブラウザで見たものと同じです。この時点で、最も単純なクローラーの準備が整いました。

しかし、これらすべてが私が望むものであるわけではありません。

Baidu の大きな足のロゴを例に挙げてみましょう。

一時的な必要性:

Baidu ロゴの大きな足の画像リンクを取得します。

まずはブラウザでの見方について説明します。

画像を右クリックし、[要素の検査] を選択します (Firefox、Google、IE11 にはすべてこの機能がありますが、名前は異なります):

基礎ゼロで Java を作成し、まず Baidu ホームページで Zhihu クローラーを練習します

ああ、たくさんの div に囲まれていることがわかります。貧弱な img タグ。

このsrcは画像へのリンクです。

では、Java ではどうすればよいでしょうか?

コードのデモンストレーションを容易にするために、すべてのコードがクラスによってカプセル化されていないことをあらかじめご了承ください。ご理解ください。

まず前のコードを sendGet 関数にカプセル化しましょう:

import java.io.*;
import java.net.*;
public class Main {
 static String sendGet(String url) {
  // 定义一个字符串用来存储网页内容
  String result = "";
  // 定义一个缓冲字符输入流
  BufferedReader in = null;
  try {
   // 将string转成url对象
   URL realUrl = new URL(url);
   // 初始化一个链接到那个url的连接
   URLConnection connection = realUrl.openConnection();
   // 开始实际的连接
   connection.connect();
   // 初始化 BufferedReader输入流来读取URL的响应
   in = new BufferedReader(new InputStreamReader(
     connection.getInputStream()));
   // 用来临时存储抓取到的每一行的数据
   String line;
   while ((line = in.readLine()) != null) {
    // 遍历抓取到的每一行并将其存储到result里面
    result += line;
   }
  } catch (Exception e) {
   System.out.println("发送GET请求出现异常!" + e);
   e.printStackTrace();
  }
  // 使用finally来关闭输入流
  finally {
   try {
    if (in != null) {
     in.close();
    }
   } catch (Exception e2) {
    e2.printStackTrace();
   }
  }
  return result;
 }
 public static void main(String[] args) {
  // 定义即将访问的链接
  String url = "http://www.baidu.com";
  // 访问链接并获取页面内容
  String result = sendGet(url);
  System.out.println(result);
 }
}
ログイン後にコピー

これで少しすっきりしましたが、私の強迫性障害を許してください。

次のタスクは、取得したたくさんのものから写真へのリンクを見つけることです。

最初に考えられる方法は、indexof 関数を使用して、ページのソース コードの文字列結果内の文字列の部分文字列を検索することです。

はい、このメソッドは、直接 IndexOf("src") を実行して開始シリアル番号を見つけ、その後急いで終了シリアル番号を取得するなど、この問題をゆっくりと解決できます。

しかし、この方法を常に使用できるわけではありません。結局のところ、わらじは歩き回るのにのみ適しています。後は、頭を保持するために義足を切断する必要があります。

私の侵入を許して続行してください。

それでは、この写真のソースをどのように見つけられるのでしょうか?

はい、下の視聴者が言ったように、通常のマッチングです。

正規表現についてよくわからない学生がいる場合は、この記事を参照してください: [Python] Web クローラー (7): Python の正規表現チュートリアル。

簡単に言えば、正規表現はマッチングのようなものです。

たとえば、3人の太った男性がここに立っていて、赤い服、青い服、緑の服を着ています。

ルールは次のとおりです: 緑色のものを捕まえてください!

そして、太った緑色の男は一人で捕まりました。

とても簡単です。

しかし、正規文法は依然として広範囲で奥が深いため、初めて触れると少し混乱するのは避けられません

私は定期的なオンライン テスト ツール、つまり正規表現オンライン テストを皆さんにお勧めします。

規則性を魔法の武器として、Java で規則性を使用するにはどうすればよいですか?

上記は、基礎知識ゼロで Java Zhihu クローラーを作成する内容です。まずは、Baidu ホームページで練習してください。その他の関連コンテンツについては、PHP 中国語 Web サイト (www.php.cn) をご覧ください。


このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Java 8 Stream Foreachから休憩または戻ってきますか? Java 8 Stream Foreachから休憩または戻ってきますか? Feb 07, 2025 pm 12:09 PM

Java 8は、Stream APIを導入し、データ収集を処理する強力で表現力のある方法を提供します。ただし、ストリームを使用する際の一般的な質問は次のとおりです。 従来のループにより、早期の中断やリターンが可能になりますが、StreamのForeachメソッドはこの方法を直接サポートしていません。この記事では、理由を説明し、ストリーム処理システムに早期終了を実装するための代替方法を調査します。 さらに読み取り:JavaストリームAPIの改善 ストリームを理解してください Foreachメソッドは、ストリーム内の各要素で1つの操作を実行する端末操作です。その設計意図はです

PHP:Web開発の重要な言語 PHP:Web開発の重要な言語 Apr 13, 2025 am 12:08 AM

PHPは、サーバー側で広く使用されているスクリプト言語で、特にWeb開発に適しています。 1.PHPは、HTMLを埋め込み、HTTP要求と応答を処理し、さまざまなデータベースをサポートできます。 2.PHPは、ダイナミックWebコンテンツ、プロセスフォームデータ、アクセスデータベースなどを生成するために使用され、強力なコミュニティサポートとオープンソースリソースを備えています。 3。PHPは解釈された言語であり、実行プロセスには語彙分析、文法分析、編集、実行が含まれます。 4.PHPは、ユーザー登録システムなどの高度なアプリケーションについてMySQLと組み合わせることができます。 5。PHPをデバッグするときは、error_reporting()やvar_dump()などの関数を使用できます。 6. PHPコードを最適化して、キャッシュメカニズムを使用し、データベースクエリを最適化し、組み込み関数を使用します。 7

PHP対Python:違いを理解します PHP対Python:違いを理解します Apr 11, 2025 am 12:15 AM

PHP and Python each have their own advantages, and the choice should be based on project requirements. 1.PHPは、シンプルな構文と高い実行効率を備えたWeb開発に適しています。 2。Pythonは、簡潔な構文とリッチライブラリを備えたデータサイエンスと機械学習に適しています。

PHP対その他の言語:比較 PHP対その他の言語:比較 Apr 13, 2025 am 12:19 AM

PHPは、特に迅速な開発や動的なコンテンツの処理に適していますが、データサイエンスとエンタープライズレベルのアプリケーションには良くありません。 Pythonと比較して、PHPはWeb開発においてより多くの利点がありますが、データサイエンスの分野ではPythonほど良くありません。 Javaと比較して、PHPはエンタープライズレベルのアプリケーションでより悪化しますが、Web開発により柔軟性があります。 JavaScriptと比較して、PHPはバックエンド開発により簡潔ですが、フロントエンド開発のJavaScriptほど良くありません。

PHP対Python:コア機能と機能 PHP対Python:コア機能と機能 Apr 13, 2025 am 12:16 AM

PHPとPythonにはそれぞれ独自の利点があり、さまざまなシナリオに適しています。 1.PHPはWeb開発に適しており、組み込みのWebサーバーとRich Functionライブラリを提供します。 2。Pythonは、簡潔な構文と強力な標準ライブラリを備えたデータサイエンスと機械学習に適しています。選択するときは、プロジェクトの要件に基づいて決定する必要があります。

PHPの影響:Web開発など PHPの影響:Web開発など Apr 18, 2025 am 12:10 AM

phphassiblasifly-impactedwebdevevermentandsbeyondit.1)itpowersmajorplatformslikewordpratsandexcelsindatabase interactions.2)php'sadaptableability allowsitale forlargeapplicationsusingframeworkslikelavel.3)

カプセルの量を見つけるためのJavaプログラム カプセルの量を見つけるためのJavaプログラム Feb 07, 2025 am 11:37 AM

カプセルは3次元の幾何学的図形で、両端にシリンダーと半球で構成されています。カプセルの体積は、シリンダーの体積と両端に半球の体積を追加することで計算できます。このチュートリアルでは、さまざまな方法を使用して、Javaの特定のカプセルの体積を計算する方法について説明します。 カプセルボリュームフォーミュラ カプセルボリュームの式は次のとおりです。 カプセル体積=円筒形の体積2つの半球体積 で、 R:半球の半径。 H:シリンダーの高さ(半球を除く)。 例1 入力 RADIUS = 5ユニット 高さ= 10単位 出力 ボリューム= 1570.8立方ユニット 説明する 式を使用してボリュームを計算します。 ボリューム=π×R2×H(4

PHP:多くのウェブサイトの基礎 PHP:多くのウェブサイトの基礎 Apr 13, 2025 am 12:07 AM

PHPが多くのWebサイトよりも優先テクノロジースタックである理由には、その使いやすさ、強力なコミュニティサポート、広範な使用が含まれます。 1)初心者に適した学習と使用が簡単です。 2)巨大な開発者コミュニティと豊富なリソースを持っています。 3)WordPress、Drupal、その他のプラットフォームで広く使用されています。 4)Webサーバーとしっかりと統合して、開発の展開を簡素化します。

See all articles