【HtmlUnit】高度なWebクローラー_html/css_WEB-ITnose
以前、Yifeng は Jsoup を使用して Web コンテンツをクロールすることについての記事を書きました:
[Jsoup] HTML パーサー、Web コンテンツを簡単に取得します
Jsoup が提供する API は非常に便利で、JQuery の操作と完全に似ており、簡単に Web データをクロールします。ただし、Jsoup のような通常のクローラー ツールの欠点は、js によって生成されたコンテンツを処理できないことです。
HTML 開発を行ったことがある人なら、多くの Web サイトがデータの取得と処理に ajax と JavaScript を使用していることをご存知でしょう。通常のクローラー ツールは、js のコンテンツを処理できなくなりました。
たとえば、新しいテスト Web ページ ファイル text.html をローカルに作成します。ソース コードは次のとおりです:
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"><html> <head> <title>main.html</title> <meta http-equiv="keywords" content="keyword1,keyword2,keyword3"> <meta http-equiv="description" content="this is my page"> <meta http-equiv="content-type" content="text/html; charset=UTF-8"> <style type="text/css"> a { line-height: 30px; margin: 20px; } </style> <!--<link rel="stylesheet" type="text/css" href="./styles.css">--> <script type="text/javascript">var datas = [ { href : "http://www.jianshu.com/p/8d8edf25850d", title : "推荐一款编程字体,让代码看着更美"}, { href : "http://www.jianshu.com/p/153d9f31288d", title : "Android 利用Camera实现中轴3D卡牌翻转效果"}, { href : "http://www.jianshu.com/p/d6fb0c9c9c26", title : "【Eclipse】挖掘专属最有用的快捷键组合"}, { href : "http://www.jianshu.com/p/72d69b49d135", title : "【IIS】Windows下利用IIS建立网站并实现局域网共享"} ];window.onload = function() { var infos = document.getElementById("infos"); for( var i = 0 ; i < datas.length ; i++) { var a = document.createElement("a"); a.href = datas[i].href ; a.innerText = datas[i].title; infos.appendChild(a); infos.appendChild(document.createElement("br")) }}</script> </head> <body> <div class="text" style=" text-align:center;">HtmlUnit 测试网页内容!</div> <br> <div id="infos" style="width: 60%; border: 1px solid green; border-radius: 10px; margin: 0 auto;"> </div> </body></html>
IIS を介してローカル Web サイトを公開します (Yifeng の以前の記事を参照してください: [IIS] IIS を使用して Web サイトを構築する) Windows 上で LAN 共有を実現する)、ブラウザに表示される Web ページの効果は次のとおりです。
Web ページ表示効果.jpg
Web ページのレビュー要素を通して、本文にテキストが含まれていることがわかります。 Web ページ表示のコンテンツ:
Web ページレビュー element.jpg
ただし、Jsoup ツールから取得することは不可能です。 Web ページのソース コードから、クロールする必要があるコンテンツが、ページが表示された後に ajax と JavaScript を通じて読み込まれることがわかります。
それで、私たちは何をすべきでしょうか?この記事で推奨されているオープン ソース ツール、ブラウザをシミュレートできるパケット キャプチャ アーティファクトである HtmlUnit を使用してください。
対応する jar パッケージを公式 Web サイトからダウンロードし、プロジェクトのライブラリに追加します。 簡単なテスト コードは次のとおりです:
import java.io.IOException;import java.net.MalformedURLException;import java.text.ParseException;import com.gargoylesoftware.htmlunit.BrowserVersion;import com.gargoylesoftware.htmlunit.FailingHttpStatusCodeException;import com.gargoylesoftware.htmlunit.WebClient;import com.gargoylesoftware.htmlunit.html.DomElement;import com.gargoylesoftware.htmlunit.html.DomNodeList;import com.gargoylesoftware.htmlunit.html.HtmlPage;/** * @author 亦枫 * @created_time 2016年1月12日 * @file_user_todo Java测试类 * @blog http://www.jianshu.com/users/1c40186e3248/latest_articles */public class JavaTest { /** * 入口函数 * @param args * @throws ParseException */ public static void main(String[] args) throws ParseException { try { WebClient webClient = new WebClient(BrowserVersion.CHROME); HtmlPage htmlPage = (HtmlPage) webClient.getPage("http://localhost/test.html"); DomNodeList domNodeList = htmlPage.getElementsByTagName("a"); for (int i = 0; i < domNodeList.size(); i++) { DomElement domElement = (DomElement) domNodeList.get(i); System.out.println(domElement.asText()); } webClient.close(); } catch (FailingHttpStatusCodeException e) { e.printStackTrace(); } catch (MalformedURLException e) { e.printStackTrace(); } catch (IOException e) { e.printStackTrace(); } }}
実行後、結果がコンソールに表示されます:
HtmlUnit テストの結果。 jpg
ご覧のとおり、HtmlUnit は AJAX と JavaScript によって読み込まれたコンテンツをキャプチャできます。
HtmlUnit の概要は公式 Web サイトに詳しく書かれています。以下の内容は Yifeng による翻訳の一部です。
HtmlUnit は、グラフィカル インターフェイスを持たない Java ベースのブラウザ プログラムです。 HTML ドキュメントを呼び出し、開発者が通常のブラウザで操作するのと同じように Web コンテンツにアクセスしたり、フォームに入力したり、ハイパーリンクをクリックしたりできるようにする API を提供できます。
JavaScript を非常によくサポートしており、現在も継続的に改良されています。同時に、非常に複雑な AJAX ライブラリを解析し、さまざまな構成で Chrome、Firefox、IE ブラウザをシミュレートできます。
HtmlUnit は通常、テスト目的と Web サイト情報の取得に使用されます。
HtmlUnit には、ネットワーク リクエストのテストや Web コンテンツの取得のための多くの機能が用意されており、公式 Web サイトまたは他の Web サイトにアクセスして学習して使用できます。
Yifeng WeChat 公開アカウント: Technology Birds のフォローへようこそ。一緒に学び、一緒に進歩しましょう!
テクノロジー Bird_WeChat QR Code.gif

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











公式アカウントのWebページはキャッシュを更新します。これはシンプルでシンプルで、ポットを飲むのに十分な複雑です。あなたは公式のアカウントの記事を更新するために一生懸命働きましたが、ユーザーはまだ古いバージョンを開くことができますか?この記事では、この背後にあるtwist余曲折と、この問題を優雅に解決する方法を見てみましょう。それを読んだ後、さまざまなキャッシュの問題に簡単に対処でき、ユーザーが常に新鮮なコンテンツを体験できるようになります。最初に基本について話しましょう。それを率直に言うと、アクセス速度を向上させるために、ブラウザまたはサーバーはいくつかの静的リソース(写真、CSS、JSなど)やページコンテンツを保存します。次回アクセスするときは、もう一度ダウンロードすることなく、キャッシュから直接検索できます。自然に高速です。しかし、このことは両刃の剣でもあります。新しいバージョンはオンラインです、

この記事では、ブラウザのユーザー入力を直接検証するために、必要、パターン、MIN、MAX、および長さの制限などのHTML5フォーム検証属性を使用して説明します。

記事では、HTML5クロスブラウザーの互換性を確保するためのベストプラクティスについて説明し、機能検出、プログレッシブエンハンスメント、およびテスト方法に焦点を当てています。

この記事では、CSSを使用したWebページへの効率的なPNG境界追加を示しています。 CSSはJavaScriptやライブラリと比較して優れたパフォーマンスを提供し、微妙または顕著な効果のために境界幅、スタイル、色を調整する方法を詳述していると主張しています

この記事では、HTML&lt; Datalist&GT;について説明します。オートコンプリートの提案を提供し、ユーザーエクスペリエンスの改善、エラーの削減によりフォームを強化する要素。

この記事では、HTML&lt; Progress&gt;について説明します。要素、その目的、スタイリング、および&lt; meter&gt;との違い要素。主な焦点は、&lt; Progress&gt;を使用することです。タスクの完了と&lt; Meter&gt; statiの場合

この記事では、html5&lt; time&gt;について説明します。セマンティックデート/時刻表現の要素。 人間の読み取り可能なテキストとともに、マシンの読みやすさ(ISO 8601形式)のDateTime属性の重要性を強調し、Accessibilitを増やします

この記事では、html&lt; meter&gt;について説明します。要素は、範囲内でスカラーまたは分数値を表示するために使用され、Web開発におけるその一般的なアプリケーション。それは差別化&lt; Meter&gt; &lt; Progress&gt;およびex
