【HtmlUnit】高度なWebクローラー_html/css_WEB-ITnose
以前、Yifeng は Jsoup を使用して Web コンテンツをクロールすることについての記事を書きました:
[Jsoup] HTML パーサー、Web コンテンツを簡単に取得します
Jsoup が提供する API は非常に便利で、JQuery の操作と完全に似ており、簡単に Web データをクロールします。ただし、Jsoup のような通常のクローラー ツールの欠点は、js によって生成されたコンテンツを処理できないことです。
HTML 開発を行ったことがある人なら、多くの Web サイトがデータの取得と処理に ajax と JavaScript を使用していることをご存知でしょう。通常のクローラー ツールは、js のコンテンツを処理できなくなりました。
たとえば、新しいテスト Web ページ ファイル text.html をローカルに作成します。ソース コードは次のとおりです:
1 |
|
IIS を介してローカル Web サイトを公開します (Yifeng の以前の記事を参照してください: [IIS] IIS を使用して Web サイトを構築する) Windows 上で LAN 共有を実現する)、ブラウザに表示される Web ページの効果は次のとおりです。
Web ページ表示効果.jpg
Web ページのレビュー要素を通して、本文にテキストが含まれていることがわかります。 Web ページ表示のコンテンツ:
Web ページレビュー element.jpg
ただし、Jsoup ツールから取得することは不可能です。 Web ページのソース コードから、クロールする必要があるコンテンツが、ページが表示された後に ajax と JavaScript を通じて読み込まれることがわかります。
それで、私たちは何をすべきでしょうか?この記事で推奨されているオープン ソース ツール、ブラウザをシミュレートできるパケット キャプチャ アーティファクトである HtmlUnit を使用してください。
対応する jar パッケージを公式 Web サイトからダウンロードし、プロジェクトのライブラリに追加します。 簡単なテスト コードは次のとおりです:
1 |
|
実行後、結果がコンソールに表示されます:
HtmlUnit テストの結果。 jpg
ご覧のとおり、HtmlUnit は AJAX と JavaScript によって読み込まれたコンテンツをキャプチャできます。
HtmlUnit の概要は公式 Web サイトに詳しく書かれています。以下の内容は Yifeng による翻訳の一部です。
HtmlUnit は、グラフィカル インターフェイスを持たない Java ベースのブラウザ プログラムです。 HTML ドキュメントを呼び出し、開発者が通常のブラウザで操作するのと同じように Web コンテンツにアクセスしたり、フォームに入力したり、ハイパーリンクをクリックしたりできるようにする API を提供できます。
JavaScript を非常によくサポートしており、現在も継続的に改良されています。同時に、非常に複雑な AJAX ライブラリを解析し、さまざまな構成で Chrome、Firefox、IE ブラウザをシミュレートできます。
HtmlUnit は通常、テスト目的と Web サイト情報の取得に使用されます。
HtmlUnit には、ネットワーク リクエストのテストや Web コンテンツの取得のための多くの機能が用意されており、公式 Web サイトまたは他の Web サイトにアクセスして学習して使用できます。
Yifeng WeChat 公開アカウント: Technology Birds のフォローへようこそ。一緒に学び、一緒に進歩しましょう!
テクノロジー Bird_WeChat QR Code.gif

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











Web開発におけるHTML、CSS、およびJavaScriptの役割は次のとおりです。1。HTMLは、Webページ構造を定義し、2。CSSはWebページスタイルを制御し、3。JavaScriptは動的な動作を追加します。一緒に、彼らは最新のウェブサイトのフレームワーク、美学、および相互作用を構築します。

HTMLの将来の傾向はセマンティクスとWebコンポーネントであり、CSSの将来の傾向はCSS-in-JSとCSShoudiniであり、JavaScriptの将来の傾向はWebAssemblyとServerLessです。 1。HTMLセマンティクスはアクセシビリティとSEO効果を改善し、Webコンポーネントは開発効率を向上させますが、ブラウザの互換性に注意を払う必要があります。 2。CSS-in-JSは、スタイル管理の柔軟性を高めますが、ファイルサイズを増やす可能性があります。 CSShoudiniは、CSSレンダリングの直接操作を可能にします。 3. Webassemblyブラウザーアプリケーションのパフォーマンスを最適化しますが、急な学習曲線があり、サーバーレスは開発を簡素化しますが、コールドスタートの問題の最適化が必要です。

HTMLの将来は、無限の可能性に満ちています。 1)新機能と標準には、より多くのセマンティックタグとWebComponentsの人気が含まれます。 2)Webデザインのトレンドは、レスポンシブでアクセス可能なデザインに向けて発展し続けます。 3)パフォーマンスの最適化により、応答性の高い画像読み込みと怠zyなロードテクノロジーを通じてユーザーエクスペリエンスが向上します。

Web開発におけるHTML、CSS、およびJavaScriptの役割は次のとおりです。HTMLはコンテンツ構造を担当し、CSSはスタイルを担当し、JavaScriptは動的な動作を担当します。 1。HTMLは、セマンティクスを確保するためにタグを使用してWebページの構造とコンテンツを定義します。 2。CSSは、セレクターと属性を介してWebページスタイルを制御して、美しく読みやすくします。 3。JavaScriptは、動的でインタラクティブな関数を実現するために、スクリプトを通じてWebページの動作を制御します。

HTMLは、Webページ構造の構築の基礎です。 1。HTMLは、コンテンツ構造とセマンティクス、および使用などを定義します。タグ。 2. SEO効果を改善するために、などのセマンティックマーカーを提供します。 3.タグを介したユーザーの相互作用を実現するには、フォーム検証に注意してください。 4. JavaScriptと組み合わせて、動的効果を実現するなどの高度な要素を使用します。 5.一般的なエラーには、閉じられていないラベルと引用されていない属性値が含まれ、検証ツールが必要です。 6.最適化戦略には、HTTP要求の削減、HTMLの圧縮、セマンティックタグの使用などが含まれます。

HTML、CSS、およびJavaScriptは、最新のWebページを構築するためのコアテクノロジーです。1。HTMLはWebページ構造を定義します。2。CSSはWebページの外観に責任があります。

htmlisnotaprogramminglanguage; itisamarkuplanguage.1)htmlStructuresandformatswebcontentusingtags.2)ItworkswithcsssssssssdjavascriptforInteractivity、強化を促進します。

HTMLは、Webページを構築するために使用される言語であり、タグと属性を使用してWebページの構造とコンテンツを定義します。 1)htmlは、などのタグを介してドキュメント構造を整理します。 2)ブラウザはHTMLを分析してDOMを構築し、Webページをレンダリングします。 3)マルチメディア関数を強化するなど、HTML5の新機能。 4)一般的なエラーには、閉じられていないラベルと引用されていない属性値が含まれます。 5)最適化の提案には、セマンティックタグの使用とファイルサイズの削減が含まれます。
