Java でのプログラムによる Web ページのダウンロード
Web ページの HTML コンテンツを取得し、それをさらなる処理のために文字列として保存するために、Java は包括的なソリューションを提供します.
Java を使用するJsoup
効果的なアプローチの 1 つは、強力な HTML パーサーである Jsoup を活用することです。 Jsoup を使用すると、Web ページのダウンロードは次のように簡単になります。
String html = Jsoup.connect("http://stackoverflow.com").get().html();
Jsoup は、さまざまな種類の圧縮 (GZIP およびチャンク化された応答) と文字エンコーディングをシームレスに処理します。また、jQuery に似た CSS セレクターを使用した HTML ナビゲーションや操作などの追加の利点も提供します。
HTML ドキュメント オブジェクトに直接アクセスするには、get().html() 呼び出しを次のように置き換えます。
Document document = Jsoup.connect("http://google.com").get();
手動文字列処理の回避
基本的な文字列操作を使用することは強くお勧めできませんまたは、処理目的で HTML 上の正規表現を使用することもできます。代わりに、Jsoup などの適切な HTML パーサーを使用してください。
追加リソース
さらに詳しく調べるには、次のリソースを検討してください:
以上がJava で Web ページをプログラム的にダウンロードして解析するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。