Java で Web ページをプログラム的にダウンロードする
質問:
Java アプリケーションはどのようにして Web ページを取得できますか? Web ページの HTML コンテンツを文字列として保存し、さらに使用できるようにします。処理していますか?
答え:
Web ページの HTML コンテンツを Java でプログラム的にダウンロードするには、堅牢な HTML パーサーである Jsoup ライブラリの使用を検討してください。単一行のコードで HTML をフェッチできるため、プロセスが簡素化されます。
String html = Jsoup.connect("http://stackoverflow.com").get().html();
圧縮の処理:
Jsoup は、いくつかのタイプの圧縮を透過的に処理します。 GZIP とチャンク化された応答が含まれます。これは、圧縮を手動で管理することを心配する必要がないことを意味します。
Jsoup の利点:
圧縮の処理に加えて、Jsoup にはいくつかの利点があります。
ヒント:
より良いアプローチとして、Jsoup を使用して HTML を Document オブジェクトとして取得できます:
Document document = Jsoup.connect("http://google.com").get();
これは HTML を文字列ではなく構造化モデルとして処理し、より高い柔軟性を提供します。処理。
追加リソース:
以上がJava で Web ページの HTML コンテンツをプログラム的にダウンロードして処理するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。