Java 中的程序化网页下载
为了获取网页的 HTML 内容并将其存储为字符串以供进一步处理,Java 提供了全面的解决方案.
使用 Java Jsoup
一种有效的方法是利用 Jsoup,一个强大的 HTML 解析器。使用 Jsoup,下载网页就像:
String html = Jsoup.connect("http://stackoverflow.com").get().html();
Jsoup 可以无缝处理各种类型的压缩(GZIP 和分块响应)和字符编码。它还提供了额外的好处,例如使用类似于 jQuery 的 CSS 选择器进行 HTML 导航和操作。
要直接访问 HTML 文档对象,请将 get().html() 调用替换为:
Document document = Jsoup.connect("http://google.com").get();
避免手动字符串处理
强烈建议不要在 HTML 上使用基本的字符串操作甚至正则表达式进行处理目的。相反,依赖于 Jsoup 等正确的 HTML 解析器。
其他资源
要进一步探索,请考虑以下资源:
以上是如何用 Java 以编程方式下载和解析网页?的详细内容。更多信息请关注PHP中文网其他相关文章!