JAVA爬取网页数据之jsoup
关于近些年兴起的爬取数据,其中大部分人都是使用Python来进行爬取。对于有些人来讲,还是不知道Java也可以进行数据爬取的。那么接下来小编就要给大家分享一篇关于Java爬取网页数据的文章。
爬取数据的含义就是获取请求返回的页面信息,筛选出我们想要的数据就可以了。
那么长话短说我们下面开始:
1.环境准备
工具的话是eclipse或者IDEA
配置好maven
2.导入jsoup相关依赖
3.开始建立一个项目写代码,小编代码如下:
public static void main(String[] args) throws Exception { Scanner sc = new Scanner(System.in); System.out.println("请输入搜索的关键字!!!"); String input = sc.next(); //获取url请求,这里的请求自己去找 String url = "https://search.xx.com/Search?keyword="+input; //解析网页(此处jsoup返回的document,就是页面document对象) Document document = Jsoup.parse(new URL(url), 30000); //所有js中的方法这里都能够使用,这里是获取爬取目标div中的id Element element = document.getElementById("x_goodsList"); System.out.println(element.html()); //获取爬取目标div中的所有的li标签 Elements elements = document.getElementsByTag("li"); //遍历li标签里面的所有内容 for(Element el : elements){
//有时候爬取图片比较多的网站,都是采用延迟加载的。获取的属性是 source-data-lazy-img而不是src
/*
img 是爬取的图片,
price是爬取的价格,
name是爬取的商品名
*/
String img = el.getElementsByTag("img").eq(0).attr("src"); String price = el.getElementsByClass("p-price").eq(0).text(); String name = el.getElementsByClass("p-name").eq(0).text(); System.out.println("========================"); System.out.println(img); System.out.println(price); System.out.println(name); }
最后对于爬取数据感兴趣的小伙伴抓紧去试试,在这里本人杜绝爬取一切违法的爬取行为,哈哈哈,希望小伙伴知道什么可爬着玩,什么不可爬。
以上是JAVA爬取网页数据之jsoup的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

Java的类上载涉及使用带有引导,扩展程序和应用程序类负载器的分层系统加载,链接和初始化类。父代授权模型确保首先加载核心类别,从而影响自定义类LOA

本文讨论了使用咖啡因和Guava缓存在Java中实施多层缓存以提高应用程序性能。它涵盖设置,集成和绩效优势,以及配置和驱逐政策管理最佳PRA

本文讨论了使用JPA进行对象相关映射,并具有高级功能,例如缓存和懒惰加载。它涵盖了设置,实体映射和优化性能的最佳实践,同时突出潜在的陷阱。[159个字符]

本文讨论了使用Maven和Gradle进行Java项目管理,构建自动化和依赖性解决方案,以比较其方法和优化策略。

本文使用Maven和Gradle之类的工具讨论了具有适当的版本控制和依赖关系管理的自定义Java库(JAR文件)的创建和使用。
