网页爬虫 - 如何使用使用java抓取信息并制作一个排名系统？

Question

在学习java web 正好有一个有趣的项目可以做 。 我们学校需要晨跑刷卡，体育部提供一个查询网站，但是不提供接口。 想做一个网站/微信后台从学校网上抓取信息储存到数据库 然后用户可以通过我的 网站/微信来查询...

PHP中文网 · Answer

我就随便说个，因为我也没想到用什么方法。

用Jsoup去爬页面数据，哈哈

代言 · Answer

想到了几点，简单说下：
1.数据抓取，可以自己写抓取程序，制定数据爬取的时间规则之类的
2.数据处理，抓取到网页的内容通过jsoup或者其他方式对网页有效内容提取，并设计数据结构，学号应该是唯一的，可以有学员表和晨跑记录表，通过学号进行关联
3.我的个人理解是按照次数排序，因为想了下，如果按照时间排序是不合理的，因为是没有办法判断真正的晨跑时间的，那我这里就按次数来说吧，可以直接在学员表存放跑步次数的字段，减少通过记录表查询，提高效率，就是需要数据处理时维护此字段

三叔 · Answer

一般来说呢，是基于httpclient这样的工具将返回包拿到，解析报文实体（这里指html页面），接下来就是利用xpath、正则、类似于jQuery方式解析DOM元素获取你想要的数据（如jsoup包），如果还嫌麻烦可以使用webmagic框架

巴扎黑 · Answer

模拟登陆：用浏览器打开登陆页观察接收学号密码的url；模拟登陆时post数据到该url；从response的header中解析Set-cookie字段信息；
数据抓取：向体育数据页发起get请求(带上上一步中拿到的cookie字段)，拿到response，然后进行正则解析获得数据即可；

建议：缓存用户每次查询的数据，比如缓存2个小时，建议使用redis；数据库可以存查询到的数据，先从redis中取数据，取不到再模拟登陆拿新数据。至于数据库这一层，个人感觉可有可无，有的话也可以进行数据分析什么的