Webcrawler – Wie kann ich mit Java Informationen crawlen und ein Ranking-System erstellen?

Question

Beim Erlernen von Java Web gibt es zufällig ein interessantes Projekt. Unsere Schule benötigt für morgendliche Läufe eine Kreditkarte. Die Sportabteilung stellt eine Anfrage-Website zur Verfügung, stellt jedoch keine Schnittstelle zur Verfügung. Ich möchte eine Website/WeChat-Backend erstellen, um Informationen von der Schulwebsite zu erfassen und in einer Datenbank zu speichern. Anschließend können Benutzer sie über meine Website/WeChat abfragen.

PHP中文网 · Answer

我就随便说个，因为我也没想到用什么方法。

用Jsoup去爬页面数据，哈哈

代言 · Answer

想到了几点，简单说下：
1.数据抓取，可以自己写抓取程序，制定数据爬取的时间规则之类的
2.数据处理，抓取到网页的内容通过jsoup或者其他方式对网页有效内容提取，并设计数据结构，学号应该是唯一的，可以有学员表和晨跑记录表，通过学号进行关联
3.我的个人理解是按照次数排序，因为想了下，如果按照时间排序是不合理的，因为是没有办法判断真正的晨跑时间的，那我这里就按次数来说吧，可以直接在学员表存放跑步次数的字段，减少通过记录表查询，提高效率，就是需要数据处理时维护此字段

三叔 · Answer

一般来说呢，是基于httpclient这样的工具将返回包拿到，解析报文实体（这里指html页面），接下来就是利用xpath、正则、类似于jQuery方式解析DOM元素获取你想要的数据（如jsoup包），如果还嫌麻烦可以使用webmagic框架

巴扎黑 · Answer

模拟登陆：用浏览器打开登陆页观察接收学号密码的url；模拟登陆时post数据到该url；从response的header中解析Set-cookie字段信息；
数据抓取：向体育数据页发起get请求(带上上一步中拿到的cookie字段)，拿到response，然后进行正则解析获得数据即可；

建议：缓存用户每次查询的数据，比如缓存2个小时，建议使用redis；数据库可以存查询到的数据，先从redis中取数据，取不到再模拟登陆拿新数据。至于数据库这一层，个人感觉可有可无，有的话也可以进行数据分析什么的