java - SSH框架效率问题

Question

背景交代： 现在在做一个毕设，目的从各个招聘网站上（比如智联招聘）爬取职位信息，并存到自己的数据库中。然后进行分析，去重。最后能利用这些数据给用户推荐职位，并绘制一些诸如职位在城市的分布，薪资情况等...

大家讲道理 · Answer

你的耗时分析里已经指出了问题，“获取HTML耗时”占的比重是90%，再看你的代码，业务逻辑是

public void getJobs(){
    ...
    for(int i=0;i<50;i++){
        //生成url
        //爬取页面
        //解析内容
        ...
    }
    ...
}

并不清楚SSH框架中如何处理这个'''getJobs()'''这个函数，但看起来是单线程的，耗时这么久也就不足为奇了。

所以，应该把下载页面和处理内容两部分的工作分开来。这就是一个生产者-消费者问题了啊：页面下载的功能是生产者，网络IO明显比处理页慢，可以多开几个线程来进行下载页面工作，放入队列里；内容的分析处理部分是消费者，从队列里拿出页面解析就好，看情况要不要多线程。

Php8, saya datang juga