84669 人学习
152542 人学习
20005 人学习
5487 人学习
7821 人学习
359900 人学习
3350 人学习
180660 人学习
48569 人学习
18603 人学习
40936 人学习
1549 人学习
1183 人学习
32909 人学习
火车头有一个正文提取器,而且不少的采集软件都有这个东西,但是就是一直不知道这些东西到底是怎么实现的?
或是有高人说下实现的原理是多少?
比如步骤?
或是如何用python来实现,可以举个简单的例子
欢迎选择我的课程,让我们一起见证您的进步~~
来源地址:http://www.cnblogs.com/jasondan/p/3497757.html
比较针对性的,可以使用p,article这些标签来简单判断。如果需要普遍一点的,可以对采集的网页数据进行分析,比如写一个算法计算中文(非标签文字)的密集性来判断是不是正文。具体没做过,但是思路基本是这样。
HTTP协议模拟,(通常用request,urllib2模块)
信息提取(由于HTML文档特殊性,一般会用xpath,beautifulsoup)
来源地址:http://www.cnblogs.com/jasondan/p/3497757.html
比较针对性的,可以使用p,article这些标签来简单判断。如果需要普遍一点的,可以对采集的网页数据进行分析,比如写一个算法计算中文(非标签文字)的密集性来判断是不是正文。具体没做过,但是思路基本是这样。
HTTP协议模拟,(通常用request,urllib2模块)
信息提取(由于HTML文档特殊性,一般会用xpath,beautifulsoup)