node.js - 怎么用nodejs分析出爬的不同网页那部分是文章标题和内容主体,有相关资料吗
大家讲道理
大家讲道理 2017-04-17 11:30:04
0
3
660

怎么用nodejs分析出爬的不同网页那部分是文章标题和内容而不是页面的其他元素,有相关资料吗

大家讲道理
大家讲道理

光阴似箭催人老,日月如移越少年。

全部回覆(3)
PHPzhong

如果是特定的網站,可以根據其頁面做些匹配。
如果想要相容所有的網站就很難了。只根據標籤名識別肯定不準。應該有神經網絡,機器學習之類的演算法。

伊谢尔伦

可以使用cheerio模組比較方便。
範例:http://www.focalhot.com/blog/62.html

巴扎黑

內容主題可以嘗試用行塊密度
標題只能找h1-h3這種標籤了

熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板