如何一个通用的方法取得大部分文章的标题及内容

WBOY
Release: 2016-06-06 20:42:25
Original
942 people have browsed it

一个能够识别大部分文章的标题及内容的方法

提取标题 自动去掉网站名称

1.首先从<title>我是一个标题 - 网站名称</title>提取我是一个标题 - 网站名称
2.然后透过搜寻<h1>-<h6>或div.title</h6> </h1> 包含 我是一个标题 的标签 去掉 - 网站名称
3.最后取得排除掉网站名称的标题 我是一个标题

识别文章内容文字

感觉识别文章就比较困难了
透過divpbr標籤的數量多少判斷该div是否文章内容

大神有识别文章内容没有更好的方案?

更新

找到這個 http://segmentfault.com/a/1190000000362182

回复内容:

一个能够识别大部分文章的标题及内容的方法

提取标题 自动去掉网站名称

1.首先从<title>我是一个标题 - 网站名称</title>提取我是一个标题 - 网站名称
2.然后透过搜寻<h1>-<h6>或div.title</h6> </h1> 包含 我是一个标题 的标签 去掉 - 网站名称
3.最后取得排除掉网站名称的标题 我是一个标题

识别文章内容文字

感觉识别文章就比较困难了
透過divpbr標籤的數量多少判斷该div是否文章内容

大神有识别文章内容没有更好的方案?

更新

找到這個 http://segmentfault.com/a/1190000000362182

Related labels:
php
source:php.cn
Statement of this Website
The content of this article is voluntarily contributed by netizens, and the copyright belongs to the original author. This site does not assume corresponding legal responsibility. If you find any content suspected of plagiarism or infringement, please contact admin@php.cn
Popular Tutorials
More>
Latest Downloads
More>
Web Effects
Website Source Code
Website Materials
Front End Template
About us Disclaimer Sitemap
php.cn:Public welfare online PHP training,Help PHP learners grow quickly!