如何一个通用的方法取得大部分文章的标题及内容

WBOY
풀어 주다: 2016-06-06 20:42:25
원래의
945명이 탐색했습니다.

一个能够识别大部分文章的标题及内容的方法

提取标题 自动去掉网站名称

1.首先从<title>我是一个标题 - 网站名称</title>提取我是一个标题 - 网站名称
2.然后透过搜寻<h1>-<h6>或div.title</h6> </h1> 包含 我是一个标题 的标签 去掉 - 网站名称
3.最后取得排除掉网站名称的标题 我是一个标题

识别文章内容文字

感觉识别文章就比较困难了
透過divpbr標籤的數量多少判斷该div是否文章内容

大神有识别文章内容没有更好的方案?

更新

找到這個 http://segmentfault.com/a/1190000000362182

回复内容:

一个能够识别大部分文章的标题及内容的方法

提取标题 自动去掉网站名称

1.首先从<title>我是一个标题 - 网站名称</title>提取我是一个标题 - 网站名称
2.然后透过搜寻<h1>-<h6>或div.title</h6> </h1> 包含 我是一个标题 的标签 去掉 - 网站名称
3.最后取得排除掉网站名称的标题 我是一个标题

识别文章内容文字

感觉识别文章就比较困难了
透過divpbr標籤的數量多少判斷该div是否文章内容

大神有识别文章内容没有更好的方案?

更新

找到這個 http://segmentfault.com/a/1190000000362182

관련 라벨:
php
원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿
회사 소개 부인 성명 Sitemap
PHP 중국어 웹사이트:공공복지 온라인 PHP 교육,PHP 학습자의 빠른 성장을 도와주세요!