Heim > Backend-Entwicklung > PHP-Tutorial > 如何一个通用的方法取得大部分文章的标题及内容

如何一个通用的方法取得大部分文章的标题及内容

WBOY
Freigeben: 2016-06-06 20:42:25
Original
990 Leute haben es durchsucht

一个能够识别大部分文章的标题及内容的方法

提取标题 自动去掉网站名称

1.首先从<title>我是一个标题 - 网站名称</title>提取我是一个标题 - 网站名称
2.然后透过搜寻<h1>-<h6>或div.title</h6> </h1> 包含 我是一个标题 的标签 去掉 - 网站名称
3.最后取得排除掉网站名称的标题 我是一个标题

识别文章内容文字

感觉识别文章就比较困难了
透過divpbr標籤的數量多少判斷该div是否文章内容

大神有识别文章内容没有更好的方案?

更新

找到這個 http://segmentfault.com/a/1190000000362182

回复内容:

一个能够识别大部分文章的标题及内容的方法

提取标题 自动去掉网站名称

1.首先从<title>我是一个标题 - 网站名称</title>提取我是一个标题 - 网站名称
2.然后透过搜寻<h1>-<h6>或div.title</h6> </h1> 包含 我是一个标题 的标签 去掉 - 网站名称
3.最后取得排除掉网站名称的标题 我是一个标题

识别文章内容文字

感觉识别文章就比较困难了
透過divpbr標籤的數量多少判斷该div是否文章内容

大神有识别文章内容没有更好的方案?

更新

找到這個 http://segmentfault.com/a/1190000000362182

Verwandte Etiketten:
php
Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage