网页爬虫 - python采集百度新闻的原理是什么?

Question

火车头有一个正文提取器,而且不少的采集软件都有这个东西,但是就是一直不知道这些东西到底是怎么实现的?

或是有高人说下实现的原理是多少?

比如步骤?

或是如何用python来实现,可以举个简单的例子

高洛峰 · Answer

Adresse source : http://www.cnblogs.com/jasondan/p/3497757.html

PHP中文网 · Answer

À des fins plus ciblées, vous pouvez utiliser des balises telles que p et article pour porter des jugements simples. Si vous avez besoin de quelque chose de plus général, vous pouvez analyser les données collectées sur la page Web, par exemple en écrivant un algorithme pour calculer la densité du chinois (texte non balisé) afin de déterminer s'il s'agit du texte principal. Je ne l'ai pas fait spécifiquement, mais l'idée est essentiellement la suivante.

PHP中文网 · Answer

Simulation du protocole HTTP, (généralement en utilisant request, module urllib2)
Extraction d'informations (en raison de la nature particulière des documents HTML, XPath et beautifulsoup sont généralement utilisés)