网页爬虫 - python采集百度新闻的原理是什么?

Question

火车头有一个正文提取器,而且不少的采集软件都有这个东西,但是就是一直不知道这些东西到底是怎么实现的?

或是有高人说下实现的原理是多少?

比如步骤?

或是如何用python来实现,可以举个简单的例子

高洛峰 · Answer

출처 주소: http://www.cnblogs.com/jasondan/p/3497757.html

PHP中文网 · Answer

보다 타겟화된 목적으로는 p, 기사 등의 태그를 사용하여 간단한 판단을 내릴 수 있습니다. 좀 더 일반적인 내용이 필요한 경우 수집된 웹페이지 데이터를 분석하여 중국어(태그가 없는 텍스트)의 밀도를 계산하는 알고리즘을 작성하여 본문인지 여부를 판단할 수 있습니다. 구체적으로 하지는 않았지만 기본적으로 아이디어는 이렇습니다.

PHP中文网 · Answer

HTTP 프로토콜 시뮬레이션, (보통 request, urllib2 모듈 사용)
정보 추출(HTML 문서의 특성상 일반적으로 xpath, beautifulsoup 사용)