网页爬虫 - python采集百度新闻的原理是什么?
天蓬老师
天蓬老师 2017-04-18 09:03:01
0
3
935

火车头有一个正文提取器,而且不少的采集软件都有这个东西,但是就是一直不知道这些东西到底是怎么实现的?

或是有高人说下实现的原理是多少?

比如步骤?

或是如何用python来实现,可以举个简单的例子

天蓬老师
天蓬老师

欢迎选择我的课程,让我们一起见证您的进步~~

모든 응답(3)
小葫芦


출처 주소: http://www.cnblogs.com/jasondan/p/3497757.html

洪涛

보다 타겟화된 목적으로는 p, 기사 ​​등의 태그를 사용하여 간단한 판단을 내릴 수 있습니다. 좀 더 일반적인 내용이 필요한 경우 수집된 웹페이지 데이터를 분석하여 중국어(태그가 없는 텍스트)의 밀도를 계산하는 알고리즘을 작성하여 본문인지 여부를 판단할 수 있습니다. 구체적으로 하지는 않았지만 기본적으로 아이디어는 이렇습니다.

Ty80
  1. HTTP 프로토콜 시뮬레이션, (보통 request, urllib2 모듈 사용)

  2. 정보 추출(HTML 문서의 특성상 일반적으로 xpath, beautifulsoup 사용)

최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿
회사 소개 부인 성명 Sitemap
PHP 중국어 웹사이트:공공복지 온라인 PHP 교육,PHP 학습자의 빠른 성장을 도와주세요!