84669인 학습
152542인 학습
20005인 학습
5487인 학습
7821인 학습
359900인 학습
3350인 학습
180660인 학습
48569인 학습
18603인 학습
40936인 학습
1549인 학습
1183인 학습
32909인 학습
火车头有一个正文提取器,而且不少的采集软件都有这个东西,但是就是一直不知道这些东西到底是怎么实现的?
或是有高人说下实现的原理是多少?
比如步骤?
或是如何用python来实现,可以举个简单的例子
欢迎选择我的课程,让我们一起见证您的进步~~
출처 주소: http://www.cnblogs.com/jasondan/p/3497757.html
보다 타겟화된 목적으로는 p, 기사 등의 태그를 사용하여 간단한 판단을 내릴 수 있습니다. 좀 더 일반적인 내용이 필요한 경우 수집된 웹페이지 데이터를 분석하여 중국어(태그가 없는 텍스트)의 밀도를 계산하는 알고리즘을 작성하여 본문인지 여부를 판단할 수 있습니다. 구체적으로 하지는 않았지만 기본적으로 아이디어는 이렇습니다.
HTTP 프로토콜 시뮬레이션, (보통 request, urllib2 모듈 사용)
정보 추출(HTML 문서의 특성상 일반적으로 xpath, beautifulsoup 사용)
출처 주소: http://www.cnblogs.com/jasondan/p/3497757.html
보다 타겟화된 목적으로는 p, 기사 등의 태그를 사용하여 간단한 판단을 내릴 수 있습니다. 좀 더 일반적인 내용이 필요한 경우 수집된 웹페이지 데이터를 분석하여 중국어(태그가 없는 텍스트)의 밀도를 계산하는 알고리즘을 작성하여 본문인지 여부를 판단할 수 있습니다. 구체적으로 하지는 않았지만 기본적으로 아이디어는 이렇습니다.
HTTP 프로토콜 시뮬레이션, (보통 request, urllib2 모듈 사용)
정보 추출(HTML 문서의 특성상 일반적으로 xpath, beautifulsoup 사용)