API 설명 - gsExtractor 콘텐츠 추출기 다운로드
1, 인터페이스 이름
콘텐츠 추출기 다운로드
2, 인터페이스 설명
원하는 경우 웹 크롤러 프로그램을 작성하려면 대부분의 시간이 웹 콘텐츠 추출 규칙을 디버깅하는 데 소비된다는 것을 알게 될 것입니다. 정규식 구문이 얼마나 이상한지는 말할 것도 없고, XPath를 사용하더라도 하나씩 작성하고 디버깅해야 합니다. 하나.
웹 페이지에서 많은 필드를 추출하려는 경우 XPath를 하나씩 디버깅하는 데 시간이 많이 걸립니다. 이 인터페이스를 통해 표준 XSLT 프로그램인 디버깅된 추출기 스크립트 프로그램을 직접 얻을 수 있으며, 모든 필드를 한 번에 얻을 수 있는 XML 형식의 결과를 얻으려면 대상 웹 페이지의 DOM에 대해 실행하기만 하면 됩니다.
이 XSLT 추출기는 MS 소프트웨어를 사용하여 생성할 수도 있고, 읽기 권한이 있는 한 다른 사람과 공유할 수도 있습니다.
데이터 분석 및 데이터 마이닝에 사용되는 웹 크롤러 프로그램에서 콘텐츠 추출기는 보편성에 대한 주요 장애물입니다. 이 추출기를 API에서 얻으면 웹 크롤러 프로그램을 범용 프레임으로 작성할 수 있습니다.
3, 인터페이스 사양
3.1, 인터페이스 주소(URL)
http://www.gooseeeker.com/api/getextractor
3.2, 요청 유형(contentType)
제한 없음
3.3, 요청 방법
HTTP GET
3.4, 요청 매개변수
key 필수: 예; 유형: 문자열; 설명: AppKey
API 신청 시 지정되는 테마 필수: 예; 유형: 문자열 설명: 추출기 이름은
middle 필수: 아니요; 유형: 문자열; 설명: 규칙 번호. 동일한 규칙 이름으로 여러 규칙이 정의된 경우
bname 필수: 아니요; 유형: 문자열; 규칙에는 여러 정렬 상자가 포함되어 있습니다.
3.5, 반환 유형(contentType)
text/xml; charset=UTF-8
3.6, 반환 매개변수
HTTP 메시지 헤더의 매개변수는 다음과 같습니다.
more-extractor 유형: 문자열; 설명: 동일한 규칙 이름 아래에 추출기가 몇 개 있습니다. 일반적으로 클라이언트에게 여러 규칙과 정렬 상자가 있음을 상기시키기 위해 선택적 매개변수가 채워지지 않은 경우에만 이 매개변수에 주의하면 됩니다.
3.7 , 오류 정보 반환
메시지 계층 오류는 HTTP 400으로 반환됩니다. 예를 들어 URL의 매개변수는 이 사양을 준수하지 않습니다
응용 프로그램 계층 오류는 HTTP 200으로 반환됩니다. 특정 오류 코드는 XML 파일에 있습니다. 메시지 본문의 XML 구조는 다음과 같습니다.
<return> <code>具体的错误码</code> </return>
특정 코드 값은 다음과 같습니다. keyError: 권한 확인 실패
keyError:权限验证失败 paramError:URL中传来的参数有误,比如,参数名称或值不正确
4, 사용예(파이썬 언어)
샘플 코드:
# -*- coding: utf-8 -*- from urllib import request url = 'http://www.gooseeker.com/api/getextractor?key=您的key&theme=您的提取器名' resp = request.urlopen(url) content = resp.read() if(content): print(content)
다음에 이 API를 테스트하겠습니다