지난번에 NodeJS PhantomJS를 사용하여 스크린샷을 찍는 방법을 소개했지만 각 스크린샷 작업마다 PhantomJS 프로세스가 활성화되어 있기 때문에 동시성이 높아지면 효율성이 걱정되므로 모든 코드를 다시 작성하여 독립적으로 만들었습니다. 쉽게 통화할 수 있습니다.
어떻게 개선할 수 있나요? 스레드 수와 단일 스레드에서 처리되는 URL 수를 제어합니다. 통신에는 표준 출력 및 WebSocket을 사용하십시오. 현재 Javascript 객체를 사용하는 캐싱 메커니즘을 추가합니다. 외부 세계에 대한 간단한 인터페이스를 제공합니다.
디자인
종속성 및 설치
PhantomJS 1.9.0부터 Websocket만 지원하기 시작했으므로 먼저 PATH의 PhantomJS 버전이 1.9.0 이상인지 확인해야 합니다. 명령줄에 다음을 입력하세요.
$ phantomjs -v
버전 번호 1.9.x가 반환될 수 있으면 작업을 계속할 수 있습니다. 버전이 너무 낮거나 오류가 발생하는 경우 PhantomJS 공식 홈페이지에 접속하여 최신 버전을 다운로드 받으세요.
Git이 설치되어 있거나 Git Shell이 있는 경우 명령줄에 다음을 입력하세요.
$ npm install url-extract
설치를 진행하세요.
간단한 예
예를 들어 Baidu 홈페이지를 차단하려면 다음과 같이 할 수 있습니다.
그 중 이미지 속성은 작업 경로를 기준으로 한 스크린샷의 주소입니다. Job의 getData 인터페이스를 사용하여 더 명확한 데이터를 얻을 수 있습니다. 예를 들어:
image는 작업 경로를 기준으로 스크린샷의 주소를 나타내고, status는 상태가 정상인지 여부를 나타내며, true는 정상, false는 스크린샷 실패를 나타냅니다.
더 많은 예를 보려면
https://github.com/miniflycn/url-extract/tree/master/examples메인 API
.스냅샷URL 스냅샷
.snapshot(url, [콜백]).snapshot(urls, [콜백]).snapshot(url, [옵션]).snapshot(urls, [옵션])
코드 복사 코드는 다음과 같습니다. url {String} 차단할 주소 url {Array } 차단할 주소 주소 배열 콜백 {Function} 콜백 함수 옵션 {Object} 선택적 매개변수 ┝ id {String} 첫 번째 매개변수가 urls인 경우 이 매개변수는 유효하지 않습니다. ┝ image {String} 저장 맞춤 스크린샷 주소, 첫 번째 매개변수가 URL인 경우 이 매개변수는 유효하지 않습니다.┝ groupId {String}은 URL 그룹의 groupId를 정의하며, 반환 시 어떤 URL 그룹인지 식별하는 데 사용됩니다. ┝ignoreCache {Boolean} 무시 여부 캐시┗ 콜백 {Function} 콜백 함수.추출
URL 정보 수집 및 스냅샷 가져오기
.extract(url, [콜백]).extract(urls, [콜백]).extract(url, [옵션]).extract( urls, [옵션])url {String} 차단할 주소
urls {Array} 차단할 주소 배열
콜백{Function} 콜백 함수
옵션{Object} 선택적 매개변수
┝ id {String} 첫 번째 매개변수가 urls인 경우 이 매개변수는 유효하지 않습니다.
┝ image {String} 스크린샷 저장 주소를 맞춤 설정합니다. 첫 번째 매개변수가 urls인 경우 이 매개변수는 유효하지 않습니다
┝ groupId {String}은 URL 그룹의 groupId를 정의하며,
을 반환할 때 어떤 URL 그룹인지 식별하는 데 사용됩니다.┝ignoreCache {Boolean} 캐시 무시 여부
┗ 콜백 {Function} 콜백 함수
직업(수업)
각 URL은 작업 개체에 해당하며, URL 관련 정보는 작업 개체에 저장됩니다.
필드
url {String} 링크 주소 콘텐츠 {Boolean} 페이지 제목 및 설명 정보 크롤링 여부 id {String} 작업의 idgroupId {String} 여러 작업의 그룹 ID 캐시 {Boolean} 캐싱 콜백 활성화 여부 {Function} 콜백 함수 이미지 {String} 이미지 주소 상태 {Boolean} 현재 작업이 정상인지 여부시제품
getData()는 직업 관련 데이터를 가져옵니다글로벌 구성
url-extract 루트 디렉터리에 있는 구성 파일은 전역적으로 구성할 수 있습니다.
module.exports = { wsPort: 3001, maxJob: 100, maxQueueJob: 400, cache: 'object', maxCache: 10000, workerNum: 0};로그인 후 복사wsPort {Number} websocket이 차지하는 포트 주소 maxJob {Number} 각 PhantomJS 스레드가 가질 수 있는 동시 작업자 수 maxQueueJob {Number} 대기 작업의 최대 수, 0은 이 수를 초과하는 모든 작업에 제한이 없음을 의미합니다. 즉시 실패로 돌아갑니다(즉, 상태 = false). 캐시 {String} 캐시 구현, 현재 객체만 maxCache {Number} 캐시 링크의 최대 수를 구현합니다. WorkerNum {Number} PhantomJS 스레드 번호, 0은 CPU 수와 동일함을 의미합니다.간단한 서비스 예시
https://github.com/miniflycn/url-extract-server-example
connect 및 url-extract를 설치해야 합니다.
$ npm 설치
네트워크 디스크 파일을 다운로드하셨다면 connect를 설치해주세요:
$ npm 설치 연결
그런 다음 다음을 입력하세요.
$ 노드 저장소/서버
열기:
효과를 확인해보세요.
;