> 일반적인 문제 > 파충류란 무엇입니까?

파충류란 무엇입니까?

若昕
풀어 주다: 2019-04-24 13:49:41
원래의
4913명이 탐색했습니다.

파충류란 무엇입니까?

웹 크롤러는 특정 규칙에 따라 World Wide Web 정보를 자동으로 크롤링하는 프로그램 또는 스크립트로, 인터넷 검색 엔진이나 기타 유사한 웹사이트에서 널리 사용됩니다. 이러한 웹사이트의 콘텐츠와 검색 방법을 얻거나 업데이트하기 위해 액세스할 수 있는 모든 페이지의 콘텐츠를 자동으로 수집합니다. 기능적으로 말하면 크롤러는 일반적으로 데이터 수집, 처리 및 저장의 세 부분으로 나뉩니다.

기존 크롤러는 하나 또는 여러 초기 웹페이지의 URL에서 시작하여 초기 웹페이지의 URL을 획득하고, 웹페이지를 크롤링하는 과정에서 계속해서 현재 페이지에서 새로운 URL을 추출합니다. 시스템의 특정 중지 조건이 충족될 때까지 대기열에 넣습니다. 집중형 크롤러의 작업 흐름은 더 복잡합니다. 특정 웹 페이지 분석 알고리즘에 따라 주제와 관련 없는 링크를 필터링하고 유용한 링크를 유지하며 크롤링을 기다리는 URL 대기열에 넣어야 합니다. 그런 다음 특정 검색 전략에 따라 대기열에서 다음에 크롤링할 웹 페이지 URL을 선택하고 시스템의 특정 조건에 도달하면 중지될 때까지 위 프로세스를 반복합니다. 또한 크롤러가 크롤링한 모든 웹 페이지는 시스템에 의해 저장되며 집중적인 크롤러에 대한 후속 쿼리 및 검색을 위한 특정 분석, 필터링 및 색인화를 거치게 됩니다. 이 프로세스에서 얻은 분석 결과는 다음에 대한 피드백과 지침을 제공할 수도 있습니다. 향후 크롤링 프로세스.

위 내용은 파충류란 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿