Python 크롤러는 Python 프로그램을 사용하여 개발된 웹 크롤러(웹 스파이더, 웹 로봇)로, 특정 규칙에 따라 World Wide Web 정보를 자동으로 크롤링하는 프로그램 또는 스크립트입니다. 덜 일반적으로 사용되는 다른 이름으로는 개미, 자동 인덱서, 에뮬레이터 또는 웜이 있습니다. 사실 일반인의 관점에서 말하면 웹페이지에서 원하는 데이터를 프로그램을 통해 얻는 것, 즉 자동으로 데이터를 캡쳐하는 것이다.
웹 스파이더라고도 불리는 웹 크롤러(영어: web Crawler)는 월드 와이드 웹(World Wide Web)을 자동으로 검색하는 데 사용되는 웹 로봇입니다. 그 목적은 일반적으로 웹 색인을 컴파일하는 것입니다.
웹 검색 엔진 및 기타 사이트는 크롤러 소프트웨어를 사용하여 자체 웹사이트 콘텐츠나 다른 웹사이트의 색인을 업데이트합니다. 웹 크롤러는 검색 엔진이 나중에 사용자가 검색할 색인을 생성할 수 있도록 방문하는 페이지를 저장할 수 있습니다.
크롤러가 웹사이트에 액세스하는 과정에서 대상 시스템 리소스가 소모됩니다. 많은 네트워크 시스템에서는 기본적으로 크롤러의 작동을 허용하지 않습니다. 따라서 많은 수의 페이지를 방문할 때 크롤러는 계획, 로드 및 "정중"을 고려해야 합니다. 크롤러의 액세스를 원하지 않고 크롤러 소유자가 알고 있는 공개 사이트는 robots.txt 파일과 같은 방법을 사용하여 액세스를 방지할 수 있습니다. 이 파일은 로봇에게 사이트의 일부만 색인을 생성하거나 전혀 처리하지 않도록 요청할 수 있습니다.
인터넷에는 페이지가 너무 많아서 가장 큰 크롤러 시스템이라도 전체 색인을 생성할 수 없습니다. 따라서 서기 2000년 이전인 월드 와이드 웹 초기에는 검색 엔진에서 관련성 있는 결과를 거의 찾지 못하는 경우가 많았습니다. 오늘날의 검색 엔진은 이와 관련하여 많이 개선되었으며 즉시 고품질의 결과를 제공할 수 있습니다.
크롤러는 웹 스크래핑을 위해 하이퍼링크와 HTML 코드도 확인할 수 있습니다.
Python 크롤러
Python 크롤러 아키텍처
Python 크롤러 아키텍처는 주로 스케줄러, URL 관리자, 웹 페이지 다운로더, 웹 페이지 파서, 애플리케이션(가치 있는 데이터 크롤링)의 다섯 부분으로 구성됩니다.
스케줄러: 컴퓨터의 CPU와 동일하며 주로 URL 관리자, 다운로더 및 파서 간의 조정을 예약하는 역할을 담당합니다.
URL 관리자: URL의 반복 크롤링 및 URL 루프 크롤링을 방지하기 위해 크롤링할 URL 주소와 크롤링된 URL 주소를 포함합니다. 캐시 데이터베이스.
웹페이지 다운로더: URL 주소를 전달하여 웹페이지를 다운로드하고 웹페이지를 문자열로 변환합니다. 웹페이지 다운로더에는 로그인, 프록시, 쿠키, 요청(타사 패키지)을 포함한 urllib2(Python 공식 기본 모듈)가 있습니다. 페이지 파서: 웹 페이지 문자열을 구문 분석하면 요구 사항에 따라 유용한 정보를 추출할 수 있거나 DOM 트리 구문 분석 방법에 따라 구문 분석할 수 있습니다. 웹 페이지 파서에는 정규식(직관적으로 웹 페이지를 문자열로 변환하여 퍼지 매칭을 통해 중요한 정보를 추출합니다. 문서가 복잡할 경우 이 방법은 데이터를 추출하기가 매우 어렵습니다.), html 파서(Python과 함께 제공됨), beautifulsoup가 포함됩니다. (타사 플러그인인 경우 Python과 함께 제공되는 html.parser를 사용하여 구문 분석하거나 lxml을 사용하여 구문 분석할 수 있는데, 이는 다른 플러그인보다 강력합니다.), lxml(타사 플러그인 , xml 및 HTML을 구문 분석할 수 있음), html.parser, beautifulsoup 및 lxml은 모두 DOM 트리 형식으로 구문 분석됩니다.
애플리케이션: 웹페이지에서 유용한 데이터를 추출하여 구성한 애플리케이션입니다.
크롤러는 무엇을 할 수 있나요?크롤러를 사용하여 크롤링하려는 사진, 동영상 및 기타 데이터를 크롤링할 수 있습니다. 브라우저를 통해 데이터에 액세스할 수 있는 한 크롤러를 통해 얻을 수 있습니다.
크롤러의 본질은 무엇인가요?브라우저를 시뮬레이션하여 웹페이지를 열고 웹페이지에서 원하는 데이터 부분을 가져옵니다
브라우저가 웹페이지를 여는 과정:
브라우저에 주소를 입력한 후 다음을 통해 서버 호스트를 찾습니다. DNS 서버가 이를 서버로 전송합니다. 요청에 대해 서버는 html, js, css 및 기타 파일 내용을 포함하여 결과를 구문 분석하여 사용자의 브라우저로 보냅니다. 브라우저는 이를 구문 분석하여 최종적으로 사용자에게 보이는 결과로 표시합니다. on the browser
그래서 사용자가 브라우저에서 보는 것은 HTML 코드로 구성되어 있습니다. 우리 크롤러는 우리가 원하는 리소스를 얻기 위해 HTML 코드를 분석하고 필터링하여 이 콘텐츠를 얻는 것입니다.
관련 추천: "
Python Tutorial위 내용은 Python의 크롤러는 무엇을 의미합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!