Python 크롤러 프레임워크 Scrapy에 대한 간략한 소개-파이썬 튜토리얼-php.cn

집

백엔드 개발

파이썬 튜토리얼

Python 크롤러 프레임워크 Scrapy에 대한 간략한 소개

不言

Oct 19, 2018 pm 05:04 PM

python

이 기사는 Python 크롤러 프레임워크인 Scrapy에 대한 간략한 소개를 제공합니다. 이는 특정 참고 가치가 있습니다. 도움이 필요한 친구들이 참고할 수 있기를 바랍니다.

Scrapy Framework

Scrapy는 웹사이트 데이터를 크롤링하고 구조적 데이터를 추출하기 위해 순수 Python으로 작성된 애플리케이션 프레임워크입니다.

프레임워크의 힘으로 사용자는 웹 콘텐츠와 다양한 이미지를 크롤링하는 크롤러를 쉽게 구현하기 위해 몇 가지 모듈을 사용자 정의하고 개발하기만 하면 됩니다. 이는 매우 편리합니다.

Scrapy는 Twisted'twəstˈd 비동기 네트워크 프레임워크를 사용하여 네트워크 통신을 처리하므로 비동기 프레임워크를 직접 구현하지 않고도 다운로드 속도를 높일 수 있습니다. 또한 다양한 요구 사항을 유연하게 충족할 수 있는 다양한 미들웨어 인터페이스도 포함되어 있습니다.

Scrapy 아키텍처 다이어그램(녹색 선은 데이터 흐름 방향):

95625f65089e4bc98a269cfda6701597.png

Scrapy 엔진: Spider, ItemPipeline, Downloader 및 Scheduler 간의 통신, 신호, 데이터 전송 등을 담당합니다.

Scheduler(스케줄러): 엔진에서 보낸 요청 요청을 수락하고 특정 방식으로 정렬하여 대기열에 입력하고 엔진에 필요할 때 엔진에 반환하는 역할을 담당합니다.

Downloader(다운로더): Scrapy 엔진(엔진)에서 보낸 모든 요청을 다운로드하고 획득한 응답을 Scrapy 엔진(엔진)으로 반환하는 역할을 담당하며 처리를 위해 Spider로 전달됩니다.

Spider(Crawler): 담당합니다. 모든 Response를 처리하고, 그로부터 데이터를 분석 및 추출하고, Item 필드에 필요한 데이터를 얻고, 따라야 할 URL을 엔진에 제출한 후 다시 Scheduler(스케줄러)에 들어가는

Item Pipeline(파이프라인) ): 앱에서 얻은 Spider 항목을 처리하고 후처리(상세 분석, 필터링, 저장 등)하는 역할을 담당합니다.

다운로더 미들웨어: 사용자 정의 및 확장이 가능한 구성 요소라고 생각하면 됩니다. 다운로드 기능.

Spider Middlewares(스파이더 미들웨어): 확장 및 운영 엔진과 Spider 사이의 중간 통신(예: Spider로 들어오는 응답, Spider에서 나가는 Request)을 커스터마이징할 수 있는 기능적 구성 요소로 이해하면 됩니다.

b847d7fa404a404ca0a656028ada63b5.png

파이썬을 배우는 과정에서 많은 질문과 문제가 발생하면 -q-u-n을 추가하면 됩니다. 227 -435-450 소프트웨어 영상 자료가 무료로 제공됩니다

Scrapy의 작동 과정

코드가 작성된 후, 프로그램이 실행되기 시작합니다...

엔진: 안녕하세요! Spider, 어느 웹사이트에서 작업하고 있나요?

스파이더: 상사가 나한테 xxxx.com을 처리하라고 했어.

엔진: 처리해야 할 첫 번째 URL을 알려주세요.

Spider: 자, 첫 번째 URL은 xxxxxxx.com입니다.

엔진: 안녕하세요! 스케줄러님, 대기열 정렬을 도와달라는 요청이 있습니다.

스케줄러: 네, 처리 중입니다. 기다려 주세요.

엔진: 안녕하세요! 스케줄러님, 처리한 요청을 알려주세요.

스케줄러: 자, 제가 처리한 요청입니다

엔진: 안녕하세요! 다운로더님, 사장님의 다운로드 미들웨어 설정에 따라 이 요청을 다운로드할 수 있게 도와주세요

다운로더: 좋아요! 자, 여기 다운로드가 있습니다. (실패한 경우: 죄송합니다. 이 요청의 다운로드가 실패했습니다. 그런 다음 엔진은 스케줄러에게 이 요청의 다운로드가 실패했음을 알립니다. 기록하면 나중에 다운로드할 것입니다.)

엔진: 안녕하세요! Spider, 이것은 다운로드되어 사장님의 다운로드 미들웨어에 따라 처리된 것입니다. 직접 처리하시면 됩니다. (참고! 여기의 응답은 기본적으로 def pars() 함수에 의해 처리됩니다.)

Spider: (이후 처리됨) 따라야 하는 URL에 대한 데이터) 안녕하세요! 엔진, 여기에 두 가지 결과가 있습니다. 이것이 제가 후속 조치를 취해야 할 URL이고, 이것이 제가 얻은 아이템 데이터입니다.

엔진: 안녕하세요! 파이프라인 여기에 항목이 있습니다. 처리할 수 있도록 도와주세요! 스케줄러! 후속 조치가 필요한 URL입니다. 처리할 수 있도록 도와주세요. 그런 다음 상사가 필요로 하는 모든 정보를 얻을 때까지 4단계부터 루프를 시작합니다.

파이프라인`` 스케줄러: 자, 지금 해보세요!

주의! 스케줄러에 요청이 없는 경우에만 전체 프로그램이 중지됩니다(즉, Scrapy는 다운로드에 실패한 URL도 다시 다운로드합니다.)

Scrapy 크롤러를 만드는 데 필요한 4단계는 다음과 같습니다.

새 프로젝트 ( scrapy startproject xxx): 새 크롤러 프로젝트 만들기

목표 지우기(items.py 작성): 크롤링할 대상 명시

크롤러 만들기(spiders/xxspider.py): 크롤러를 만들고 크롤링 시작 webpage

콘텐츠 저장(pipelines.py): 크롤링된 콘텐츠를 저장하는 파이프라인 설계

위 내용은 Python 크롤러 프레임워크 Scrapy에 대한 간략한 소개의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

뜨거운 도구

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7529

Cakephp 튜토리얼

1378

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

Related knowledge

PHP 및 Python : 두 가지 인기있는 프로그래밍 언어를 비교합니다 Apr 14, 2025 am 12:13 AM

PHP와 Python은 각각 고유 한 장점이 있으며 프로젝트 요구 사항에 따라 선택합니다. 1.PHP는 웹 개발, 특히 웹 사이트의 빠른 개발 및 유지 보수에 적합합니다. 2. Python은 간결한 구문을 가진 데이터 과학, 기계 학습 및 인공 지능에 적합하며 초보자에게 적합합니다.

Debian Readdir가 다른 도구와 통합하는 방법 Apr 13, 2025 am 09:42 AM

데비안 시스템의 readdir 함수는 디렉토리 컨텐츠를 읽는 데 사용되는 시스템 호출이며 종종 C 프로그래밍에 사용됩니다. 이 기사에서는 ReadDir를 다른 도구와 통합하여 기능을 향상시키는 방법을 설명합니다. 방법 1 : C 언어 프로그램을 파이프 라인과 결합하고 먼저 C 프로그램을 작성하여 readDir 함수를 호출하고 결과를 출력하십시오.#포함#포함#포함#포함#includinTmain (intargc, char*argv []) {dir*dir; structdirent*entry; if (argc! = 2) {

파이썬과 시간 : 공부 시간을 최대한 활용 Apr 14, 2025 am 12:02 AM

제한된 시간에 Python 학습 효율을 극대화하려면 Python의 DateTime, Time 및 Schedule 모듈을 사용할 수 있습니다. 1. DateTime 모듈은 학습 시간을 기록하고 계획하는 데 사용됩니다. 2. 시간 모듈은 학습과 휴식 시간을 설정하는 데 도움이됩니다. 3. 일정 모듈은 주간 학습 작업을 자동으로 배열합니다.

Debian OpenSSL에서 HTTPS 서버를 구성하는 방법 Apr 13, 2025 am 11:03 AM

데비안 시스템에서 HTTPS 서버를 구성하려면 필요한 소프트웨어 설치, SSL 인증서 생성 및 SSL 인증서를 사용하기 위해 웹 서버 (예 : Apache 또는 Nginx)를 구성하는 등 여러 단계가 포함됩니다. 다음은 Apacheweb 서버를 사용하고 있다고 가정하는 기본 안내서입니다. 1. 필요한 소프트웨어를 먼저 설치하고 시스템이 최신 상태인지 확인하고 Apache 및 OpenSSL을 설치하십시오 : Sudoaptupdatesudoaptupgradesudoaptinsta

데비안에 대한 Gitlab의 플러그인 개발 안내서 Apr 13, 2025 am 08:24 AM

데비안에서 gitlab 플러그인을 개발하려면 몇 가지 특정 단계와 지식이 필요합니다. 다음은이 과정을 시작하는 데 도움이되는 기본 안내서입니다. Gitlab을 먼저 설치하려면 Debian 시스템에 Gitlab을 설치해야합니다. Gitlab의 공식 설치 매뉴얼을 참조 할 수 있습니다. API 액세스 토큰을 얻으십시오 API 통합을 수행하기 전에 Gitlab의 API 액세스 토큰을 먼저 가져와야합니다. Gitlab 대시 보드를 열고 사용자 설정에서 "AccessTokens"옵션을 찾은 다음 새 액세스 토큰을 생성하십시오. 생성됩니다

Apache는 어떤 서비스입니까? Apr 13, 2025 pm 12:06 PM

아파치는 인터넷 뒤의 영웅입니다. 웹 서버 일뿐 만 아니라 큰 트래픽을 지원하고 동적 콘텐츠를 제공하는 강력한 플랫폼이기도합니다. 모듈 식 설계를 통해 매우 높은 유연성을 제공하여 필요에 따라 다양한 기능을 확장 할 수 있습니다. 그러나 Modularity는 또한 신중한 관리가 필요한 구성 및 성능 문제를 제시합니다. Apache는 사용자 정의가 필요한 서버 시나리오에 적합하고 복잡한 요구를 충족시킵니다.