지역 사회

배우다

도구 라이브러리

AI 도구

여가

한국어

집 > 백엔드 개발 > 파이썬 튜토리얼 > 완전한 크롤러 프레임워크를 작성하는 방법

완전한 크롤러 프레임워크를 작성하는 방법

零到壹度

풀어 주다： 2018-03-30 11:28:40

원래의

4888명이 탐색했습니다.

이 글은 크롤러 프레임워크에 대한 요청 메소드를 완벽하게 작성하는 방법을 주로 공유합니다. 이는 좋은 참고 가치가 있으며 모든 사람에게 도움이 되기를 바랍니다. 편집자를 따라가서 모두에게 도움이 되기를 바랍니다.

크롤러 프레임워크 생성:

1. 스크래피 크롤러 프로젝트를 생성합니다

2. 프로젝트에서 스크래피 크롤러를 생성합니다

3. 크롤러를 실행합니다. , 웹페이지 가져오기

특정 작업:

1. 프로젝트 만들기

프로젝트 이름 정의: python123demo

방법:

cm 단위 d, d: D 드라이브를 입력하세요 , cd pycodes pycodes

파일을 입력한 다음

scrapy startproject python123demo

파일이 pycodes로 생성됩니다.

_init_.py는 그렇지 않습니다.

2. 프로젝트에서 스크래피 크롤러를 생성합니다

명령을 실행하고 크롤러 이름을 지정하고 크롤링된 웹사이트

크롤링을 생성합니다. 어:

demo라는 이름의 스파이더를 생성합니다

demo.py만 생성합니다. 내용은 다음과 같습니다.

name = 'demo' 현재 크롤러 이름은 데모

입니다. 허용됨 _domains = " 웹 사이트의 도메인 이름 아래 링크를 크롤링합니다. 도메인 이름은 cmd 명령 콘솔에서 입력합니다

start_urls = [] 크롤링된 초기 페이지

parse()를 사용하여 해당 항목을 처리합니다. 콘텐츠를 구문 분석하여 사전을 형성하고 새로운 URL 크롤링 요청을 발견하세요

3. 생성된 스파이더 크롤러를 우리의 요구에 맞게 구성하세요

파싱된 페이지를 파일에 저장하세요

데모를 수정하세요. py file

4. 크롤러를 실행하고 웹페이지를 가져옵니다.

cmd를 열고 명령줄을 입력하여 크롤링합니다.

컴퓨터에 오류가 발생했습니다.

windows 시스템 이 문제를 해결하려면 Py32Win 모듈을 설치해야 하는데, 공식 홈페이지 링크를 통해 exe를 직접 설치하면 수백 가지 오류가 발생하기 때문에 더 편리한 방법은

입니다.

pip3 install pypiwin32

이것은 py3 솔루션입니다

참고: py3 버전에 pip install pypiwin32 명령을 사용하면 오류가 발생합니다

설치가 완료된 후 다시 크롤러를 실행하세요.

캡처 페이지는 데모.html 파일에 저장됩니다.

demo.py 해당 전체 코드:

두 버전은 동일합니다:

위 내용은 완전한 크롤러 프레임워크를 작성하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨：

python 액자

이전 기사：Python은 다른 웹 페이지를 크롤링합니다. 다음 기사：Python 파일 작업 방법

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

저자별 최신 기사

PS Day 02: 조명 효과 재료 자르기를 배우려면 저를 따르세요.

2018-08-28 15:02:42
PS Day 01에서 저를 따라오세요: 문서에서 봉인을 추출하는 방법

2018-08-25 10:55:46
PS Day 02: 복잡한 나무를 자르는 방법에 대해 알아보세요.

2018-08-20 16:25:41
저를 따라와서 PS Day 01: 컬러 사진을 잘라내어 선 그리기 효과를 만드는 방법을 배우세요.

2018-08-18 11:26:54
PS Day 02: 흐림 도구를 배우려면 저를 팔로우하세요.

2018-08-14 16:35:58
PS Day 01: 브러시 도구 수리를 배우려면 저를 팔로우하세요.

2018-07-28 15:36:43
PS Day 02: 모바일 도구 사용 및 적용 방법을 배우려면 저를 따르세요.

2018-07-27 16:59:00
PS Day 01: 자르기 도구 사용에 대해 알아보려면 저를 따르세요.

2018-07-27 15:22:47
PS Day 02: Photoshop에서 올가미 도구 연습을 배우려면 저를 따르세요.

2018-07-23 17:56:00
PS Day 01: 사진에 테두리 효과를 추가하는 방법을 배우려면 나를 따르십시오.

2018-07-23 16:21:38

최신 이슈

SQL에서 검사 제약 조건을 우회하는 방법

에서 1970-01-01 08:00:00

0

0

0

url-rewrite - nginx 디렉토리 이후의 슬래시 문제

에서 1970-01-01 08:00:00

0

0

0

개발 환경 서버인 Nginx는 정적 파일 캐시를 지울 수 없습니다.

에서 1970-01-01 08:00:00

0

0

0

Nginx에서 502 문제를 빠르게 찾는 방법

에서 1970-01-01 08:00:00

0

0

0

이러한 요구 사항을 달성하기 위해 nginx를 사용하는 방법은 무엇입니까?

에서 1970-01-01 08:00:00

0

0

0

관련 주제

더>

인기 추천

인기 튜토리얼

더>

관련 튜토리얼

인기 추천

최신 강좌

최신 다운로드

더>

웹 효과

웹사이트 소스 코드

웹사이트 자료

프론트엔드 템플릿