Python 크롤러는 어떤 책을 읽어야 하나요?

爱喝马黛茶的安东尼
풀어 주다: 2019-06-20 09:28:00
원래의
4876명이 탐색했습니다.

온라인 정보를 수집하고 유용한 정보를 추출하는 편리한 방법으로 웹 크롤러 기술이 점점 더 유용해지고 있습니다. Python과 같은 간단한 프로그래밍 언어를 사용하면 최소한의 프로그래밍 기술만으로 복잡한 웹사이트를 크롤링할 수 있습니다.

Python 크롤러는 어떤 책을 읽어야 하나요?

"Python으로 웹 크롤러 작성"은 Python을 사용하여 네트워크 데이터를 크롤링하는 방법과 캐시를 사용하여 서버 로드를 관리하는 방법을 설명하는 훌륭한 가이드입니다. 또한 이 책에서는 AJAX URL 및 Firebug 확장을 사용하여 데이터를 스크래핑하는 방법과 브라우저 렌더링 사용, 쿠키 관리, CAPTCHA로 보호되는 복잡한 웹 사이트의 양식 제출 등과 같은 스크래핑 기술에 대한 자세한 정보를 설명합니다. 이 책에서는 Scrapy를 사용하여 고급 웹 크롤러를 만들고 일부 실제 웹사이트를 크롤링합니다.

관련 권장사항: "Python 비디오 자습서"

Python 크롤러는 어떤 책을 읽어야 하나요?

"Writing a Web Crawler in Python"에서는 다음 내용을 소개합니다.

링크를 따라 웹사이트를 크롤링

lxml을 사용하여 페이지에서 데이터 추출;

페이지를 병렬로 크롤링하는 스레드 크롤러를 구축합니다.

JavaScript를 사용하는 웹사이트를 구문 분석합니다.

보호된 페이지 CAPTCHA 문제를 해결합니다. AJAX 호출을 엔지니어링하세요.

Scrapy를 사용하여 고급 크롤러를 만드세요.

이 책의 대상 독자

이 책은 안정적인 데이터 크롤링 솔루션을 구축하려는 개발자를 위해 작성되었습니다. 이 책은 독자가 Python 프로그래밍 경험이 있다고 가정합니다. 물론, 다른 프로그래밍 언어 개발 경험이 있는 독자들도 이 책을 읽고 그에 관련된 개념과 원리를 이해할 수 있을 것이다.

저자소개 · · · · · · ·

Richard Lawson은 호주 출신이며 멜버른 대학교에서 컴퓨터 공학을 전공했습니다. 졸업 후 그는 웹 크롤링 전문 회사를 설립하여 50개국 이상의 기업에 원격 작업을 제공했습니다. 그는 에스페란토에 능숙하고 중국어와 한국어로 대화할 수 있으며 오픈 소스 소프트웨어에 적극적으로 참여하고 있습니다. 그는 현재 옥스퍼드 대학교에서 대학원 과정을 공부하고 있으며 여가 시간을 자율 드론 개발에 보내고 있습니다.

목차 · · · · · ·

목차

1장 웹 크롤러 소개 1

1.1 웹 크롤러는 언제 유용합니까1

1.2 웹 크롤러는 합법적입니까21.3 배경 조사 3

1.3.1 robots.txt 확인 3

1.3.2 사이트 맵 확인 4

1.3.3 웹사이트 크기 추정 5

1.3.4 웹사이트에 사용된 기술 식별 7

1.3.5 웹사이트 소유자 찾기 7

1.4 최초의 웹 크롤러 작성 8

1.4.1 웹페이지 다운로드 9

1.4.2 사이트맵 크롤러 12

1.4.3 ID 순회 크롤러 13

1.4.4 링크 크롤러 15

1.5 장 요약 22

2장 데이터 수집

2.1 웹 페이지 분석 23

2.2 세 가지 웹 스크래핑 방법 262.2.1 정규 표현식 26

2.2.2 Beautiful Soup 28

2.2.3 Lxml 30

2.2. 4 성능 비교 32

2.2.5 결론 35

2.2.6 링크 크롤러에 대한 크롤링 콜백 추가 35

2.3 이 장의 요약 38

3장 캐시 다운로드 39

3.1 링크 크롤러에 대한 캐싱 지원 추가 39

3.2 디스크 캐시 42 3.2.1 구현 44

3.2.2 캐시 테스트 46

3.2.3 디스크 공간 절약 46

3.2.4 만료된 데이터 정리 47

3.2.5 단점 48

3.3 Database Caching 49

3.3.1 NOSQL50 ℃ 란? 테스트 54

3.4이 장의 요약 55 ℃ 4 동시 다운 다운로드 57

4.1 백만 개의 웹 페이지 57

4.2 시리얼 크롤러 60

4.3 다중 스레드 크롤러 60

4.3.1 스레드 및 프로세스 방법 work 61 4.3.2 동적 웹 페이지 구현 61 리버스 엔지니어링 72

5.3 동적 웹 페이지 렌더링 77

5.3.1 PyQt 또는 PySide 78

5.3.2 JavaScript 실행 78

5.3.3 WebKit을 사용하여 웹 사이트와 상호 작용 80

5.3.4 Selenium 85

5 .4 이 장 요약 88

6장 양식 상호 작용 89

6.1 로그인 양식 90

6.2 콘텐츠 업데이트를 지원하는 로그인 스크립트 확장 97

6.3 Mechanize 모듈을 사용하여 다음을 수행합니다. 자동화 된 양식 처리 실현 100 16.4이 장 102 ° 7 장 검증 코드 처리 103 ° 7.1 계정 등록 103

7.2 광학적 문자 인식 106

7.3 프로세싱 복잡한 검증 코드 111

7.3.1 인증코드 처리 서비스 이용하기 112

7.3.2 9kw 시작하기 112

7.3.3 등록 기능 통합 119

7.4 이 장의 요약 120

8장 Scrapy 121

8.1 설치 121

8.2 프로젝트 시작 122

8.2.1 모델 정의 12 3

8.2 .2 크롤러 생성 124

8.2.3 쉘 명령을 사용하여 크롤링 128

8.2.4 결과 확인 129

8.2.5 크롤러 중단 및 재개 132

8.3 Portia를 사용하여 시각적 크롤러 작성 133

8.3.1 설치 133

8.3.2. 주석 136

8.3.3 크롤러 최적화 138

8.3.4 결과 확인 140

8.4 Scrapely를 사용하여 자동 크롤링 달성 141

8.5 장 요약 142

C 9장 요약 143

9. 1. 구글 검색 엔진 143

9.2 페이스북 148

9.2.1 웹사이트 148

9.2.2 API 150

9.3 갭 151

9.4 BMW 153

9.5 이 장의 요약 1 57

위 내용은 Python 크롤러는 어떤 책을 읽어야 하나요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿