Python 크롤러는 어떤 책을 읽어야 하나요?-파이썬 튜토리얼-php.cn

Python 크롤러는 어떤 책을 읽어야 하나요?

爱喝马黛茶的安东尼

풀어 주다： 2019-06-20 09:28:00

원래의

4965명이 탐색했습니다.

온라인 정보를 수집하고 유용한 정보를 추출하는 편리한 방법으로 웹 크롤러 기술이 점점 더 유용해지고 있습니다. Python과 같은 간단한 프로그래밍 언어를 사용하면 최소한의 프로그래밍 기술만으로 복잡한 웹사이트를 크롤링할 수 있습니다.

Python 크롤러는 어떤 책을 읽어야 하나요?

"Python으로 웹 크롤러 작성"은 Python을 사용하여 네트워크 데이터를 크롤링하는 방법과 캐시를 사용하여 서버 로드를 관리하는 방법을 설명하는 훌륭한 가이드입니다. 또한 이 책에서는 AJAX URL 및 Firebug 확장을 사용하여 데이터를 스크래핑하는 방법과 브라우저 렌더링 사용, 쿠키 관리, CAPTCHA로 보호되는 복잡한 웹 사이트의 양식 제출 등과 같은 스크래핑 기술에 대한 자세한 정보를 설명합니다. 이 책에서는 Scrapy를 사용하여 고급 웹 크롤러를 만들고 일부 실제 웹사이트를 크롤링합니다.

관련 권장사항: "Python 비디오 자습서"

Python 크롤러는 어떤 책을 읽어야 하나요?

"Writing a Web Crawler in Python"에서는 다음 내용을 소개합니다.

링크를 따라 웹사이트를 크롤링

lxml을 사용하여 페이지에서 데이터 추출;

페이지를 병렬로 크롤링하는 스레드 크롤러를 구축합니다.

JavaScript를 사용하는 웹사이트를 구문 분석합니다.

보호된 페이지 CAPTCHA 문제를 해결합니다. AJAX 호출을 엔지니어링하세요.

Scrapy를 사용하여 고급 크롤러를 만드세요.

이 책의 대상 독자

이 책은 안정적인 데이터 크롤링 솔루션을 구축하려는 개발자를 위해 작성되었습니다. 이 책은 독자가 Python 프로그래밍 경험이 있다고 가정합니다. 물론, 다른 프로그래밍 언어 개발 경험이 있는 독자들도 이 책을 읽고 그에 관련된 개념과 원리를 이해할 수 있을 것이다.

저자소개 · · · · · · ·

Richard Lawson은 호주 출신이며 멜버른 대학교에서 컴퓨터 공학을 전공했습니다. 졸업 후 그는 웹 크롤링 전문 회사를 설립하여 50개국 이상의 기업에 원격 작업을 제공했습니다. 그는 에스페란토에 능숙하고 중국어와 한국어로 대화할 수 있으며 오픈 소스 소프트웨어에 적극적으로 참여하고 있습니다. 그는 현재 옥스퍼드 대학교에서 대학원 과정을 공부하고 있으며 여가 시간을 자율 드론 개발에 보내고 있습니다.

목차 · · · · · ·

1장 웹 크롤러 소개 1

1.1 웹 크롤러는 언제 유용합니까1

1.2 웹 크롤러는 합법적입니까21.3 배경 조사 3

1.3.1 robots.txt 확인 3

1.3.2 사이트 맵 확인 4

1.3.3 웹사이트 크기 추정 5

1.3.4 웹사이트에 사용된 기술 식별 7

1.3.5 웹사이트 소유자 찾기 7

1.4 최초의 웹 크롤러 작성 8

1.4.1 웹페이지 다운로드 9

1.4.2 사이트맵 크롤러 12