Scrapy를 사용하여 JD 판매자의 제품 데이터를 크롤링하는 방법
Scrapy는 웹 페이지 데이터를 크롤링하는 코드를 쉽고 편리하게 작성할 수 있는 강력한 Python 웹 크롤러 프레임워크입니다. 이 글에서는 Scrapy를 사용하여 JD 판매자의 제품 데이터를 크롤링하는 방법을 소개합니다.
준비
코드 작성을 시작하기 전에 몇 가지 준비를 해야 합니다.
1. Scrapy 설치
Scrapy를 로컬에 설치해야 합니다. 아직 Scrapy를 설치하지 않은 경우 명령줄에 다음 명령을 입력할 수 있습니다.
1 |
|
2. Scrapy 프로젝트 만들기
터미널을 열고 다음 명령을 입력하세요:
1 |
|
이 명령줄은 현재 폴더에 JDspider라는 Scrapy 프로젝트를 생성합니다.
3. Spider 만들기
Scrapy에서 Spider는 데이터 크롤링의 핵심 구성 요소입니다. JD 가맹점의 상품 데이터를 얻기 위해서는 Spider를 생성해야 합니다. 명령줄에 다음 명령을 입력하세요.
1 2 |
|
여기에서는 scrapy genspider 명령을 사용하여 JD라는 스파이더를 생성하고 jd.com을 시작 URL로 사용합니다. 생성된 코드는 JDspider/spiders/JD.py 파일에 있습니다. 이제 크롤러를 완료하려면 이 파일을 편집해야 합니다.
대상 웹사이트 분석
코드를 작성하기 전에 먼저 대상 웹사이트를 분석해야 합니다. https://mall.jd.com/index-1000000127.html을 예로 들어보겠습니다.
Chrome 브라우저를 열고 F12 키를 눌러 개발자 도구를 연 다음 네트워크 탭을 클릭하세요. 대상 웹사이트의 URL을 입력하면 대상 웹사이트의 요청 및 응답 정보를 확인할 수 있습니다.
이에서 AJAX 기술을 사용하여 제품 목록 데이터를 로드한다는 것을 알 수 있습니다. XMLHttpRequest 탭에서 요청의 URL을 볼 수 있으며 JSON 형식으로 데이터가 반환되었습니다.
이 URL에 직접 접속하여 제품 정보를 얻을 수 있습니다.
제품 데이터 가져오기
이제 제품 정보를 가져오는 방법을 알았으므로 Spider에 코드를 추가하여 이 작업을 완료할 수 있습니다.
먼저 JDspider/spiders/JD.py 파일을 열고 Spider 클래스의 정의를 찾으세요. 이 클래스를 수정하고 이름, 도메인 이름 및 초기 URL을 정의해야 합니다.
1 2 3 4 5 6 |
|
데이터 스크랩을 시작하세요. Scrapy에서는 웹페이지 데이터를 얻으려면parse() 메서드를 사용해야 합니다. json 모듈을 사용하여 반환된 JSON 데이터를 구문 분석하고 필요한 정보를 추출합니다. 여기서는 제품의 이름, 가격, 주소 및 수량 정보를 얻습니다.
1 2 3 4 5 6 7 8 9 10 11 12 13 |
|
이제 데이터 캡처가 완료되었습니다. 이 Spider를 실행하고 결과를 파일로 출력할 수 있습니다. Spider 실행을 시작하려면 터미널에 다음 명령을 입력하세요.
1 |
|
위 내용은 Scrapy를 사용하여 JD 판매자의 제품 데이터를 크롤링하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!