백엔드 개발 파이썬 튜토리얼 ZenRows Web Scraper를 사용하여 무한 스크롤 웹사이트용 제품 스크레이퍼를 구축하는 방법

ZenRows Web Scraper를 사용하여 무한 스크롤 웹사이트용 제품 스크레이퍼를 구축하는 방법

Nov 22, 2024 pm 03:17 PM

How to Build a Product Scraper for Infinite Scroll Websites using ZenRows Web Scraper

웹 스크래핑 영역에서 무한 스크롤을 사용하는 웹 페이지의 데이터에 액세스하고 추출하는 것은 개발자에게 어려울 수 있습니다. 많은 웹사이트에서는 이 기술을 사용하여 더 많은 콘텐츠를 동적으로 로드하기 때문에 사용 가능한 모든 데이터를 한 번에 긁어내기가 어렵습니다. 좋은 해결책은 추가 콘텐츠를 표시하기 위해 "더 보기" 버튼을 클릭하는 등의 사용자 작업을 시뮬레이션하는 것입니다.
이 튜토리얼에서는 Zenrows 오픈 소스 웹 스크래퍼를 활용하여 무한 스크롤로 페이지에서 제품 데이터를 스크래핑하는 방법을 탐구하고, 웹 페이지의 콘텐츠에 액세스하는 스크래퍼 봇을 구축하고, Zenrows를 사용하여 더 많은 제품을 생성합니다. 무한 스크롤을 시뮬레이션하려면 "더 보기" 버튼을 클릭하여 페이지를 엽니다.

전제 조건

이 튜토리얼을 따르려면 다음이 필요합니다.

  • Python: 컴퓨터에 Python이 설치되어 있어야 합니다. 그렇지 않은 경우 여기에서 설치할 수 있습니다.
  • 웹 스크래핑 기초: 웹 스크래핑이 어떻게 작동하는지 확실히 이해하고 있어야 합니다.
  • ZenRows SDK: ZenRows 서비스를 사용하여 스크래핑 방지 조치를 우회하고 동적 콘텐츠 스크래핑을 단순화하게 됩니다. 여기에서 무료 ZenRows 계정에 가입할 수 있습니다.

콘텐츠에 액세스하기

Zenrows 계정에 가입하고 전제 조건을 갖추고 나면 다음 단계는 웹 페이지에서 콘텐츠에 액세스하는 것입니다. 이 튜토리얼에서는 https://www.scrapingcourse.com/button-click 페이지를 사용하게 됩니다.

또한 ZenRows SDK를 사용하여 동적 페이지를 스크래핑하고 다양한 렌더링 및 봇 방지 조치를 처리합니다. 시작해 보세요:

필요한 라이브러리 설치:
원하는 IDE의 터미널을 열고 코드를 실행하여 ZenRows Python SDK를 설치하세요.

pip install zenrows python-dotenv
로그인 후 복사
로그인 후 복사
로그인 후 복사

API 설정

대시보드로 이동하여 아래 이미지처럼 화면 오른쪽 상단에 있는 API 키를 복사하세요.

다음으로 app.py 및 .env 페이지를 생성한 후 app.py 파일에 아래 코드를 추가하세요. 그리고 .env 파일의 API_KEY 변수에 API 키를 추가하세요.

# Import ZenRows SDK
from zenrows import ZenRowsClient
from dotenv import load_dotenv
import os

# Load environment variables
load_dotenv()

# Initialize ZenRows client with your API key
client = ZenRowsClient(os.getenv("API_KEY"))

# URL of the page you want to scrape
url = "https://www.scrapingcourse.com/button-click"

# Set up initial parameters for JavaScript rendering and interaction
base_params = {
    "js_render": "true",
    "json_response": "true",
    "premium_proxy": "true",
    "markdown_response": "true"
}

로그인 후 복사
로그인 후 복사
로그인 후 복사

위 코드는 API 키를 사용하여 Zenrow SDK를 시작합니다. 스크래핑할 웹페이지에 대한 URL 변수를 설정하고 필요한 매개변수에 대한 base_params 변수를 설정합니다. 다음 명령을 사용하여 스크레이퍼를 실행할 수 있습니다.

python app.py
로그인 후 복사
로그인 후 복사
로그인 후 복사

현재 페이지의 제품만 포함된 페이지의 HTML 표현을 제공합니다.
.

언제든지 한 단계 더 나아갈 수 있습니다.

더 많은 제품 로드 중

스크레이퍼를 향상시키려면 웹페이지 하단의 "더 보기" 버튼과 상호 작용하고 더 많은 제품을 로드하는 추가 매개변수를 구현할 수 있습니다.

필요한 패키지를 포함하도록 가져오기를 수정하고 제품 응답을 필터링하는 parse_products 함수를 추가하는 것부터 시작하세요.

pip install zenrows python-dotenv
로그인 후 복사
로그인 후 복사
로그인 후 복사

다음으로 지정된 제한(max_products)까지 여러 페이지에서 제품 정보를 지속적으로 스크랩하는 while 루프를 만듭니다. 이 튜토리얼에서는 제한을 50으로 설정합니다.

# Import ZenRows SDK
from zenrows import ZenRowsClient
from dotenv import load_dotenv
import os

# Load environment variables
load_dotenv()

# Initialize ZenRows client with your API key
client = ZenRowsClient(os.getenv("API_KEY"))

# URL of the page you want to scrape
url = "https://www.scrapingcourse.com/button-click"

# Set up initial parameters for JavaScript rendering and interaction
base_params = {
    "js_render": "true",
    "json_response": "true",
    "premium_proxy": "true",
    "markdown_response": "true"
}

로그인 후 복사
로그인 후 복사
로그인 후 복사

이 루프는 지정된 한도에 도달할 때까지 "추가 로드" 버튼 클릭을 시뮬레이션하여 제품을 계속 폐기합니다.
상품정보 파싱
마지막으로 이전 단계에서 스크랩한 제품 정보를 구문 분석할 수 있습니다. 각 상품에 대해 상품명, 이미지 링크, 가격, 상품 페이지 URL을 추출합니다. 다음과 같이 모든 제품의 총 가격을 계산하고 결과를 인쇄할 수도 있습니다.

python app.py
로그인 후 복사
로그인 후 복사
로그인 후 복사

CSV 파일로 구문 분석

응답을 내보낸 csv 파일로 구문 분석하려는 경우 다음 몇 단계에서는 스크랩한 제품 정보를 가져와 CSV 파일로 내보내는 방법을 배우게 됩니다.

데이터를 저장하도록 스크립트 수정

먼저 Python에 내장된 CSV 모듈을 사용하여 제품 데이터를 저장해야 합니다. 이 경우 각 제품에는 이름, 이미지_링크, 가격, 제품_URL이라는 네 가지 주요 속성이 있습니다.

이를 CSV의 헤더로 사용하고 스크랩된 제품 목록을 반복한 다음 각 제품을 CSV 파일의 행으로 작성할 수 있습니다.

import re
import json
import time

def parse_products(response_json):
    try:
        data = json.loads(response_json)
        md_content = data.get('md', '')
        pattern = r'\[!\[([^\]]+)\]\(([^\)]+)\)\*\n([^\\n]+)\*\n\*\n$(\d+)\]\(([^\)]+)\)'
        matches = re.findall(pattern, md_content)

        products = []
        for match in matches:
            product = {
                'name': match[0],
                'image_link': match[1],
                'price': int(match[3]),
                'product_url': match[4]
            }
            products.append(product)

        return products
    except json.JSONDecodeError:
        print("Error: Unable to parse JSON response")
        print("Response content:", response_json[:500])
        return []
    except Exception as e:
        print(f"Error parsing products: {str(e)}")
        return []

# Zenrow SDK code here
로그인 후 복사

이제 데이터를 스크랩한 후 save_to_csv(all_products) 함수를 호출하여 products.csv라는 CSV 파일에 데이터를 저장하면 됩니다.

스크래핑 프로세스가 완료되면 명령을 실행하여 자동으로 데이터를 CSV 파일에 저장하세요.

# Zenrow SDK code goes here

max_products = 50
all_products = []
page = 1

while len(all_products) < max_products:
    print(f"Scraping page {page}...")

    # Update parameters for each request
    params = base_params.copy()
    js_instructions = [{"click": "#load-more-btn"} for _ in range(page)]
    js_instructions.append({"wait": 5000})
    params["js_instructions"] = json.dumps(js_instructions)

    try:
        # Send the GET request to ZenRows
        response = client.get(url, params=params)

        # Parse the response JSON
        new_products = parse_products(response.text)

        if not new_products:
            print("No more products found. Stopping.")
            break

        all_products.extend(new_products)
        print(f"Found {len(new_products)} products on this page.")
        print(f"Total products so far: {len(all_products)}")

        page += 1

        # Add a delay to avoid overwhelming the server
        time.sleep(2)

    except Exception as e:
        print(f"Error occurred: {str(e)}")
        break

로그인 후 복사

최고가 제품 5개 식별

이제 모든 제품이 구조화된 형식으로 구성되었으므로 한 단계 더 나아가 최고 가격의 제품 5개를 식별할 수 있으며 각 제품 페이지를 방문하여 제품 설명 및 SKU와 같은 추가 세부정보를 추출해야 합니다. 코드입니다.

가격순으로 제품 정렬: Python의 sorted() 함수를 사용하면 가격순으로 제품 목록을 내림차순으로 정렬하고 상위 5개 제품을 검색할 수 있습니다.

각 페이지에 대한 제품 데이터를 가져오려면 request.get() 함수를 사용하여 각 페이지를 방문해야 합니다. 응답에서 제품 설명과 SKU 코드를 추출할 수 있습니다.
추가 세부정보를 포함하도록 마지막 단계의 CSV 파일을 업데이트할 수도 있습니다.

이를 달성하기 위한 코드는 다음과 같습니다.

# Updated Params and while loop code goes here
# Calculate the total price of all products
total_sum = sum(product['price'] for product in all_products)

print("\nAll products:")
for product in all_products:
    print(product)

# Print the total sum of the product prices
print(f"\nTotal number of products: {len(all_products)}")
print(f"Total sum of product prices: ${total_sum}")
로그인 후 복사

이제 스크랩 후 최고가 제품을 식별할 수 있습니다.

pip install zenrows python-dotenv
로그인 후 복사
로그인 후 복사
로그인 후 복사

추가 정보를 검색한 후 CSV 파일을 수정하거나 이러한 세부 정보가 포함된 새 파일을 만들 수 있습니다.

완전한 코드

완전한 app.py 파일은 다음과 같습니다.

# Import ZenRows SDK
from zenrows import ZenRowsClient
from dotenv import load_dotenv
import os

# Load environment variables
load_dotenv()

# Initialize ZenRows client with your API key
client = ZenRowsClient(os.getenv("API_KEY"))

# URL of the page you want to scrape
url = "https://www.scrapingcourse.com/button-click"

# Set up initial parameters for JavaScript rendering and interaction
base_params = {
    "js_render": "true",
    "json_response": "true",
    "premium_proxy": "true",
    "markdown_response": "true"
}

로그인 후 복사
로그인 후 복사
로그인 후 복사

성공적인 대응은 다음과 같습니다.

python app.py
로그인 후 복사
로그인 후 복사
로그인 후 복사

GitHub에서 전체 코드베이스를 확인하세요.

결론

이 튜토리얼에서는 '더 보기' 버튼을 사용하여 무한 스크롤하여 웹페이지에서 제품을 스크랩하는 방법을 배웠습니다. 개략적인 단계를 따르면 ZenRows를 사용하여 귀중한 제품 정보를 추출하고 스크래핑 기술을 향상시킬 수 있습니다.
Zenrow 웹 스크래핑 도구를 사용하는 방법에 대해 자세히 알아보려면 당사 블로그의 다음 기사를 확인하세요.

  • PHP로 HTML을 구문 분석하는 방법
  • 웹 스크래핑에 Hrequests를 사용하는 방법
  • Ruby에서 극작가를 사용하는 방법 다음은 Zenrows 웹 스크래핑 도구 사용에 대한 코드 없는 접근 방식에 대한 간단한 비디오입니다.

위 내용은 ZenRows Web Scraper를 사용하여 무한 스크롤 웹사이트용 제품 스크레이퍼를 구축하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

Video Face Swap

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

중간 독서를 위해 Fiddler를 사용할 때 브라우저에서 감지되는 것을 피하는 방법은 무엇입니까? 중간 독서를 위해 Fiddler를 사용할 때 브라우저에서 감지되는 것을 피하는 방법은 무엇입니까? Apr 02, 2025 am 07:15 AM

Fiddlerevery Where를 사용할 때 Man-in-the-Middle Reading에 Fiddlereverywhere를 사용할 때 감지되는 방법 ...

10 시간 이내에 프로젝트 및 문제 중심 방법에서 컴퓨터 초보자 프로그래밍 기본 사항을 가르치는 방법? 10 시간 이내에 프로젝트 및 문제 중심 방법에서 컴퓨터 초보자 프로그래밍 기본 사항을 가르치는 방법? Apr 02, 2025 am 07:18 AM

10 시간 이내에 컴퓨터 초보자 프로그래밍 기본 사항을 가르치는 방법은 무엇입니까? 컴퓨터 초보자에게 프로그래밍 지식을 가르치는 데 10 시간 밖에 걸리지 않는다면 무엇을 가르치기로 선택 하시겠습니까?

Inversiting.com의 크롤링 메커니즘을 우회하는 방법은 무엇입니까? Inversiting.com의 크롤링 메커니즘을 우회하는 방법은 무엇입니까? Apr 02, 2025 am 07:03 AM

Investing.com의 크롤링 전략 이해 많은 사람들이 종종 Investing.com (https://cn.investing.com/news/latest-news)에서 뉴스 데이터를 크롤링하려고합니다.

Python 3.6 피클 파일로드 오류 modulenotfounderRor : 피클 파일 '__builtin__'를로드하면 어떻게해야합니까? Python 3.6 피클 파일로드 오류 modulenotfounderRor : 피클 파일 '__builtin__'를로드하면 어떻게해야합니까? Apr 02, 2025 am 06:27 AM

Python 3.6에 피클 파일 로딩 3.6 환경 오류 : ModulenotFounderRor : nomodulename ...

SCAPY 크롤러를 사용할 때 파이프 라인 파일을 작성할 수없는 이유는 무엇입니까? SCAPY 크롤러를 사용할 때 파이프 라인 파일을 작성할 수없는 이유는 무엇입니까? Apr 02, 2025 am 06:45 AM

SCAPY 크롤러를 사용할 때 파이프 라인 파일을 작성할 수없는 이유에 대한 논의 지속적인 데이터 저장을 위해 SCAPY 크롤러를 사용할 때 파이프 라인 파일이 발생할 수 있습니다 ...

See all articles