웹 프론트엔드 JS 튜토리얼 Puppeteer로 웹 스크랩하는 방법: 초보자에게 친숙한 가이드

Puppeteer로 웹 스크랩하는 방법: 초보자에게 친숙한 가이드

Jan 08, 2025 am 12:46 AM

How to Web Scrape with Puppeteer: A Beginner-Friendly Guide

웹 스크래핑은 웹사이트에서 데이터를 수집하는 매우 강력한 도구입니다. Google의 Node.js용 헤드리스 브라우저 라이브러리인 Puppeteer를 사용하면 사람의 탐색 동작을 모방하면서 페이지 탐색, 버튼 클릭, 정보 추출 프로세스를 자동화할 수 있습니다. 이 가이드는 Puppeteer를 사용한 웹 스크래핑의 필수 사항을 간단하고 명확하며 실행 가능한 방법으로 안내합니다.

인형극이란 무엇입니까?

Puppeteer는 Google Chrome(또는 Chromium)의 헤드리스 버전을 제어할 수 있는 Node.js 라이브러리입니다. 헤드리스 브라우저는 그래픽 사용자 인터페이스(GUI) 없이 실행되므로 스크래핑과 같은 자동화 작업에 더 빠르고 완벽합니다. 그러나 Puppeteer는 시각적으로 무슨 일이 일어나고 있는지 확인해야 하는 경우 전체 브라우저 모드에서 실행할 수도 있습니다.

웹 스크래핑을 위해 Puppeteer를 선택하는 이유는 무엇입니까?

유연성: Puppeteer는 동적 웹사이트와 단일 페이지 애플리케이션(SPA)을 쉽게 처리합니다.
JavaScript 지원: 최신 웹 앱을 스크래핑하는 데 필수적인 페이지에서 JavaScript를 실행합니다.
자동화 능력: 양식 작성, 버튼 클릭, 스크린샷 찍기 등의 작업을 수행할 수 있습니다.

Puppeteer와 함께 프록시 사용

웹사이트를 스크랩할 때 IP 금지를 피하고 지리적으로 제한된 콘텐츠에 액세스하려면 프록시가 필수적입니다. 프록시는 스크레이퍼와 대상 웹사이트 사이의 중개자 역할을 하여 실제 IP 주소를 마스킹합니다. Puppeteer의 경우 프록시를 실행 인수로 전달하여 쉽게 통합할 수 있습니다.

자바스크립트
코드 복사
const 브라우저 = puppeteer.launch({
를 기다립니다. 인수: ['--proxy-server=your-proxy-server:port']
});
프록시는 스크래핑 노력을 확장하는 데 특히 유용합니다. 순환 프록시는 각 요청이 다른 IP에서 오는지 확인하여 탐지 가능성을 줄입니다. 신뢰성으로 유명한 주거용 프록시는 봇 방어를 우회하는 데 탁월한 반면, 데이터 센터 프록시는 더 빠르고 저렴합니다. 귀하의 스크래핑 요구 사항에 맞는 유형을 선택하고 항상 성능을 테스트하여 신뢰성을 보장하세요.

인형극 설정

스크래핑을 시작하기 전에 Puppeteer를 설정해야 합니다. 단계별 프로세스를 살펴보겠습니다.
1단계: Node.js 및 Puppeteer 설치
Node.js 설치: 공식 홈페이지에서 Node.js를 다운로드하여 설치하세요.
Puppeteer 설정: 터미널을 열고 다음 명령을 실행하십시오.
배쉬
코드 복사
npm 설치 인형극

이렇게 하면 제어하는 ​​브라우저인 Puppeteer와 Chromium이 설치됩니다.
2단계: 첫 인형극 스크립트 작성
새로운 JavaScript 파일인 scraper.js를 만듭니다. 여기에는 스크래핑 논리가 저장됩니다. 웹페이지를 열고 제목을 추출하는 간단한 스크립트를 작성해 보겠습니다.
자바스크립트
코드 복사
const puppeteer = require('puppeteer');

(비동기 () => {
const 브라우저 = puppeteer.launch()를 기다립니다;
const 페이지 = browser.newPage()를 기다립니다;

// 웹사이트로 이동
page.goto('https://example.com')을 기다립니다.

//제목 추출
const title = 페이지를 기다립니다.제목();
console.log(페이지 제목: ${title});

browser.close()를 기다립니다.
})();

다음을 사용하여 스크립트를 실행하세요.
배쉬
코드 복사
노드 scraper.js

첫 번째 Puppeteer 스크레이퍼를 작성하셨습니다!

스크래핑을 위한 핵심 인형사 기능

이제 기본 사항을 익혔으므로 스크래핑에 사용할 몇 가지 주요 Puppeteer 기능을 살펴보겠습니다.

  1. 페이지 탐색
    page.goto(url) 메소드를 사용하면 모든 URL을 열 수 있습니다. 필요한 경우 시간 초과 설정과 같은 옵션을 추가하세요.
    자바스크립트
    코드 복사
    wait page.goto('https://example.com', { timeout: 60000 });

  2. 요소 선택
    CSS 선택기를 사용하여 페이지의 요소를 찾아보세요. Puppeteer는 다음과 같은 방법을 제공합니다.
    첫 번째 일치를 위한 page.$(selector)
    모든 일치 항목에 대한 page.$$(selector)
    예:
    자바스크립트
    코드 복사
    const 요소 = 페이지를 기다립니다.$('h1');
    const text = 페이지를 기다립니다.evaluate(el => el.textContent, element);
    console.log(제목: ${text});

  3. 요소와의 상호작용
    클릭, 입력 등의 사용자 상호 작용을 시뮬레이션합니다.
    자바스크립트
    코드 복사
    페이지를 기다립니다.click('#submit-button');
    wait page.type('#search-box', 'Puppeteer scraping');

  4. 요소를 기다리는 중
    웹페이지는 다양한 속도로 로드됩니다. Puppeteer를 사용하면 진행하기 전에 요소를 기다릴 수 있습니다.
    자바스크립트
    코드 복사
    페이지를 기다립니다.waitForSelector('#dynamic-content');

  5. 스크린샷 찍기
    시각적인 디버깅이나 데이터를 이미지로 저장하는 것은 쉽습니다.
    자바스크립트
    코드 복사
    wait page.screenshot({ 경로: 'screenshot.png', fullPage: true });

동적 콘텐츠 처리

오늘날 많은 웹사이트에서는 JavaScript를 사용하여 콘텐츠를 동적으로 로드합니다. Puppeteer는 JavaScript를 실행하여 페이지 소스에 표시되지 않을 수 있는 콘텐츠를 스크랩할 수 있다는 점에서 빛을 발합니다.
예: 동적 데이터 추출
자바스크립트
코드 복사
page.goto('https://news.ycombinator.com')을 기다립니다;
페이지를 기다립니다.waitForSelector('.storylink');

const headlines = 페이지를 기다립니다.$$eval('.storylink',links =>links.map(link=>link.textContent));
console.log('Headlines:', headlines);

CAPTCHA 및 봇 탐지 처리

일부 웹사이트에는 봇을 차단하는 조치가 마련되어 있습니다. Puppeteer는 간단한 확인을 우회하는 데 도움을 줄 수 있습니다.
스텔스 모드 사용: puppeteer-extra 플러그인 설치:
배쉬
코드 복사
npm install puppeteer-extra puppeteer-extra-plugin-stealth
스크립트에 추가하세요:
자바스크립트
코드 복사
const puppeteer = require('puppeteer-extra');
const StealthPlugin = require('puppeteer-extra-plugin-stealth');
puppeteer.use(StealthPlugin());

인간 행동 모방: 마우스 움직임, 타이핑 속도 등의 동작을 무작위로 지정하여 더욱 인간적으로 보이도록 합니다.
사용자 에이전트 교체: 요청이 있을 때마다 브라우저의 사용자 에이전트를 변경하세요.
자바스크립트
코드 복사
wait page.setUserAgent('Mozilla/5.0 (Windows NT 10.0; Win64; x64)');

스크랩된 데이터 저장

데이터를 추출한 후에는 저장하고 싶을 것입니다. 다음은 몇 가지 일반적인 형식입니다.
JSON:
자바스크립트
코드 복사
const fs = require('fs');
const data = { 이름: 'Puppeteer', 유형: 'library' };
fs.writeFileSync('data.json', JSON.stringify(data, null, 2));

CSV: csv-writer와 같은 라이브러리 사용:
배쉬
코드 복사
npm csv-writer 설치
자바스크립트
코드 복사
const createCsvWriter = require('csv-writer').createObjectCsvWriter;

const csvWriter = createCsvWriter({
경로: 'data.csv',
헤더: [
{ id: '이름', title: '이름' },
{ id: '유형', 제목: '유형' }
]
});

const records = [{ 이름: 'Puppeteer', 유형: 'library' }];
csvWriter.writeRecords(records).then(() => console.log('CSV 파일이 작성되었습니다.'));
윤리적인 웹 스크래핑 관행
웹사이트를 스크랩하기 전에 다음 윤리적 지침을 염두에 두십시오.
서비스 약관을 확인하세요. 웹사이트에서 스크래핑을 허용하는지 항상 확인하세요.
비율 제한 준수: 짧은 시간에 너무 많은 요청을 보내지 마십시오. setTimeout 또는 Puppeteer의 page.waitForTimeout()을 사용하여 요청 간격을 확보하세요.
자바스크립트
코드 복사
페이지를 기다립니다.waitForTimeout(2000); // 2초간 대기

민감한 데이터 방지: 개인 정보나 사적인 정보를 절대 스크랩하지 마세요.

일반적인 문제 해결

페이지가 제대로 로드되지 않습니다. 시간 제한을 더 길게 추가하거나 전체 브라우저 모드를 활성화해 보세요.
자바스크립트
코드 복사
const 브라우저 = puppeteer.launch({ headless: false });

를 기다립니다.

선택기가 작동하지 않음: 브라우저 개발자 도구(Ctrl Shift C)를 사용하여 웹사이트를 검사하여 선택기를 확인하세요.
CAPTCHA에 의해 차단됨: 스텔스 플러그인을 사용하여 인간의 행동을 모방합니다.

자주 묻는 질문(FAQ)

  1. Puppeteer는 무료인가요? 예, Puppeteer는 오픈 소스이며 무료로 사용할 수 있습니다.
  2. Puppeteer는 JavaScript가 많은 웹사이트를 스크랩할 수 있나요? 전적으로! Puppeteer는 JavaScript를 실행하므로 동적 사이트를 스크랩하는 데 적합합니다.
  3. 웹 스크래핑은 합법인가요? 상황에 따라 다릅니다. 스크랩하기 전에 항상 웹사이트의 서비스 약관을 확인하세요.
  4. Puppeteer는 CAPTCHA를 우회할 수 있나요? Puppeteer는 기본적인 보안 문자 문제를 처리할 수 있지만 고급 보안 문제에는 타사 도구가 필요할 수 있습니다.

위 내용은 Puppeteer로 웹 스크랩하는 방법: 초보자에게 친숙한 가이드의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

Video Face Swap

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

<gum> : Bubble Gum Simulator Infinity- 로얄 키를 얻고 사용하는 방법
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
Nordhold : Fusion System, 설명
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
Mandragora : 마녀 트리의 속삭임 - Grappling Hook 잠금 해제 방법
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

Python vs. JavaScript : 학습 곡선 및 사용 편의성 Python vs. JavaScript : 학습 곡선 및 사용 편의성 Apr 16, 2025 am 12:12 AM

Python은 부드러운 학습 곡선과 간결한 구문으로 초보자에게 더 적합합니다. JavaScript는 가파른 학습 곡선과 유연한 구문으로 프론트 엔드 개발에 적합합니다. 1. Python Syntax는 직관적이며 데이터 과학 및 백엔드 개발에 적합합니다. 2. JavaScript는 유연하며 프론트 엔드 및 서버 측 프로그래밍에서 널리 사용됩니다.

JavaScript 및 웹 : 핵심 기능 및 사용 사례 JavaScript 및 웹 : 핵심 기능 및 사용 사례 Apr 18, 2025 am 12:19 AM

웹 개발에서 JavaScript의 주요 용도에는 클라이언트 상호 작용, 양식 검증 및 비동기 통신이 포함됩니다. 1) DOM 운영을 통한 동적 컨텐츠 업데이트 및 사용자 상호 작용; 2) 사용자가 사용자 경험을 향상시키기 위해 데이터를 제출하기 전에 클라이언트 확인이 수행됩니다. 3) 서버와의 진실한 통신은 Ajax 기술을 통해 달성됩니다.

자바 스크립트 행동 : 실제 예제 및 프로젝트 자바 스크립트 행동 : 실제 예제 및 프로젝트 Apr 19, 2025 am 12:13 AM

실제 세계에서 JavaScript의 응용 프로그램에는 프론트 엔드 및 백엔드 개발이 포함됩니다. 1) DOM 운영 및 이벤트 처리와 관련된 TODO 목록 응용 프로그램을 구축하여 프론트 엔드 애플리케이션을 표시합니다. 2) Node.js를 통해 RESTFULAPI를 구축하고 Express를 통해 백엔드 응용 프로그램을 시연하십시오.

JavaScript 엔진 이해 : 구현 세부 사항 JavaScript 엔진 이해 : 구현 세부 사항 Apr 17, 2025 am 12:05 AM

보다 효율적인 코드를 작성하고 성능 병목 현상 및 최적화 전략을 이해하는 데 도움이되기 때문에 JavaScript 엔진이 내부적으로 작동하는 방식을 이해하는 것은 개발자에게 중요합니다. 1) 엔진의 워크 플로에는 구문 분석, 컴파일 및 실행; 2) 실행 프로세스 중에 엔진은 인라인 캐시 및 숨겨진 클래스와 같은 동적 최적화를 수행합니다. 3) 모범 사례에는 글로벌 변수를 피하고 루프 최적화, Const 및 Lets 사용 및 과도한 폐쇄 사용을 피하는 것이 포함됩니다.

Python vs. JavaScript : 커뮤니티, 라이브러리 및 리소스 Python vs. JavaScript : 커뮤니티, 라이브러리 및 리소스 Apr 15, 2025 am 12:16 AM

Python과 JavaScript는 커뮤니티, 라이브러리 및 리소스 측면에서 고유 한 장점과 단점이 있습니다. 1) Python 커뮤니티는 친절하고 초보자에게 적합하지만 프론트 엔드 개발 리소스는 JavaScript만큼 풍부하지 않습니다. 2) Python은 데이터 과학 및 기계 학습 라이브러리에서 강력하며 JavaScript는 프론트 엔드 개발 라이브러리 및 프레임 워크에서 더 좋습니다. 3) 둘 다 풍부한 학습 리소스를 가지고 있지만 Python은 공식 문서로 시작하는 데 적합하지만 JavaScript는 MDNWebDocs에서 더 좋습니다. 선택은 프로젝트 요구와 개인적인 이익을 기반으로해야합니다.

Python vs. JavaScript : 개발 환경 및 도구 Python vs. JavaScript : 개발 환경 및 도구 Apr 26, 2025 am 12:09 AM

개발 환경에서 Python과 JavaScript의 선택이 모두 중요합니다. 1) Python의 개발 환경에는 Pycharm, Jupyternotebook 및 Anaconda가 포함되어 있으며 데이터 과학 및 빠른 프로토 타이핑에 적합합니다. 2) JavaScript의 개발 환경에는 Node.js, VScode 및 Webpack이 포함되어 있으며 프론트 엔드 및 백엔드 개발에 적합합니다. 프로젝트 요구에 따라 올바른 도구를 선택하면 개발 효율성과 프로젝트 성공률이 향상 될 수 있습니다.

JavaScript 통역사 및 컴파일러에서 C/C의 역할 JavaScript 통역사 및 컴파일러에서 C/C의 역할 Apr 20, 2025 am 12:01 AM

C와 C는 주로 통역사와 JIT 컴파일러를 구현하는 데 사용되는 JavaScript 엔진에서 중요한 역할을합니다. 1) C는 JavaScript 소스 코드를 구문 분석하고 추상 구문 트리를 생성하는 데 사용됩니다. 2) C는 바이트 코드 생성 및 실행을 담당합니다. 3) C는 JIT 컴파일러를 구현하고 런타임에 핫스팟 코드를 최적화하고 컴파일하며 JavaScript의 실행 효율을 크게 향상시킵니다.

Python vs. JavaScript : 사용 사례 및 응용 프로그램 비교 Python vs. JavaScript : 사용 사례 및 응용 프로그램 비교 Apr 21, 2025 am 12:01 AM

Python은 데이터 과학 및 자동화에 더 적합한 반면 JavaScript는 프론트 엔드 및 풀 스택 개발에 더 적합합니다. 1. Python은 데이터 처리 및 모델링을 위해 Numpy 및 Pandas와 같은 라이브러리를 사용하여 데이터 과학 및 기계 학습에서 잘 수행됩니다. 2. 파이썬은 간결하고 자동화 및 스크립팅이 효율적입니다. 3. JavaScript는 프론트 엔드 개발에 없어서는 안될 것이며 동적 웹 페이지 및 단일 페이지 응용 프로그램을 구축하는 데 사용됩니다. 4. JavaScript는 Node.js를 통해 백엔드 개발에 역할을하며 전체 스택 개발을 지원합니다.

See all articles