정적 웹사이트: Axios 및 Cheerio
JavaScript를 사용하여 정적 전자상거래 웹사이트를 크롤링하는 방법을 살펴보겠습니다. 이 예에서는 두 가지 인기 있는 라이브러리인 HTTP 요청용 Axios와 HTML 구문 분석용 Cheerio를 사용합니다.
*1. 종속성 설치 *
npm을 사용하여 Axios 및 Cheerio를 설치합니다.
npm 설치 axios Cherio
*2. 스크립트 만들기 *
JavaScript 파일을 만듭니다. B. scrapeEcommerce.js를 코드 편집기에서 엽니다.
*3. 모듈 가져오기 *
Axios 및 Cheerio를 스크립트로 가져옵니다.
const axios = require('axios');
const Cherio = require('cheerio');
*4. 대상 URL 정의 *
접속하려는 전자상거래 웹사이트를 선택하세요. 이 예에서는 가상의 URL http://example-ecommerce.com을 사용합니다. 이것을 원하는 URL로 바꾸세요:
const url = 'http://example-ecommerce.com';
*5. HTML 콘텐츠 가져오기 *
Axios를 사용하여 대상 URL에 GET 요청을 보내고 HTML 콘텐츠를 가져옵니다.
axios.get(url)
.then(응답 => {
const html = response.data;
// 이제 HTML 콘텐츠를 구문 분석할 수 있습니다
})
.catch(오류 => {
console.error('페이지를 가져오는 중 오류 발생:', error);
});
*6. HTML 구문 분석 및 데이터 추출 *
Cheerio를 사용하여 HTML 코드를 구문 분석하고 제품 이름, 가격 등 원하는 정보를 추출하세요.
axios.get(url)
.then(응답 => {
const html = response.data;
const $=cherio.load(html);
const products = []; $('.product').each((index, element) => { const name = $(element).find('.product-name').text().trim(); const price = $(element).find('.product-price').text().trim(); products.push({ name, price }); }); console.log(products);
})
.catch(오류 => {
console.error('페이지를 가져오는 중 오류 발생:', error);
});
*가장 중요한 점 *
*전체 예제 스크립트: *
const axios = require('axios');
const Cherio = require('cheerio');
const url = 'http://example-ecommerce.com';
axios.get(url)
.then(응답 => {
const html = response.data;
const $=cherio.load(html);
const products = []; $('.product').each((index, element) => { const name = $(element).find('.product-name').text().trim(); const price = $(element).find('.product-price').text().trim(); products.push({ name, price }); }); console.log(products);
})
.catch(오류 => {
console.error('페이지를 가져오는 중 오류 발생:', error);
});
*방문 페이지 맞춤설정: *
최근 웹 스크래핑을 위해 Python, Ruby 또는 기타 프로그래밍 언어가 필요하다면 Octoparse는 특히 JavaScript를 지원하는 웹사이트에 탁월한 도구입니다.
구체적인 예를 들어보겠습니다. 대상 웹사이트가 있고 스크래핑을 시작하려면 먼저 해당 사이트가 JS 스크래핑에 대해 차단되어 있는지 확인해야 합니다. 웹사이트마다 서로 다른 보호 방법을 사용하므로, 특히 스크래핑을 통해 원하는 결과가 나오지 않는 경우, 문제가 있음을 깨닫기까지 시간이 걸리고 실망스러운 시험을 겪을 수 있습니다. 하지만 웹 스크래핑 도구를 사용하면 데이터 추출 과정이 원활하게 진행됩니다.
많은 웹 스크래핑 도구를 사용하면 크롤러를 작성할 필요가 없습니다. Octoparse는 JavaScript가 많은 페이지를 스크랩하는 데 특히 효율적이며 Ajax를 사용하는 페이지를 포함하여 99%의 웹 페이지에서 데이터를 추출할 수 있습니다. 보안 문자 해결 서비스도 제공합니다. Octoparse는 무료로 사용할 수 있으며 자동 검색 기능과 효율적인 데이터 추출을 가능하게 하는 100개 이상의 사용하기 쉬운 템플릿을 제공합니다. 신규 사용자도 14일 평가판을 이용할 수 있습니다.
위 내용은 JavaScript 웹사이트를 효율적으로 스크래핑의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!