JavaScript 웹사이트를 효율적으로 스크래핑-java지도 시간-php.cn

집

Java

java지도 시간

JavaScript 웹사이트를 효율적으로 스크래핑

Linda Hamilton

Nov 20, 2024 am 01:12 AM

Effizientes Scrapen von JavaScript-Webseiten

웹 크롤링에 JavaScript를 사용할 가능성

정적 웹사이트: Axios 및 Cheerio
JavaScript를 사용하여 정적 전자상거래 웹사이트를 크롤링하는 방법을 살펴보겠습니다. 이 예에서는 두 가지 인기 있는 라이브러리인 HTTP 요청용 Axios와 HTML 구문 분석용 Cheerio를 사용합니다.

*1. 종속성 설치 *
npm을 사용하여 Axios 및 Cheerio를 설치합니다.

npm 설치 axios Cherio

*2. 스크립트 만들기 *
JavaScript 파일을 만듭니다. B. scrapeEcommerce.js를 코드 편집기에서 엽니다.

*3. 모듈 가져오기 *
Axios 및 Cheerio를 스크립트로 가져옵니다.

const axios = require('axios');

const Cherio = require('cheerio');

*4. 대상 URL 정의 *
접속하려는 전자상거래 웹사이트를 선택하세요. 이 예에서는 가상의 URL http://example-ecommerce.com을 사용합니다. 이것을 원하는 URL로 바꾸세요:

const url = 'http://example-ecommerce.com';

*5. HTML 콘텐츠 가져오기 *
Axios를 사용하여 대상 URL에 GET 요청을 보내고 HTML 콘텐츠를 가져옵니다.

axios.get(url)

.then(응답 => {

const html = response.data;

// 이제 HTML 콘텐츠를 구문 분석할 수 있습니다

})

.catch(오류 => {

console.error('페이지를 가져오는 중 오류 발생:', error);

});

*6. HTML 구문 분석 및 데이터 추출 *
Cheerio를 사용하여 HTML 코드를 구문 분석하고 제품 이름, 가격 등 원하는 정보를 추출하세요.

axios.get(url)

.then(응답 => {

const html = response.data;

const $=cherio.load(html);

const products = [];  

$('.product').each((index, element) => {  
  const name = $(element).find('.product-name').text().trim();  
  const price = $(element).find('.product-price').text().trim();  
  products.push({ name, price });  
});  

console.log(products);

로그인 후 복사

})

.catch(오류 => {

console.error('페이지를 가져오는 중 오류 발생:', error);

});

*가장 중요한 점 *

axios.get(url): GET 요청을 보내고 약속을 반환합니다.
.then(response => { … }): 요청이 성공하면 HTML 콘텐츠가 response.data에 있습니다.
cheerio.load(html): jQuery와 유사한 DOM 조작을 위해 HTML 콘텐츠를 Cheerio에 로드합니다.
$('.product').each((index, element) => { … }): 모든 .product 요소를 반복합니다.
$(element).find('.product-name').text().trim(): 제품 이름을 추출합니다.
$(element).find('.product-price').text().trim(): 제품 가격을 추출합니다.
products.push({ 이름, 가격 }): 제품 정보를 제품 배열에 추가합니다.
console.log(products) : 추출된 정보를 출력합니다.

*전체 예제 스크립트: *
const axios = require('axios');

const Cherio = require('cheerio');

const url = 'http://example-ecommerce.com';

axios.get(url)

.then(응답 => {

const html = response.data;

const $=cherio.load(html);

const products = [];  

$('.product').each((index, element) => {  
  const name = $(element).find('.product-name').text().trim();  
  const price = $(element).find('.product-price').text().trim();  
  products.push({ name, price });  
});  

console.log(products);

로그인 후 복사

})

.catch(오류 => {

console.error('페이지를 가져오는 중 오류 발생:', error);

});

*방문 페이지 맞춤설정: *

선택기: .product, .product-name 및 .product-price 선택기는 대상 페이지의 실제 HTML 구조에 맞게 조정되어야 합니다.
추가 데이터: 추가 정보(예: 제품 이미지, 링크, 설명)는 해당 HTML 구조를 확인하세요.

JavaScript를 사용하여 웹사이트를 스크랩하는 웹 스크래핑 도구

최근 웹 스크래핑을 위해 Python, Ruby 또는 기타 프로그래밍 언어가 필요하다면 Octoparse는 특히 JavaScript를 지원하는 웹사이트에 탁월한 도구입니다.

구체적인 예를 들어보겠습니다. 대상 웹사이트가 있고 스크래핑을 시작하려면 먼저 해당 사이트가 JS 스크래핑에 대해 차단되어 있는지 확인해야 합니다. 웹사이트마다 서로 다른 보호 방법을 사용하므로, 특히 스크래핑을 통해 원하는 결과가 나오지 않는 경우, 문제가 있음을 깨닫기까지 시간이 걸리고 실망스러운 시험을 겪을 수 있습니다. 하지만 웹 스크래핑 도구를 사용하면 데이터 추출 과정이 원활하게 진행됩니다.

많은 웹 스크래핑 도구를 사용하면 크롤러를 작성할 필요가 없습니다. Octoparse는 JavaScript가 많은 페이지를 스크랩하는 데 특히 효율적이며 Ajax를 사용하는 페이지를 포함하여 99%의 웹 페이지에서 데이터를 추출할 수 있습니다. 보안 문자 해결 서비스도 제공합니다. Octoparse는 무료로 사용할 수 있으며 자동 검색 기능과 효율적인 데이터 추출을 가능하게 하는 100개 이상의 사용하기 쉬운 템플릿을 제공합니다. 신규 사용자도 14일 평가판을 이용할 수 있습니다.

위 내용은 JavaScript 웹사이트를 효율적으로 스크래핑의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.