Wikipedia 아카데미 수상 목록을 위한 JavaScript 스크레이퍼입니다.-JS 튜토리얼-php.cn

Wikipedia 아카데미 수상 목록을 위한 JavaScript 스크레이퍼입니다.

Susan Sarandon

풀어 주다： 2025-01-24 16:39:12

원래의

1055명이 탐색했습니다.

이 튜토리얼에서는 JavaScript의 Cheerio 라이브러리를 사용하여 Wikipedia에서 아카데미 상을 받은 영화를 추출하고 이를 CSV 파일에 저장하는 웹 스크래핑을 보여줍니다.

먼저 필수 패키지를 설치합니다.

npm install cheerio axios

로그인 후 복사

위키피디아 페이지 URL은 다음과 같습니다.

const url = 'https://en.wikipedia.org/wiki/List_of_Academy_Award%E2%80%93winning_films';

로그인 후 복사

코드는 axios을 사용하여 페이지의 HTML을 가져온 다음 Cheerio를 사용하여 이를 구문 분석합니다.

const { data: html } = await axios.get(url);
const $ = cheerio.load(html);

const theadData = [];
const tableData = [];

로그인 후 복사

스크립트는 DOM을 탐색하여 테이블 셀에서 데이터를 추출합니다.

$('tbody').each((i, column) => {
  const columnData = [];
  $(column).find('th').each((j, cell) => {
    columnData.push($(cell).text().replace('\n', ''));
  });
  theadData.push(columnData);
});

tableData.push(theadData[0]);

$('table tr').each((i, row) => {
  const rowData = [];
  $(row).find('td').each((j, cell) => {
    rowData.push($(cell).text().trim());
  });
  if (rowData.length) tableData.push(rowData);
});

로그인 후 복사

마지막으로 추출된 데이터는 세미콜론을 구분 기호로 사용하여 fs.writeFileSync을 사용하여 형식을 지정하고 CSV 파일에 저장합니다.

const csvContent = tableData.map((row) => row.join(';')).join('\n');
fs.writeFileSync('academy_awards.csv', csvContent, 'utf-8');

로그인 후 복사

다음을 사용하여 스크립트를 실행하세요.

node scraper.js

로그인 후 복사

결과 academy_awards.csv 파일에는 스크랩된 데이터가 포함되어 있습니다.

A JavaScript scraper for the Wikipedia Academy Award List.

이 튜토리얼은 Go 및 Python을 사용하는 이전 스크래핑 튜토리얼을 기반으로 작성되었습니다. 도움이 되었다면 작성자를 지원해 보세요. A JavaScript scraper for the Wikipedia Academy Award List.

위 내용은 Wikipedia 아카데미 수상 목록을 위한 JavaScript 스크레이퍼입니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!