> 웹 프론트엔드 > JS 튜토리얼 > Wikipedia 아카데미 수상 목록을 위한 JavaScript 스크레이퍼입니다.

Wikipedia 아카데미 수상 목록을 위한 JavaScript 스크레이퍼입니다.

Susan Sarandon
풀어 주다: 2025-01-24 16:39:12
원래의
979명이 탐색했습니다.

이 튜토리얼에서는 JavaScript의 Cheerio 라이브러리를 사용하여 Wikipedia에서 아카데미 상을 받은 영화를 추출하고 이를 CSV 파일에 저장하는 웹 스크래핑을 보여줍니다.

먼저 필수 패키지를 설치합니다.

<code class="language-bash">npm install cheerio axios</code>
로그인 후 복사

위키피디아 페이지 URL은 다음과 같습니다.

<code class="language-javascript">const url = 'https://en.wikipedia.org/wiki/List_of_Academy_Award%E2%80%93winning_films';</code>
로그인 후 복사

코드는 axios을 사용하여 페이지의 HTML을 가져온 다음 Cheerio를 사용하여 이를 구문 분석합니다.

<code class="language-javascript">const { data: html } = await axios.get(url);
const $ = cheerio.load(html);

const theadData = [];
const tableData = [];</code>
로그인 후 복사

스크립트는 DOM을 탐색하여 테이블 셀에서 데이터를 추출합니다.

<code class="language-javascript">$('tbody').each((i, column) => {
  const columnData = [];
  $(column).find('th').each((j, cell) => {
    columnData.push($(cell).text().replace('\n', ''));
  });
  theadData.push(columnData);
});

tableData.push(theadData[0]);

$('table tr').each((i, row) => {
  const rowData = [];
  $(row).find('td').each((j, cell) => {
    rowData.push($(cell).text().trim());
  });
  if (rowData.length) tableData.push(rowData);
});</code>
로그인 후 복사

마지막으로 추출된 데이터는 세미콜론을 구분 기호로 사용하여 fs.writeFileSync을 사용하여 형식을 지정하고 CSV 파일에 저장합니다.

<code class="language-javascript">const csvContent = tableData.map((row) => row.join(';')).join('\n');
fs.writeFileSync('academy_awards.csv', csvContent, 'utf-8');</code>
로그인 후 복사

다음을 사용하여 스크립트를 실행하세요.

<code class="language-bash">node scraper.js</code>
로그인 후 복사

결과 academy_awards.csv 파일에는 스크랩된 데이터가 포함되어 있습니다.

A JavaScript scraper for the Wikipedia Academy Award List.

이 튜토리얼은 Go 및 Python을 사용하는 이전 스크래핑 튜토리얼을 기반으로 작성되었습니다. 도움이 되었다면 작성자를 지원해 보세요. A JavaScript scraper for the Wikipedia Academy Award List.

위 내용은 Wikipedia 아카데미 수상 목록을 위한 JavaScript 스크레이퍼입니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
저자별 최신 기사
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿