이 튜토리얼에서는 JavaScript의 Cheerio 라이브러리를 사용하여 Wikipedia에서 아카데미 상을 받은 영화를 추출하고 이를 CSV 파일에 저장하는 웹 스크래핑을 보여줍니다.
먼저 필수 패키지를 설치합니다.
<code class="language-bash">npm install cheerio axios</code>
위키피디아 페이지 URL은 다음과 같습니다.
<code class="language-javascript">const url = 'https://en.wikipedia.org/wiki/List_of_Academy_Award%E2%80%93winning_films';</code>
코드는 axios
을 사용하여 페이지의 HTML을 가져온 다음 Cheerio를 사용하여 이를 구문 분석합니다.
<code class="language-javascript">const { data: html } = await axios.get(url); const $ = cheerio.load(html); const theadData = []; const tableData = [];</code>
스크립트는 DOM을 탐색하여 테이블 셀에서 데이터를 추출합니다.
<code class="language-javascript">$('tbody').each((i, column) => { const columnData = []; $(column).find('th').each((j, cell) => { columnData.push($(cell).text().replace('\n', '')); }); theadData.push(columnData); }); tableData.push(theadData[0]); $('table tr').each((i, row) => { const rowData = []; $(row).find('td').each((j, cell) => { rowData.push($(cell).text().trim()); }); if (rowData.length) tableData.push(rowData); });</code>
마지막으로 추출된 데이터는 세미콜론을 구분 기호로 사용하여 fs.writeFileSync
을 사용하여 형식을 지정하고 CSV 파일에 저장합니다.
<code class="language-javascript">const csvContent = tableData.map((row) => row.join(';')).join('\n'); fs.writeFileSync('academy_awards.csv', csvContent, 'utf-8');</code>
다음을 사용하여 스크립트를 실행하세요.
<code class="language-bash">node scraper.js</code>
결과 academy_awards.csv
파일에는 스크랩된 데이터가 포함되어 있습니다.
이 튜토리얼은 Go 및 Python을 사용하는 이전 스크래핑 튜토리얼을 기반으로 작성되었습니다. 도움이 되었다면 작성자를 지원해 보세요.
위 내용은 Wikipedia 아카데미 수상 목록을 위한 JavaScript 스크레이퍼입니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!