Un scraper JavaScript pour la liste des Oscars Wikipédia.-js tutoriel-php.cn

Un scraper JavaScript pour la liste des Oscars Wikipédia.

Susan Sarandon

Libérer： 2025-01-24 16:39:12

original

1077 Les gens l'ont consulté

Ce didacticiel montre le web scraping à l'aide de la bibliothèque Cheerio de JavaScript pour extraire des films primés aux Oscars de Wikipédia et les enregistrer dans un fichier CSV.

Tout d'abord, installez les packages requis :

npm install cheerio axios

Copier après la connexion

L'URL de la page Wikipédia est :

const url = 'https://en.wikipedia.org/wiki/List_of_Academy_Award%E2%80%93winning_films';

Copier après la connexion

Le code récupère le HTML de la page en utilisant axios, puis utilise Cheerio pour l'analyser :

const { data: html } = await axios.get(url);
const $ = cheerio.load(html);

const theadData = [];
const tableData = [];

Copier après la connexion

Le script parcourt le DOM, extrayant les données des cellules du tableau :

$('tbody').each((i, column) => {
  const columnData = [];
  $(column).find('th').each((j, cell) => {
    columnData.push($(cell).text().replace('\n', ''));
  });
  theadData.push(columnData);
});

tableData.push(theadData[0]);

$('table tr').each((i, row) => {
  const rowData = [];
  $(row).find('td').each((j, cell) => {
    rowData.push($(cell).text().trim());
  });
  if (rowData.length) tableData.push(rowData);
});

Copier après la connexion

Enfin, les données extraites sont formatées et enregistrées dans un fichier CSV en utilisant fs.writeFileSync, avec des points-virgules comme délimiteurs :

const csvContent = tableData.map((row) => row.join(';')).join('\n');
fs.writeFileSync('academy_awards.csv', csvContent, 'utf-8');

Copier après la connexion

Exécutez le script en utilisant :

node scraper.js

Copier après la connexion

Le fichier academy_awards.csv résultant contient les données récupérées.

A JavaScript scraper for the Wikipedia Academy Award List.

Ce didacticiel s'appuie sur des didacticiels de scraping précédents utilisant Go et Python. Pensez à soutenir l'auteur si cela a été utile : A JavaScript scraper for the Wikipedia Academy Award List.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!