Maison > interface Web > js tutoriel > Un scraper JavaScript pour la liste des Oscars Wikipédia.

Un scraper JavaScript pour la liste des Oscars Wikipédia.

Susan Sarandon
Libérer: 2025-01-24 16:39:12
original
1077 Les gens l'ont consulté

Ce didacticiel montre le web scraping à l'aide de la bibliothèque Cheerio de JavaScript pour extraire des films primés aux Oscars de Wikipédia et les enregistrer dans un fichier CSV.

Tout d'abord, installez les packages requis :

npm install cheerio axios
Copier après la connexion

L'URL de la page Wikipédia est :

const url = 'https://en.wikipedia.org/wiki/List_of_Academy_Award%E2%80%93winning_films';
Copier après la connexion

Le code récupère le HTML de la page en utilisant axios, puis utilise Cheerio pour l'analyser :

const { data: html } = await axios.get(url);
const $ = cheerio.load(html);

const theadData = [];
const tableData = [];
Copier après la connexion

Le script parcourt le DOM, extrayant les données des cellules du tableau :

$('tbody').each((i, column) => {
  const columnData = [];
  $(column).find('th').each((j, cell) => {
    columnData.push($(cell).text().replace('\n', ''));
  });
  theadData.push(columnData);
});

tableData.push(theadData[0]);

$('table tr').each((i, row) => {
  const rowData = [];
  $(row).find('td').each((j, cell) => {
    rowData.push($(cell).text().trim());
  });
  if (rowData.length) tableData.push(rowData);
});
Copier après la connexion

Enfin, les données extraites sont formatées et enregistrées dans un fichier CSV en utilisant fs.writeFileSync, avec des points-virgules comme délimiteurs :

const csvContent = tableData.map((row) => row.join(';')).join('\n');
fs.writeFileSync('academy_awards.csv', csvContent, 'utf-8');
Copier après la connexion

Exécutez le script en utilisant :

node scraper.js
Copier après la connexion

Le fichier academy_awards.csv résultant contient les données récupérées.

A JavaScript scraper for the Wikipedia Academy Award List.

Ce didacticiel s'appuie sur des didacticiels de scraping précédents utilisant Go et Python. Pensez à soutenir l'auteur si cela a été utile : A JavaScript scraper for the Wikipedia Academy Award List.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers articles par auteur
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal