Maison > interface Web > js tutoriel > Un scraper JavaScript pour la liste des Oscars Wikipédia.

Un scraper JavaScript pour la liste des Oscars Wikipédia.

Susan Sarandon
Libérer: 2025-01-24 16:39:12
original
1028 Les gens l'ont consulté

Ce didacticiel montre le web scraping à l'aide de la bibliothèque Cheerio de JavaScript pour extraire des films primés aux Oscars de Wikipédia et les enregistrer dans un fichier CSV.

Tout d'abord, installez les packages requis :

<code class="language-bash">npm install cheerio axios</code>
Copier après la connexion

L'URL de la page Wikipédia est :

<code class="language-javascript">const url = 'https://en.wikipedia.org/wiki/List_of_Academy_Award%E2%80%93winning_films';</code>
Copier après la connexion

Le code récupère le HTML de la page en utilisant axios, puis utilise Cheerio pour l'analyser :

<code class="language-javascript">const { data: html } = await axios.get(url);
const $ = cheerio.load(html);

const theadData = [];
const tableData = [];</code>
Copier après la connexion

Le script parcourt le DOM, extrayant les données des cellules du tableau :

<code class="language-javascript">$('tbody').each((i, column) => {
  const columnData = [];
  $(column).find('th').each((j, cell) => {
    columnData.push($(cell).text().replace('\n', ''));
  });
  theadData.push(columnData);
});

tableData.push(theadData[0]);

$('table tr').each((i, row) => {
  const rowData = [];
  $(row).find('td').each((j, cell) => {
    rowData.push($(cell).text().trim());
  });
  if (rowData.length) tableData.push(rowData);
});</code>
Copier après la connexion

Enfin, les données extraites sont formatées et enregistrées dans un fichier CSV en utilisant fs.writeFileSync, avec des points-virgules comme délimiteurs :

<code class="language-javascript">const csvContent = tableData.map((row) => row.join(';')).join('\n');
fs.writeFileSync('academy_awards.csv', csvContent, 'utf-8');</code>
Copier après la connexion

Exécutez le script en utilisant :

<code class="language-bash">node scraper.js</code>
Copier après la connexion

Le fichier academy_awards.csv résultant contient les données récupérées.

A JavaScript scraper for the Wikipedia Academy Award List.

Ce didacticiel s'appuie sur des didacticiels de scraping précédents utilisant Go et Python. Pensez à soutenir l'auteur si cela a été utile : A JavaScript scraper for the Wikipedia Academy Award List.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers articles par auteur
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal