Ein JavaScript -Schaber für die Wikipedia Academy Award -Liste.-js-Tutorial-php.cn

Ein JavaScript -Schaber für die Wikipedia Academy Award -Liste.

Susan Sarandon

Freigeben： 2025-01-24 16:39:12

Original

1054 Leute haben es durchsucht

Dieses Tutorial demonstriert Web Scraping mit der Cheerio-Bibliothek von JavaScript, um Oscar-prämierte Filme aus Wikipedia zu extrahieren und in einer CSV-Datei zu speichern.

Installieren Sie zunächst die erforderlichen Pakete:

npm install cheerio axios

Nach dem Login kopieren

Die URL der Wikipedia-Seite lautet:

const url = 'https://en.wikipedia.org/wiki/List_of_Academy_Award%E2%80%93winning_films';

Nach dem Login kopieren

Der Code ruft den HTML-Code der Seite mit axios ab und analysiert ihn dann mit Cheerio:

const { data: html } = await axios.get(url);
const $ = cheerio.load(html);

const theadData = [];
const tableData = [];

Nach dem Login kopieren

Das Skript navigiert durch das DOM und extrahiert Daten aus Tabellenzellen:

$('tbody').each((i, column) => {
  const columnData = [];
  $(column).find('th').each((j, cell) => {
    columnData.push($(cell).text().replace('\n', ''));
  });
  theadData.push(columnData);
});

tableData.push(theadData[0]);

$('table tr').each((i, row) => {
  const rowData = [];
  $(row).find('td').each((j, cell) => {
    rowData.push($(cell).text().trim());
  });
  if (rowData.length) tableData.push(rowData);
});

Nach dem Login kopieren

Abschließend werden die extrahierten Daten formatiert und in einer CSV-Datei mit fs.writeFileSync gespeichert, mit Semikolons als Trennzeichen:

const csvContent = tableData.map((row) => row.join(';')).join('\n');
fs.writeFileSync('academy_awards.csv', csvContent, 'utf-8');

Nach dem Login kopieren

Führen Sie das Skript aus mit:

node scraper.js

Nach dem Login kopieren

Die resultierende academy_awards.csv-Datei enthält die geschabten Daten.

A JavaScript scraper for the Wikipedia Academy Award List.

Dieses Tutorial baut auf früheren Scraping-Tutorials mit Go und Python auf. Erwägen Sie, den Autor zu unterstützen, wenn dies hilfreich war: A JavaScript scraper for the Wikipedia Academy Award List.

Das obige ist der detaillierte Inhalt vonEin JavaScript -Schaber für die Wikipedia Academy Award -Liste.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!