Dieses Tutorial demonstriert Web Scraping mit der Cheerio-Bibliothek von JavaScript, um Oscar-prämierte Filme aus Wikipedia zu extrahieren und in einer CSV-Datei zu speichern.
Installieren Sie zunächst die erforderlichen Pakete:
<code class="language-bash">npm install cheerio axios</code>
Die URL der Wikipedia-Seite lautet:
<code class="language-javascript">const url = 'https://en.wikipedia.org/wiki/List_of_Academy_Award%E2%80%93winning_films';</code>
Der Code ruft den HTML-Code der Seite mit axios
ab und analysiert ihn dann mit Cheerio:
<code class="language-javascript">const { data: html } = await axios.get(url); const $ = cheerio.load(html); const theadData = []; const tableData = [];</code>
Das Skript navigiert durch das DOM und extrahiert Daten aus Tabellenzellen:
<code class="language-javascript">$('tbody').each((i, column) => { const columnData = []; $(column).find('th').each((j, cell) => { columnData.push($(cell).text().replace('\n', '')); }); theadData.push(columnData); }); tableData.push(theadData[0]); $('table tr').each((i, row) => { const rowData = []; $(row).find('td').each((j, cell) => { rowData.push($(cell).text().trim()); }); if (rowData.length) tableData.push(rowData); });</code>
Abschließend werden die extrahierten Daten formatiert und in einer CSV-Datei mit fs.writeFileSync
gespeichert, mit Semikolons als Trennzeichen:
<code class="language-javascript">const csvContent = tableData.map((row) => row.join(';')).join('\n'); fs.writeFileSync('academy_awards.csv', csvContent, 'utf-8');</code>
Führen Sie das Skript aus mit:
<code class="language-bash">node scraper.js</code>
Die resultierende academy_awards.csv
-Datei enthält die geschabten Daten.
Dieses Tutorial baut auf früheren Scraping-Tutorials mit Go und Python auf. Erwägen Sie, den Autor zu unterstützen, wenn dies hilfreich war:
Das obige ist der detaillierte Inhalt vonEin JavaScript -Schaber für die Wikipedia Academy Award -Liste.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!