首頁 Java java教程 高效抓取 JavaScript 網站

高效抓取 JavaScript 網站

Nov 20, 2024 am 01:12 AM

Effizientes Scrapen von JavaScript-Webseiten

使用 JavaScript 進行網路爬行的可能性

靜態網站:Axios 與 Cheerio
讓我們逐步了解如何使用 JavaScript 抓取靜態電子商務網站。在此範例中,我們將使用兩個流行的函式庫:用於 HTTP 請求的 Axios 和用於解析 HTML 的 Cheerio。

*1。安裝依賴項 *
使用 npm 安裝 Axios 和 Cheerio:

npm 安裝 axios Cheerio

*2。建立腳本 *
建立一個 JavaScript 文件,例如B. scrapeEcommerce.js 並在程式碼編輯器中開啟它。

*3。導入模組*
將 Axios 和 Cheerio 匯入到您的腳本中:

const axios = require('axios');

const Cheerio = require('cheerio');

*4。定義目標 URL *
選擇您要造訪的電子商務網站。在此範例中,我們使用假設的 URL http://example-ecommerce.com。將其替換為所需的 URL:

const url = 'http://example-ecommerce.com';

*5。取得 HTML 內容 *
使用axios向目標URL發送GET請求,取得HTML內容:

axios.get(url)

.then(回應 => {

const html = response.data;

// 現在可以解析 HTML 內容

})

.catch(錯誤=> {

console.error('取得頁面時發生錯誤:', error);

});

*6。解析 HTML 並擷取資料 *
使用 Cheerio 解析 HTML 程式碼並提取您想要的信息,例如產品名稱和價格:

axios.get(url)

.then(回應 => {

const html = response.data;

const $ = Cheerio.load(html);

})

.catch(錯誤=> {

console.error('取得頁面時發生錯誤:', error);

});

*最重要的一點*

  • axios.get(url):發送 GET 請求並回傳承諾。
  • .then(response => { … }):如果請求成功,HTML內容在response.data中。
  • cheerio.load(html):將 HTML 內容載入到 Cheerio 中,以進行類似 jQuery 的 DOM 操作。
  • $('.product').each((index, element) => { … }):迭代所有 .product 元素。
  • $(element).find('.product-name').text().trim():擷取產品名稱。
  • $(element).find('.product-price').text().trim():提取產品的價格。
  • products.push({ name,price }):將產品資訊加入產品陣列。
  • console.log(products):輸出擷取的資訊。

*完整範例腳本:*
const axios = require('axios');

const Cheerio = require('cheerio');

const url = 'http://example-ecommerce.com';

axios.get(url)

.then(回應 => {

const html = response.data;

const $ = Cheerio.load(html);

})

.catch(錯誤=> {

console.error('取得頁面時發生錯誤:', error);

});

*登陸頁的自訂:*

  • 選擇器:.product、.product-name 和 .product-price 選擇器必須適應目標頁面的實際 HTML 結構。
  • 其他資料:有關其他資訊(例如產品圖片、連結、描述),請檢查對應的 HTML 結構。

使用 JavaScript 抓取網站的網頁抓取工具

如果您最近需要 Python、Ruby 或其他程式語言進行網頁抓取,Octoparse 是一個出色的工具,特別是對於支援 JavaScript 的網站。

舉個具體的例子:如果你有一個目標網站,想要開始抓取,你首先應該檢查該網站是否被阻止JS抓取。不同的網站使用不同的保護方法,您可能需要一些時間和令人沮喪的嘗試才能意識到問題,特別是如果抓取沒有產生預期的結果。然而,使用網頁抓取工具,資料擷取過程會順利進行。

許多網頁抓取工具可以讓您免去編寫爬蟲的麻煩。 Octoparse 在抓取大量 JavaScript 頁面方面特別高效,可以從 99% 的網頁中提取數據,包括使用 Ajax 的網頁。它還提供驗證碼解決服務。 Octoparse 可免費使用,並提供自動發現功能和 100 多個易於使用的模板,可實現高效的資料擷取。新用戶還可以享受 14 天的試用期。

以上是高效抓取 JavaScript 網站的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1655
14
CakePHP 教程
1414
52
Laravel 教程
1307
25
PHP教程
1255
29
C# 教程
1228
24
公司安全軟件導致應用無法運行?如何排查和解決? 公司安全軟件導致應用無法運行?如何排查和解決? Apr 19, 2025 pm 04:51 PM

公司安全軟件導致部分應用無法正常運行的排查與解決方法許多公司為了保障內部網絡安全,會部署安全軟件。 ...

如何將姓名轉換為數字以實現排序並保持群組中的一致性? 如何將姓名轉換為數字以實現排序並保持群組中的一致性? Apr 19, 2025 pm 11:30 PM

將姓名轉換為數字以實現排序的解決方案在許多應用場景中,用戶可能需要在群組中進行排序,尤其是在一個用...

IntelliJ IDEA是如何在不輸出日誌的情況下識別Spring Boot項目的端口號的? IntelliJ IDEA是如何在不輸出日誌的情況下識別Spring Boot項目的端口號的? Apr 19, 2025 pm 11:45 PM

在使用IntelliJIDEAUltimate版本啟動Spring...

如何優雅地獲取實體類變量名構建數據庫查詢條件? 如何優雅地獲取實體類變量名構建數據庫查詢條件? Apr 19, 2025 pm 11:42 PM

在使用MyBatis-Plus或其他ORM框架進行數據庫操作時,經常需要根據實體類的屬性名構造查詢條件。如果每次都手動...

如何使用MapStruct簡化系統對接中的字段映射問題? 如何使用MapStruct簡化系統對接中的字段映射問題? Apr 19, 2025 pm 06:21 PM

系統對接中的字段映射處理在進行系統對接時,常常會遇到一個棘手的問題:如何將A系統的接口字段有效地映�...

Java對像如何安全地轉換為數組? Java對像如何安全地轉換為數組? Apr 19, 2025 pm 11:33 PM

Java對象與數組的轉換:深入探討強制類型轉換的風險與正確方法很多Java初學者會遇到將一個對象轉換成數組的�...

電商平台SKU和SPU數據庫設計:如何兼顧用戶自定義屬性和無屬性商品? 電商平台SKU和SPU數據庫設計:如何兼顧用戶自定義屬性和無屬性商品? Apr 19, 2025 pm 11:27 PM

電商平台SKU和SPU表設計詳解本文將探討電商平台中SKU和SPU的數據庫設計問題,特別是如何處理用戶自定義銷售屬...

如何利用Redis緩存方案高效實現產品排行榜列表的需求? 如何利用Redis緩存方案高效實現產品排行榜列表的需求? Apr 19, 2025 pm 11:36 PM

Redis緩存方案如何實現產品排行榜列表的需求?在開發過程中,我們常常需要處理排行榜的需求,例如展示一個�...

See all articles