請問有沒有開源的工具來收集網頁的資料
例如要包含連續規則抓取,例如先抓取分頁信息,從中獲取詳情頁,從詳情頁抓取真正需要的dom字段
包含最後自訂存到資料庫,
包含可以偽造ip等
包含自動佇列機制,自動延遲
等等
謝謝
請問有沒有開源的工具來收集網頁的資料
例如要包含連續規則抓取,例如先抓取分頁信息,從中獲取詳情頁,從詳情頁抓取真正需要的dom字段
包含最後自訂存到資料庫,
包含可以偽造ip等
包含自動佇列機制,自動延遲
等等
謝謝
有,可以試試【神箭手雲爬蟲開發平台。 】
神箭手雲爬蟲是幫助JS開發者快速開發爬蟲系統的SaaS服務平台。神箭手提供上手簡單,靈活開放的雲端爬蟲開發框架,讓開發者只需要在線上寫幾行js程式碼就可以實現一個爬蟲。且爬蟲將自動運行在雲端伺服器上,爬取速度更快,效率更高。
phpcrawler,php爬蟲,php採集器,多進程,多執行緒
phpQuery