Laravel 中使用 puppeteer 擷取非同步載入的網頁內容-Laravel-PHP中文網

Laravel 中使用 puppeteer 擷取非同步載入的網頁內容

藏色散人

發布： 2019-10-16 14:24:23

轉載

3712 人瀏覽過

Laravel 中使用 puppeteer 擷取非同步載入的網頁內容

採集網頁內容是一項很常見的需求，比較傳統的靜態頁面，curl 就能搞定。但如果頁面中有動態載入的內容，例如有些頁面裡透過ajax 載入的文章正文內容，又如果有些頁面載入完成後進行了一些額外處理（圖片地址替換等等…）而你想擷取這些處理過後的內容。那麼牛逼閃閃的 curl 也束手無策了。

做過類似需求的人可能會說，老鐵，上 PhantomJS 啊！

沒錯，這是一個辦法，而且在相當長的時間裡 PhantomJS 是為數不多的能解決這類需求的工具裡的佼佼者。

但今天這裡要介紹的是一個後來居上的工具 -- puppeteer，它是隨著 Chrome Headless 技術興起而快速發展起來的。而且非常關鍵的是，puppeteer 由 Chrome 的官方團隊開發和維護，可以說相當可靠了！

puppeteer 是 js 套件，要在 Laravel 中使用，得借助另一神器spatie/browsershot。

安裝

安裝spatie/browsershot

browsershot 是composer 套件，出自於大神團隊spatie

$ composer require spatie/browsershot

登入後複製

安裝puppeteer

$ npm i puppeteer --save

登入後複製

也可以全域安全puppeteer 但就個人經驗而言，在專案中安裝是比較建議的做法，因為這樣不同專案不會同時受全域安裝的puppeteer 影響，此外專案中安裝也方便使用phpdeployer進行升級（phpdeploy 升級時不會影響線上專案運行，要知道升級/安裝puppeteer 可是很耗時的，有時候還不能保證一次成功）。

安裝puppeteer 時會下載Chromium-Browser，鑑於咱特殊國情，很有可能出現無法下載的情況，對此，就請大家各顯神通吧…

#使用

以擷取今日頭條手機版頁面文章內容為例。

use Spatie\Browsershot\Browsershot;
public function getBodyHtml()
{
    $newsUrl = &#39;https://m.toutiao.com/i6546884151050502660/&#39;;
    
    $html = Browsershot::url($newsUrl)
        ->windowSize(480, 800)
        ->userAgent(&#39;Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Mobile Safari/537.36&#39;)
        ->mobile()
        ->touch()
        ->bodyHtml();
    \Log::info($html);
}

登入後複製

運行後可以在日誌中看到如下內容（截圖中只是其中部分）

Laravel 中使用 puppeteer 擷取非同步載入的網頁內容

#此外，也可以將頁面儲存為圖片或PDF文件。

use Spatie\Browsershot\Browsershot;
public function getBodyHtml()
{
    $newsUrl = &#39;https://m.toutiao.com/i6546884151050502660/&#39;;
    
    Browsershot::url($newsUrl)
        ->windowSize(480, 800)
        ->userAgent(&#39;Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Mobile Safari/537.36&#39;)
        ->mobile()
        ->touch()
        ->setDelay(1000)
        ->save(public_path(&#39;images/toutiao.jpg&#39;));
}

登入後複製

Laravel 中使用 puppeteer 擷取非同步載入的網頁內容