node.js - 关于抓取网页被禁止的问题

Question

用 Node.js 的 http 来抓取某页面： {代码...} 返回的状态码是 404，但是网页能够正常访问，我用自己服务器测试也是一样，所以应该没有 ban 掉我的 ip。这是否代表着对方已经通过服务器端禁掉了他人的抓取？ 还有...

ringa_lee · Answer

檢查一下User-Agent和Referer，另外再看看Cookie，還有那個網頁是不是用Ajax動態產生的。
你可以用Chrome的「開發者工具」或Firebug看看瀏覽器再開啟這個網頁時都發了哪些東西，然後把這些東西都加到你的請求裡去。

巴扎黑 · Answer

你可以看看 pyspider 爬蟲教學（二）：AJAX 和 HTTP
雖然是基於 pyspider 寫得，但原理講的比較多

阿神 · Answer

你說的網站，我正常抓取。

不知是你程式有何錯誤，抓取其它網站如何？

 $url,
        CURLOPT_REFERER => $referer, 
        CURLOPT_USERAGENT => 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2164.0 Safari/537.36',
        CURLOPT_COOKIE => $cookie,
        CURLOPT_HEADER => 1,
        CURLOPT_RETURNTRANSFER => 1, 
        CURLOPT_TIMEOUT => 4
    ]);

    $response = curl_exec($ch);
    $header_size = curl_getinfo($ch, CURLINFO_HEADER_SIZE);
    $header = substr($response, 0, $header_size); //http_parse_headers
    $body = substr($response, $header_size);

    curl_close($ch);
    return [$header, $body];
}

你用我寫的這個試試？反正我這裡成功。

伊谢尔伦 · Answer

我猜可能是設定了 Content-Security-Policy

大家讲道理 · Answer

把瀏覽器發送請求時的所有header都加上，應該可以的。

PHPz · Answer

很簡單，你的header沒有UA，直接被伺服器攔截成攻擊，加上UA，Referer等就可以抓到了