禁止自己的网站被爬虫爬去?有什么方法啊
光阴似箭催人老,日月如移越少年。
如果是防禦針對性的爬蟲,可以做一些存取限制,例如存取頻率,加上驗證碼等等。
重要內容使用js動態加入
限制http_referer
不同的介面可以考慮不同的模板,一套正規不能完美搭配的那種
在可能會爬的內容裡隨機加上一些版權資訊
.登陸之後才可以進行訪問
記錄訪問日誌
能想到的就這些,不過如果真的想抓,這些也就只是增加一點抓取的難度而已
禁止搜尋引擎爬取可以修改robots.txt禁止個人爬取的話難度有點大,只能增加難度,例如增加比較複雜的驗證碼、存取頻率、定時換樣式/資料格式之類的
如果是防禦針對性的爬蟲,可以做一些存取限制,例如存取頻率,加上驗證碼等等。
重要內容使用js動態加入
限制http_referer
不同的介面可以考慮不同的模板,一套正規不能完美搭配的那種
在可能會爬的內容裡隨機加上一些版權資訊
.登陸之後才可以進行訪問
記錄訪問日誌
能想到的就這些,不過如果真的想抓,這些也就只是增加一點抓取的難度而已
禁止搜尋引擎爬取可以修改robots.txt
禁止個人爬取的話難度有點大,只能增加難度,例如增加比較複雜的驗證碼、存取頻率、定時換樣式/資料格式之類的