python - 禁止自己的网站被爬虫爬去？

Question

禁止自己的网站被爬虫爬去？有什么方法啊

迷茫 · Answer

加一個robots.txt文件，內容：

User-agent: *
Disallow: /

怪我咯 · Answer

加入robots.txt，告訴爬蟲希望不要爬取我的網站，但是並不會強制禁止，這只是一個約定，需要雙方都去遵守。

巴扎黑 · Answer

不知道你說的爬蟲是指百度爬蟲還是我們自己寫的爬蟲。

百度爬蟲按樓上的方法就好了，而防止別人的爬蟲有很多方法，比如所有class，或者id都動態生成。因為爬蟲解析html一般是透過class或id來取得想要的東西的。

大家讲道理 · Answer

還得看是什麼樣的爬蟲了
君子型？小人型？
如果這個爬蟲能遵守robots.txt約定，那麼還好
但是這種只是君子協定
如果碰上小人，那麼也就呵呵了

迷茫 · Answer

1) JS什麼的可以試試gzip壓縮，很多爬蟲不會爬取gzip壓縮的js
2）使用log分析web伺服器的日誌，如果是惡意的訪問你的關鍵資源的，而對方是固定IP，可以試著ban掉對方IP

黄舟 · Answer

講道理，不可能絕對做到

天蓬老师 · Answer

沒有用的，首先你的網站本身對人公開，那自然也就對爬蟲公開，除非換成內部網絡，如果你把精力做到防止爬蟲上去，還不如提高質量，現在分類信息網站都是爬來爬去，而使用者體驗基本上沒有提升。

迷茫 · Answer

噗，你可以把class和id亂七八糟，毫無規律，讓正則都匹配不了

阿神 · Answer

網頁內容全部js動態產生不知道可不可以

巴扎黑 · Answer

首先是你很難做到說100%不讓爬蟲爬取到，除非像樓上說的那樣是內部網絡。

但是你可以做一些的措施用來防止一些技術含量低的小爬蟲爬取你的網站。

具體的措施可以移步到知乎，看看這篇文章點這裡

希望能幫到你