python - 禁止自己的网站被爬虫爬去?
大家讲道理
大家讲道理 2017-04-17 17:33:35
0
13
1126

禁止自己的网站被爬虫爬去?有什么方法啊

大家讲道理
大家讲道理

光阴似箭催人老,日月如移越少年。

membalas semua(13)
迷茫

Tambahkan fail robots.txt dengan kandungan:

User-agent: *
Disallow: /
刘奇

Tambah robots.txt untuk memberitahu perangkak supaya tidak merangkak tapak web saya, tetapi ia tidak akan diharamkan secara paksa Ini hanyalah perjanjian yang perlu dipatuhi oleh kedua-dua pihak.

巴扎黑

Saya tidak tahu sama ada perangkak yang anda maksudkan merujuk kepada perangkak Baidu atau perangkak yang kami tulis sendiri.

Perangkak Baidu hanya boleh mengikut kaedah di atas Terdapat banyak cara untuk menghalang perangkak orang lain, seperti menjana semua kelas atau id secara dinamik. Kerana perangkak biasanya menghuraikan HTML untuk mendapatkan apa yang mereka mahu melalui kelas atau id.

大家讲道理

Ia juga bergantung kepada jenis reptilia itu
Jenis lelaki budiman? Miniatur?
Jika crawler ini boleh mematuhi perjanjian robots.txt, maka tidak mengapa
Tetapi ini hanya perjanjian seorang lelaki
Jika ia bertemu dengan penjahat, maka tidak mengapa

迷茫

1) Anda boleh mencuba pemampatan gzip untuk JS Ramai perangkak tidak akan merangkak js yang dimampatkan gzip
2) Gunakan log untuk menganalisis log pelayan web Jika ia adalah akses berniat jahat kepada sumber utama anda pihak lain Ia adalah IP tetap, anda boleh cuba mengharamkan IP pihak lain

黄舟

Untuk bersikap adil, mustahil untuk melakukannya secara mutlak

Peter_Zhu

Tidak berguna Pertama sekali, jika tapak web anda terbuka kepada orang, ia secara semula jadi akan terbuka kepada perangkak Melainkan ia ditukar kepada rangkaian dalaman, jika anda menumpukan pada menghalang perangkak daripada bangun, anda juga boleh menambah baik Pada masa kini, laman web maklumat terperingkat semuanya Ia hanya merangkak, tetapi pengalaman pengguna pada dasarnya tidak bertambah baik.

迷茫

Pfft, anda boleh mengacaukan kelas dan id supaya peraturan biasa tidak sepadan

阿神

Saya tidak tahu sama ada boleh menjana semua kandungan js dalam halaman web secara dinamik

巴扎黑

Pertama sekali, sukar untuk anda menghalang 100% crawler daripada dirangkak, melainkan ia adalah rangkaian dalaman seperti yang dinyatakan di atas.

Tetapi anda boleh mengambil beberapa langkah untuk menghalang beberapa perangkak berteknologi rendah daripada merangkak tapak web anda.

Untuk langkah khusus, anda boleh pergi ke Zhihu Untuk membaca artikel ini, klik di sini

Semoga ia membantu anda

Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan