Tambah robots.txt untuk memberitahu perangkak supaya tidak merangkak tapak web saya, tetapi ia tidak akan diharamkan secara paksa Ini hanyalah perjanjian yang perlu dipatuhi oleh kedua-dua pihak.
Saya tidak tahu sama ada perangkak yang anda maksudkan merujuk kepada perangkak Baidu atau perangkak yang kami tulis sendiri.
Perangkak Baidu hanya boleh mengikut kaedah di atas Terdapat banyak cara untuk menghalang perangkak orang lain, seperti menjana semua kelas atau id secara dinamik. Kerana perangkak biasanya menghuraikan HTML untuk mendapatkan apa yang mereka mahu melalui kelas atau id.
Ia juga bergantung kepada jenis reptilia itu Jenis lelaki budiman? Miniatur? Jika crawler ini boleh mematuhi perjanjian robots.txt, maka tidak mengapa Tetapi ini hanya perjanjian seorang lelaki Jika ia bertemu dengan penjahat, maka tidak mengapa
1) Anda boleh mencuba pemampatan gzip untuk JS Ramai perangkak tidak akan merangkak js yang dimampatkan gzip 2) Gunakan log untuk menganalisis log pelayan web Jika ia adalah akses berniat jahat kepada sumber utama anda pihak lain Ia adalah IP tetap, anda boleh cuba mengharamkan IP pihak lain
Tidak berguna Pertama sekali, jika tapak web anda terbuka kepada orang, ia secara semula jadi akan terbuka kepada perangkak Melainkan ia ditukar kepada rangkaian dalaman, jika anda menumpukan pada menghalang perangkak daripada bangun, anda juga boleh menambah baik Pada masa kini, laman web maklumat terperingkat semuanya Ia hanya merangkak, tetapi pengalaman pengguna pada dasarnya tidak bertambah baik.
Tambahkan fail robots.txt dengan kandungan:
Tambah robots.txt untuk memberitahu perangkak supaya tidak merangkak tapak web saya, tetapi ia tidak akan diharamkan secara paksa Ini hanyalah perjanjian yang perlu dipatuhi oleh kedua-dua pihak.
Saya tidak tahu sama ada perangkak yang anda maksudkan merujuk kepada perangkak Baidu atau perangkak yang kami tulis sendiri.
Perangkak Baidu hanya boleh mengikut kaedah di atas Terdapat banyak cara untuk menghalang perangkak orang lain, seperti menjana semua kelas atau id secara dinamik. Kerana perangkak biasanya menghuraikan HTML untuk mendapatkan apa yang mereka mahu melalui kelas atau id.
Ia juga bergantung kepada jenis reptilia itu
Jenis lelaki budiman? Miniatur?
Jika crawler ini boleh mematuhi perjanjian robots.txt, maka tidak mengapa
Tetapi ini hanya perjanjian seorang lelaki
Jika ia bertemu dengan penjahat, maka tidak mengapa
1) Anda boleh mencuba pemampatan gzip untuk JS Ramai perangkak tidak akan merangkak js yang dimampatkan gzip
2) Gunakan log untuk menganalisis log pelayan web Jika ia adalah akses berniat jahat kepada sumber utama anda pihak lain Ia adalah IP tetap, anda boleh cuba mengharamkan IP pihak lain
Untuk bersikap adil, mustahil untuk melakukannya secara mutlak
Tidak berguna Pertama sekali, jika tapak web anda terbuka kepada orang, ia secara semula jadi akan terbuka kepada perangkak Melainkan ia ditukar kepada rangkaian dalaman, jika anda menumpukan pada menghalang perangkak daripada bangun, anda juga boleh menambah baik Pada masa kini, laman web maklumat terperingkat semuanya Ia hanya merangkak, tetapi pengalaman pengguna pada dasarnya tidak bertambah baik.
Pfft, anda boleh mengacaukan kelas dan id supaya peraturan biasa tidak sepadan
Saya tidak tahu sama ada boleh menjana semua kandungan js dalam halaman web secara dinamik
Pertama sekali, sukar untuk anda menghalang 100% crawler daripada dirangkak, melainkan ia adalah rangkaian dalaman seperti yang dinyatakan di atas.
Tetapi anda boleh mengambil beberapa langkah untuk menghalang beberapa perangkak berteknologi rendah daripada merangkak tapak web anda.
Untuk langkah khusus, anda boleh pergi ke Zhihu Untuk membaca artikel ini, klik di sini
Semoga ia membantu anda