Tout d'abord, le code d'état 200 est l'état de la connexion réseau, vous ne jugez donc que 200 et il ne satisfait pas tous les sites Web.
Deuxièmement, lorsque vous écrivez un robot d'exploration, vous devez réellement voir quelles sont les règles de ces sites Web. Vous pouvez d'abord faire un jugement manuel et rechercher des modèles, par exemple vérifier si le contenu renvoyé par la page Web présente des caractéristiques.
Même si le code d'état de la page est 200, la page 404 renvoyée doit avoir des éléments HTML différents de la page HTML explorable normale. Vous pouvez également juger s'il s'agit d'une page 404 en fonction de la présence ou non d'éléments HTML spécifiques
Tout d'abord, le code d'état 200 est l'état de la connexion réseau, vous ne jugez donc que 200 et il ne satisfait pas tous les sites Web.
Deuxièmement, lorsque vous écrivez un robot d'exploration, vous devez réellement voir quelles sont les règles de ces sites Web. Vous pouvez d'abord faire un jugement manuel et rechercher des modèles, par exemple vérifier si le contenu renvoyé par la page Web présente des caractéristiques.
Portez un jugement sur le contenu de la page Web et renvoyez-le directement s'il n'y a pas de contenu dans la page Web.
Même si le code d'état de la page est 200, la page 404 renvoyée doit avoir des éléments HTML différents de la page HTML explorable normale. Vous pouvez également juger s'il s'agit d'une page 404 en fonction de la présence ou non d'éléments HTML spécifiques
.