网页爬虫 - Python 爬虫中如何处理验证码?
怪我咯
怪我咯 2017-04-18 10:33:47
0
8
487

最近想用Python写个爬虫去抓取一些东西,但是碰到个问题,就是验证码不知道该如何处理。
现在验证码一般有两种,一种是简单的,比如下面这种纯字符型的:

另外一种就是出来一些特定字符,需要按顺序点击的:

我看有的人说可以获取浏览器cookies写到程序里就直接通过验证了,有的说这个涉及到机器学习方面的东西。由于我个人以前没接触过这方面东西,所以不知道从何处入手,想问下要处理这种验证码的话,一般该如何处理? 有没有这方面合适的书推荐下啊……

怪我咯
怪我咯

走同样的路,发现不同的人生

répondre à tous(8)
迷茫

Celui-ci utilise la technologie des codes de vérification pour empêcher les programmes réseau tels que les robots d'exploration. Ce que je sais sur le piratage des codes de vérification, c'est l'utilisation de la reconnaissance d'images par intelligence artificielle. Il semble qu'il existe des fonctions similaires, mais la précision n'est pas très élevée.

黄舟

Pour les problèmes de code de vérification, d'une part, vous pouvez vous tourner vers l'API fournie par des prestataires de services professionnels (ils utilisent l'apprentissage automatique ou l'intelligence artificielle), tels que Youyoutu, et d'autre part, vous pouvez écrire votre propre programme de reconnaissance de code de vérification et proposer un projet ; pour référence : https://github .com/luyishisi/…

迷茫

Une solution consiste à vous connecter manuellement au navigateur, puis à extraire les cookies, à les inclure directement dans la requête du robot et à les envoyer.

PHPzhong

La première image est facile à traiter, le code de vérification n'est qu'une image, et le code de vérification peut être obtenu par traitement d'image (technologie ocr)
L'image deux est plus gênante si vous utilisez la première méthode, c'est plus compliqué. les chiffres seront superposés sur le texte. , il est plus difficile d'obtenir le contenu de l'image. Je n'ai pas de bonne méthode pour la deuxième méthode. J'espère que les étudiants ayant de l'expérience dans ce domaine pourront aider à y répondre.

Peter_Zhu

Le code de vérification est utilisé pour contrecarrer les machines et les robots d'exploration. Si le code de vérification peut être facilement contourné par votre robot d'exploration automatisé, peut-il toujours être appelé code de vérification ? L'affiche doit d'abord comprendre quel est le mécanisme du code de vérification ? , puis jetez un œil. Est-ce aussi facile à contourner que vous l'imaginiez ? En bref, à moins qu'il n'y ait des failles dans la mise en œuvre du code de vérification d'autres sites Web, vous ne pouvez pas contourner le mécanisme du code de vérification. La technologie OCR (Optical Character Recognition) est utilisée pour résoudre ce problème. L'OCR fait référence à un appareil électronique (tel qu'un scanner) qui vérifie les caractères imprimés sur le papier. Il détermine sa forme en détectant les motifs sombres/clairs. utilise ensuite des méthodes de reconnaissance de caractères pour traduire la forme en texte informatique.

Étapes de base pour la reconnaissance du code de vérification :
1. Prétraitement
2. Binarisation
4.
En bref, le seuil de reconnaissance du code de vérification est élevé et le coût est élevé, c'est donc inévitable
Par exemple, dans l'image ci-dessous, le code de vérification est décalé et se chevauche, ce qui le rend difficile à identifier <.>


左手右手慢动作

Vous pouvez utiliser un service de code de vérification comme le 9eu que j'utilise.

刘奇

Le moyen le plus simple est de retirer le cookie et de l'écrire dans le code, mais le cookie est sensible au temps

大家讲道理

Pour gérer des codes de vérification complexes, la méthode la plus efficace et la plus rapide devrait être de se connecter à la plateforme de codage et de laisser leur traitement manuel.

Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal
À propos de nous Clause de non-responsabilité Sitemap
Site Web PHP chinois:Formation PHP en ligne sur le bien-être public,Aidez les apprenants PHP à grandir rapidement!