网页爬虫 - Python 爬虫中如何处理验证码?
怪我咯
怪我咯 2017-04-18 10:33:47
0
8
521

最近想用Python写个爬虫去抓取一些东西,但是碰到个问题,就是验证码不知道该如何处理。
现在验证码一般有两种,一种是简单的,比如下面这种纯字符型的:

另外一种就是出来一些特定字符,需要按顺序点击的:

我看有的人说可以获取浏览器cookies写到程序里就直接通过验证了,有的说这个涉及到机器学习方面的东西。由于我个人以前没接触过这方面东西,所以不知道从何处入手,想问下要处理这种验证码的话,一般该如何处理? 有没有这方面合适的书推荐下啊……

怪我咯
怪我咯

走同样的路,发现不同的人生

모든 응답(8)
迷茫

이것 자체는 크롤러 등의 네트워크 프로그램을 방지하기 위해 인증코드 기술을 사용합니다. 인증코드 크래킹에 대해 제가 아는 것은 인공지능 이미지 인식을 사용하는 것 같지만 정확도는 그다지 높지 않습니다.

黄舟

인증 코드 문제의 경우 먼저 Youyoutu와 같은 전문 서비스 제공업체(기계 학습 또는 인공 지능 사용)에서 제공하는 API를 사용할 수 있습니다. 두 번째로 자체 인증 코드 인식 프로그램을 작성하고 프로젝트를 제공할 수 있습니다. 참고: https://github .com/luyishisi/…

迷茫

한 가지 해결 방법은 브라우저에 수동으로 로그인한 다음 쿠키를 추출하고 이를 크롤러 요청에 직접 포함시켜 보내는 것입니다.

PHPzhong

첫 번째 사진은 처리가 쉽고 인증 코드는 사진일 뿐이며 사진 처리(OCR 기술)를 통해 인증 코드를 얻을 수 있습니다.
첫 번째 방법을 사용하면 더 번거롭습니다. 두 번째 방법은 좋은 방법이 없네요. 이 분야에 경험이 있는 분들이 답변해 주시면 좋겠습니다.

Peter_Zhu

인증 코드는 기계와 크롤러에 대응하는 데 사용됩니다. 자동화된 크롤러가 인증 코드를 쉽게 우회할 수 있는 경우에도 인증 코드라고 부를 수 있습니까? 먼저 인증 코드의 메커니즘이 무엇인지 파악해야 합니다. , 그런 다음 살펴보십시오. 당신이 상상했던 것처럼 우회하기가 쉬운가요? 간단히 말해서, 다른 웹 사이트의 인증 코드 구현에 허점이 없으면 인증 코드 메커니즘을 우회할 수 없습니다. 이를 해결하기 위해 OCR(Optical Character Recognition)과 같은 코드 기술이 사용됩니다. OCR은 종이에 인쇄된 문자를 확인하여 어둡거나 밝은 패턴을 감지하는 전자 장치(예: 스캐너)를 말합니다. 그런 다음 문자 인식 방법을 사용하여 모양을 컴퓨터 텍스트로 변환합니다.

인증 코드 인식을 위한 기본 단계:
2. 그레이스케일
3. 노이즈 제거
6.
간단히 말하면 인증코드 인식 문턱이 높고 비용도 많이 들기 때문에 어쩔 수 없습니다.
예를 들어 아래 사진에서는 인증코드가 엇갈리고 겹쳐서 식별이 어렵습니다. 🎜>


左手右手慢动作

제가 사용하고 있는 9eu와 같은 인증코드 서비스를 이용하시면 됩니다.

刘奇

가장 쉬운 방법은 쿠키를 꺼내서 코드에 적는 것인데, 쿠키는 시간에 민감합니다

大家讲道理

복잡한 인증코드를 처리하려면 코딩 플랫폼에 연결하여 수동으로 처리하는 것이 더 효율적이고 시간을 절약하는 방법이어야 합니다.

최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿