网页爬虫 - Python 爬虫中如何处理验证码?
怪我咯
怪我咯 2017-04-18 10:33:47
0
8
523

最近想用Python写个爬虫去抓取一些东西,但是碰到个问题,就是验证码不知道该如何处理。
现在验证码一般有两种,一种是简单的,比如下面这种纯字符型的:

另外一种就是出来一些特定字符,需要按顺序点击的:

我看有的人说可以获取浏览器cookies写到程序里就直接通过验证了,有的说这个涉及到机器学习方面的东西。由于我个人以前没接触过这方面东西,所以不知道从何处入手,想问下要处理这种验证码的话,一般该如何处理? 有没有这方面合适的书推荐下啊……

怪我咯
怪我咯

走同样的路,发现不同的人生

membalas semua(8)
迷茫

Ini sendiri menggunakan teknologi kod pengesahan untuk menghalang program rangkaian seperti perangkak Apa yang saya tahu tentang memecahkan kod pengesahan ialah menggunakan pengecaman imej kecerdasan buatan Nampaknya terdapat fungsi yang serupa, tetapi ketepatannya tidak begitu tinggi

黄舟

Untuk isu kod pengesahan, pertama, anda boleh beralih kepada API yang disediakan oleh penyedia perkhidmatan profesional (mereka menggunakan pembelajaran mesin atau kecerdasan buatan), seperti Youyoutu, kedua, anda boleh menulis program pengecaman kod pengesahan anda sendiri dan menyediakan projek untuk rujukan: https://github .com/luyishisi/…

迷茫

Satu penyelesaian adalah dengan log masuk secara manual ke penyemak imbas dan kemudian mengekstrak kuki dan terus memasukkannya ke dalam permintaan dalam perangkak dan menghantarnya keluar.

PHPzhong

Gambar satu mudah diproses, kod pengesahan hanyalah gambar, dan kod pengesahan boleh diperolehi melalui pemprosesan gambar (teknologi ocr
Gambar dua lebih menyusahkan nombor akan ditindih pada teks, lebih sukar untuk mendapatkan kandungan imej. Saya tidak mempunyai kaedah yang baik untuk kaedah kedua. Saya harap pelajar yang berpengalaman dalam bidang ini dapat membantu menjawabnya

Peter_Zhu

Kod pengesahan digunakan untuk mengatasi mesin dan perangkak Jika kod pengesahan boleh dipintas dengan mudah oleh perangkak automatik anda, adakah ia masih boleh dipanggil kod pengesahan dahulu? , dan kemudian lihat. Adakah ia semudah memintas seperti yang anda bayangkan, melainkan terdapat kelemahan dalam pelaksanaan kod pengesahan tapak web lain, anda tidak boleh memintas mekanisme kod pengesahan kod, seperti teknologi OCR (Optical Character Recognition) ) digunakan untuk menyelesaikan masalah ini OCR merujuk kepada peranti elektronik (seperti pengimbas) yang menyemak aksara yang dicetak pada kertas Ia menentukan bentuknya dengan mengesan corak gelap/cahaya kemudian menggunakan kaedah pengecaman aksara untuk menterjemah bentuk ke dalam teks komputer.

Langkah asas untuk pengecaman kod pengesahan:
1 Prapemprosesan
2. Perduaan
5
Ringkasnya, ambang pengecaman kod pengesahan adalah tinggi dan kosnya tinggi, jadi ia tidak dapat dielakkan
Contohnya, dalam gambar di bawah, kod pengesahan berperingkat dan bertindih, menjadikannya sukar untuk dikenal pasti


左手右手慢动作

Anda boleh menggunakan perkhidmatan kod pengesahan seperti 9eu yang saya gunakan.

刘奇

Cara paling mudah ialah mengeluarkan kuki dan menulisnya dalam kod, tetapi kuki itu sensitif masa

大家讲道理

Untuk menangani kod pengesahan yang kompleks, kaedah yang lebih cekap dan menjimatkan masa adalah dengan menyambung ke platform pengekodan dan membiarkan pemprosesan manualnya.

Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan