网页爬虫 - python requests库模拟登陆学校教务网遇到数据库繁忙

Question

第一次写爬虫也是第一次在SF提问题=。=思路就是get登陆下网址获得一个cookie然后带着cookie以post方式登陆headers伪造和浏览器一模一样服务器总是返回一个数据库繁忙的界面，找了很久也不知道原因在哪 {代码...} ...

天蓬老师 · Answer

リーリー

上記のコードはデータを取得できます
基本的な考え方は次のとおりです
GET が検証コードを取得すると、サーバーは Cookie を返します
この Cookie を取得してフォームを POST するだけです
私はただ最近たまたま学校名を書いたところ、このウェブサイトのクローラーは多くの問題に遭遇し、解決しました
これは私たちの学校のものよりも簡単です...

黄舟 · Answer

あなたの学校の学業管理システムは本当に...
オーナー、クローラーとして働くときは我慢しなければなりません。今日は何もすることがないので、以下を見てもらいました。正常にリクエストできるコード。常に呼び出しに失敗するインターフェイスの場合は、キーデータが正しいかどうかを最初に検討する必要があります。実際に正しいにもかかわらず、依然として奇妙なエラーが返される場合は、ブラウザでデバッグすることで確認できます。 , POST リクエストデータには他にもいくつかの空のフィールドがあります。もちろん、これらはバックグラウンド判定にとっては意味がないかもしれませんが、すべてが意味がないというわけではないので、エラーが発生した場合は追加する必要があります。もちろん、データ内のフィールドが正しいか間違っている場合は、HTTP ヘッダーの情報を考慮する必要があります。主な情報は、Origin、Referer、および User-Agent です。それでも機能しない場合は、次のことが考えられます。以下のように、Cookie フィールドの情報が追加されていません。フィールドを追加した後、最終的に Cookie の問題であることがわかりました。リーリー

現時点では、データベースはビジー状態ではありませんが、確認コードエラーが発生した後にページがリダイレクトされます。

最後に、クロールには特に忍耐が必要です。クロール対策戦略を採用しているサイトの場合は特にそうです。

巴扎黑 · Answer

注意喚起、あなたのアカウントのパスワードが公開されました。

高洛峰 · Answer

はは、このアカウントを使用してログインした人はいますか?

PHPz · Answer

モザイク処理はありません。