Python を使用してステーション B のビデオ情報全体をクロールします。

王林
リリース: 2024-02-19 23:45:35
転載
670 人が閲覧しました

ステーション B については皆さんよくご存知だと思います。実際、ステーション B のクローラー Web サイトには多くの検索結果があります。ただ、紙で読んだことは所詮浅くて、詳しくやらなければいけないことは確かに分かっているのでここにいます。最終的に、クロールされたデータの総量は 760 万 アイテムでした。

######準備######

まずステーション B を開き、ホームページでビデオを見つけてクリックします。通常の操作を行うには、開発者ツールを開きます。今回の目的は、Web ページを解析せずにステーション B が提供する API をクローリングしてビデオ情報を取得することですが、Web ページの解析速度が遅すぎて、IP アドレスがブロックされやすくなります。 JS オプションをチェックし、F5 キーを押して更新します

API アドレスが見つかりました

Python を使用してステーション B のビデオ情報全体をクロールします。

それをコピーし、不要なコンテンツを削除して、https://api.bilibili.com/x/web-interface/archive/stat?aid=15906633

Python を使用してステーション B のビデオ情報全体をクロールします。 を取得し、ブラウザで開くと、次のjsonデータを取得します

実践的なコーディングPython を使用してステーション B のビデオ情報全体をクロールします。

わかりました。コードはここにコーディングできます。データはリクエストの継続的な反復を通じて取得されます。クローラをより効率的にするために、マルチスレッドを使用できます。

コアコード

反復クロールPython を使用してステーション B のビデオ情報全体をクロールします。

プロジェクト全体の中で最も重要な部分は約 20 行のコードであり、非常に簡潔です。

Python を使用してステーション B のビデオ情報全体をクロールします。実行効果はおおよそ次のようになります。数字はクロールされたリンクの数です。実際には、サイト全体の情報は 1 ~ 2 日でクロールできます。

クロール後の処理は好みによりますが、まずはcsvファイルで保存し、それをまとめてデータベースに挿入します。

Python を使用してステーション B のビデオ情報全体をクロールします。

データベーステーブル

このコンテンツを数か月前にクロールして以来、データは実際に遅れています。

Python を使用してステーション B のビデオ情報全体をクロールします。

データの総量

トップ 10 のビデオをクエリするPython を使用してステーション B のビデオ情報全体をクロールします。

返信が多かったトップ 10 の動画をチェックしてくださいPython を使用してステーション B のビデオ情報全体をクロールします。

以上がPython を使用してステーション B のビデオ情報全体をクロールします。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ソース:linuxprobe.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート