Python クローラーはどの本を読むべきですか?-Python チュートリアル-php.cn

Python クローラーはどの本を読むべきですか?

爱喝马黛茶的安东尼

リリース： 2019-06-20 09:28:00

オリジナル

4961 人が閲覧しました

オンライン情報を収集し、有用な情報を抽出する便利な方法として、Web クローラーテクノロジーがますます便利になってきています。 Python などの単純なプログラミング言語を使用すると、最小限のプログラミングスキルで複雑な Web サイトをクロールできます。

Python クローラーはどの本を読むべきですか?

「Python での Web クローラーの作成」は、Python を使用してネットワークデータをクロールするための優れたガイドです。静的ページからデータをクロールし、キャッシュを使用してサーバーを管理する方法について説明しています。ロードメソッド。さらに、この本では、AJAX URL と Firebug 拡張機能を使用してデータをスクレイピングする方法と、ブラウザーのレンダリングの使用、Cookie の管理、CAPTCHA で保護された複雑な Web サイトからのフォームの送信などのスクレイピング技術に関する詳細について説明します。この本では、Scrapy を使用して高度な Web クローラーを作成し、いくつかの実際の Web サイトをクロールします。

関連する推奨事項: 「python ビデオチュートリアル」

Python クローラーはどの本を読むべきですか?

「Python での Web クローラーの作成」では、次のコンテンツが紹介されています。 :

リンクに従って Web サイトをクロールします;

lxml を使用してページからデータを抽出します;

スレッドクローラーを構築してページを並行してクロールします;

ダウンロードしたコンテンツをキャッシュして帯域幅の消費を削減します;

JavaScript に依存する Web サイトを解析します;

フォームとセッションを操作します;

保護されたページを解決する検証コードの問題;

AJAX 呼び出しのリバースエンジニアリング;

Scrapy を使用して高度なクローラーを作成します。

この本は読者を対象としています

この本は、信頼性の高いデータクローリングソリューションを構築したい開発者向けに書かれています。この本は、読者が Python についてある程度の知識があることを前提としています。プログラミング経験。もちろん、他のプログラミング言語の開発経験がある読者もこの本を読んで、それに含まれる概念や原則を理解することができます。

著者について · · · · · · ·

リチャードローソンはオーストラリア出身で、メルボルン大学でコンピューターサイエンスを専攻して卒業しました。卒業後は、Web クローリングを専門とする会社を設立し、50 か国以上の企業にリモートワークを提供しました。彼はエスペラント語に堪能で、中国語と韓国語で会話でき、オープンソースソフトウェアにも積極的に関わっています。彼は現在、オックスフォード大学で大学院の学位取得を目指して勉強しており、空いた時間を自律型ドローンの開発に費やしています。

目次 · · · · · · · ·

第 1 章 Web クローラーの概要 1

1.1 Web クローラーはどのような場合に便利ですか1

1.2 Web クローラーは合法ですか2

1.3 背景調査3

1.3.1 robots.txt を確認します3

1.3.2 サイトマップを確認する4

1.3.3 Web サイトのサイズを見積もる5

1.3.4 Web サイトで使用されているテクノロジーを特定する7

1.3.5 検索Web サイトの所有者7

1.4 最初の Web クローラーの作成 8

1.4.1 Web ページのダウンロード 9