Python クローラーはどの本を読むべきですか?

爱喝马黛茶的安东尼
リリース: 2019-06-20 09:28:00
オリジナル
4844 人が閲覧しました

オンライン情報を収集し、有用な情報を抽出する便利な方法として、Web クローラー テクノロジーがますます便利になってきています。 Python などの単純なプログラミング言語を使用すると、最小限のプログラミング スキルで複雑な Web サイトをクロールできます。

Python クローラーはどの本を読むべきですか?

「Python での Web クローラーの作成」は、Python を使用してネットワーク データをクロールするための優れたガイドです。静的ページからデータをクロールし、キャッシュを使用してサーバーを管理する方法について説明しています。ロードメソッド。さらに、この本では、AJAX URL と Firebug 拡張機能を使用してデータをスクレイピングする方法と、ブラウザーのレンダリングの使用、Cookie の管理、CAPTCHA で保護された複雑な Web サイトからのフォームの送信などのスクレイピング技術に関する詳細について説明します。この本では、Scrapy を使用して高度な Web クローラーを作成し、いくつかの実際の Web サイトをクロールします。

関連する推奨事項: 「python ビデオ チュートリアル

Python クローラーはどの本を読むべきですか?

「Python での Web クローラーの作成」では、次のコンテンツが紹介されています。 :

リンクに従って Web サイトをクロールします;

lxml を使用してページからデータを抽出します;

スレッド クローラーを構築してページを並行してクロールします;

ダウンロードしたコンテンツをキャッシュして帯域幅の消費を削減します;

JavaScript に依存する Web サイトを解析します;

フォームとセッションを操作します;

保護されたページを解決する 検証コードの問題;

AJAX 呼び出しのリバース エンジニアリング;

Scrapy を使用して高度なクローラーを作成します。

この本は読者を対象としています

この本は、信頼性の高いデータ クローリング ソリューションを構築したい開発者向けに書かれています。この本は、読者が Python についてある程度の知識があることを前提としています。プログラミング経験。もちろん、他のプログラミング言語の開発経験がある読者もこの本を読んで、それに含まれる概念や原則を理解することができます。

著者について · · · · · · ·

リチャード ローソンはオーストラリア出身で、メルボルン大学でコンピューター サイエンスを専攻して卒業しました。卒業後は、Web クローリングを専門とする会社を設立し、50 か国以上の企業にリモートワークを提供しました。彼はエスペラント語に堪能で、中国語と韓国語で会話でき、オープンソース ソフトウェアにも積極的に関わっています。彼は現在、オックスフォード大学で大学院の学位取得を目指して勉強しており、空いた時間を自律型ドローンの開発に費やしています。

目次 · · · · · · · ·

目次

第 1 章 Web クローラーの概要 1

1.1 Web クローラーはどのような場合に便利ですか1

1.2 Web クローラーは合法ですか2

1.3 背景調査3

1.3.1 robots.txt を確認します3

1.3.2 サイト マップを確認する4

1.3.3 Web サイトのサイズを見積もる5

1.3.4 Web サイトで使用されているテクノロジーを特定する7

1.3.5 検索Web サイトの所有者7

1.4 最初の Web クローラーの作成 8

1.4.1 Web ページのダウンロード 9

1.4.2 サイト マップ クローラー 12

1.4。 3 ID トラバーサル クローラー 13

1.4.4 リンク クローラー 15

1.5 この章の概要 22

第 2 章 データ キャプチャ

2.1 Web ページの分析 23

2.2 3 つの Web クローリング方法 26

2.2.1 正規表現 26

2.2.2 美しいスープ 28

2.2 .3 Lxml 30

2.2.4 パフォーマンスの比較 32

2.2.5 結論 35

2.2.6 リンク クローラーのクロール コールバックの追加 35

2.3この章の概要 38

#第 3 章 ダウンロード キャッシュ 39

3.1 リンク クローラーのキャッシュ サポートの追加 39

3.2 ディスク キャッシュ 42

3.2. 1. 実装 44

3.2.2 キャッシュ テスト 46

3.2.3 ディスク領域の節約 46

3.2.4 期限切れデータのクリーンアップ 47

3.2.5 欠点 48

3.3 データベースのキャッシュ 49

3.3.1 NoSQL とは 50

3.3.2 MongoDB のインストール 50

3.3 .3 MongoDB の概要 50

3.3.4 MongoDB キャッシュの実装 52

3.3.5 圧縮 54

3.3.6 キャッシュ テスト 54

3.4 概要この章の内容 55

第 4 章 同時ダウンロード 57

4.1 100 万の Web ページ 57

4.2 シリアル クローラー 60

4.3マルチスレッド クローラー 60

4.3.1 スレッドとプロセスの仕組み 61

4.3.2 実装 61

4.3.3 マルチプロセス クローラー 63

4.4 パフォーマンス 67

4.5 この章の概要 68

第 5 章 動的コンテンツ 69

5.1 動的 Web ページの例 69

5.2 動的 Web ページのリバース エンジニアリング 72

5.3 動的 Web ページのレンダリング 77

5.3.1 PyQt または PySide 78

5.3.2 JavaScript の実行 78

5.3.3 WebKit を使用した Web サイトとの対話 80

5.3.4 Selenium 85

5.4 この章の概要 88

第 6 章 フォーム対話89

6.1 ログイン フォーム 90

6.2 コンテンツ更新をサポートするログイン スクリプト拡張機能 97

6.3 Mechanize モジュールを使用して自動フォーム処理を実装する 100

6.4 この章の概要 102

第 7 章 検証コードの処理 103

7.1 アカウントの登録 103

7.2 光学式文字認識 106

7.3 複雑な検証コードの処理 111

7.3.1 検証コード処理サービスの使用 112

7.3.2 | 9kw エントリ 112

7.3.3 登録機能との統合 119

7.4 この章の概要 120

第 8 章 Scrapy 121

8.1 インストール 121

8.2 プロジェクトを開始する 122

8.2.1 モデルを定義する 123

8.2.2 クローラーを作成する 124

8.2.3 シェル コマンドを使用してクロールする 128

8.2.4 結果の確認 129

8.2.5 クローラーの中断と再開 132

8.3 Portia を使用したビジュアル クローラーの作成 133

8.3.1 インストール133

8.3.2 マーキング 136

8.3.3 クローラーの最適化 138

8.3.4 結果の確認 140

8.4 Scrapely を使用した自動クローリングの実現 141

8.5 この章の概要 142

第 9 章の概要 143

9.1 Google 検索エンジン 143

9.2 Facebook 148

9.2.1 Web サイト 148

9.2.2 API 150

9.3 ギャップ 151

9.4 BMW 153

9.5 この章の概要157

以上がPython クローラーはどの本を読むべきですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート
私たちについて 免責事項 Sitemap
PHP中国語ウェブサイト:福祉オンライン PHP トレーニング,PHP 学習者の迅速な成長を支援します!