オンライン情報を収集し、有用な情報を抽出する便利な方法として、Web クローラー テクノロジーがますます便利になってきています。 Python などの単純なプログラミング言語を使用すると、最小限のプログラミング スキルで複雑な Web サイトをクロールできます。
「Python での Web クローラーの作成」は、Python を使用してネットワーク データをクロールするための優れたガイドです。静的ページからデータをクロールし、キャッシュを使用してサーバーを管理する方法について説明しています。ロードメソッド。さらに、この本では、AJAX URL と Firebug 拡張機能を使用してデータをスクレイピングする方法と、ブラウザーのレンダリングの使用、Cookie の管理、CAPTCHA で保護された複雑な Web サイトからのフォームの送信などのスクレイピング技術に関する詳細について説明します。この本では、Scrapy を使用して高度な Web クローラーを作成し、いくつかの実際の Web サイトをクロールします。
関連する推奨事項: 「python ビデオ チュートリアル 」
「Python での Web クローラーの作成」では、次のコンテンツが紹介されています。 :
リンクに従って Web サイトをクロールします;
lxml を使用してページからデータを抽出します;
スレッド クローラーを構築してページを並行してクロールします;
ダウンロードしたコンテンツをキャッシュして帯域幅の消費を削減します;
JavaScript に依存する Web サイトを解析します;
フォームとセッションを操作します;
保護されたページを解決する 検証コードの問題;
AJAX 呼び出しのリバース エンジニアリング;
Scrapy を使用して高度なクローラーを作成します。
この本は読者を対象としています
この本は、信頼性の高いデータ クローリング ソリューションを構築したい開発者向けに書かれています。この本は、読者が Python についてある程度の知識があることを前提としています。プログラミング経験。もちろん、他のプログラミング言語の開発経験がある読者もこの本を読んで、それに含まれる概念や原則を理解することができます。
著者について · · · · · · ·
リチャード ローソンはオーストラリア出身で、メルボルン大学でコンピューター サイエンスを専攻して卒業しました。卒業後は、Web クローリングを専門とする会社を設立し、50 か国以上の企業にリモートワークを提供しました。彼はエスペラント語に堪能で、中国語と韓国語で会話でき、オープンソース ソフトウェアにも積極的に関わっています。彼は現在、オックスフォード大学で大学院の学位取得を目指して勉強しており、空いた時間を自律型ドローンの開発に費やしています。
目次 · · · · · · · ·
目次
第 1 章 Web クローラーの概要 1
1.1 Web クローラーはどのような場合に便利ですか1
1.2 Web クローラーは合法ですか2
1.3 背景調査3
1.3.1 robots.txt を確認します3
1.3.2 サイト マップを確認する4
1.3.3 Web サイトのサイズを見積もる5
1.3.4 Web サイトで使用されているテクノロジーを特定する7
1.3.5 検索Web サイトの所有者7
1.4 最初の Web クローラーの作成 8
1.4.1 Web ページのダウンロード 9
1.4.2 サイト マップ クローラー 12
1.4。 3 ID トラバーサル クローラー 13
1.4.4 リンク クローラー 15
1.5 この章の概要 22
第 2 章 データ キャプチャ
2.1 Web ページの分析 23
2.2 3 つの Web クローリング方法 26
2.2.1 正規表現 26
2.2.2 美しいスープ 28
2.2 .3 Lxml 30
2.2.4 パフォーマンスの比較 32
2.2.5 結論 35
2.2.6 リンク クローラーのクロール コールバックの追加 35
2.3この章の概要 38
#第 3 章 ダウンロード キャッシュ 39
3.1 リンク クローラーのキャッシュ サポートの追加 393.2 ディスク キャッシュ 423.2. 1. 実装 443.2.2 キャッシュ テスト 463.2.3 ディスク領域の節約 463.2.4 期限切れデータのクリーンアップ 473.2.5 欠点 483.3 データベースのキャッシュ 493.3.1 NoSQL とは 503.3.2 MongoDB のインストール 503.3 .3 MongoDB の概要 503.3.4 MongoDB キャッシュの実装 523.3.5 圧縮 543.3.6 キャッシュ テスト 543.4 概要この章の内容 55
第 4 章 同時ダウンロード 57
4.1 100 万の Web ページ 574.2 シリアル クローラー 604.3マルチスレッド クローラー 604.3.1 スレッドとプロセスの仕組み 614.3.2 実装 614.3.3 マルチプロセス クローラー 634.4 パフォーマンス 674.5 この章の概要 68
第 5 章 動的コンテンツ 69
5.1 動的 Web ページの例 695.2 動的 Web ページのリバース エンジニアリング 725.3 動的 Web ページのレンダリング 775.3.1 PyQt または PySide 785.3.2 JavaScript の実行 785.3.3 WebKit を使用した Web サイトとの対話 805.3.4 Selenium 855.4 この章の概要 88
第 6 章 フォーム対話89
6.1 ログイン フォーム 906.2 コンテンツ更新をサポートするログイン スクリプト拡張機能 976.3 Mechanize モジュールを使用して自動フォーム処理を実装する 1006.4 この章の概要 102第 7 章 検証コードの処理 103
7.1 アカウントの登録 1037.2 光学式文字認識 1067.3 複雑な検証コードの処理 1117.3.1 検証コード処理サービスの使用 1127.3.2 | 9kw エントリ 1127.3.3 登録機能との統合 119
7.4 この章の概要 120
第 8 章 Scrapy 121
8.1 インストール 121
8.2 プロジェクトを開始する 122
8.2.1 モデルを定義する 123
8.2.2 クローラーを作成する 124
8.2.3 シェル コマンドを使用してクロールする 128
8.2.4 結果の確認 129
8.2.5 クローラーの中断と再開 132
8.3 Portia を使用したビジュアル クローラーの作成 133
8.3.1 インストール133
8.3.2 マーキング 136
8.3.3 クローラーの最適化 138
8.3.4 結果の確認 140
8.4 Scrapely を使用した自動クローリングの実現 141
8.5 この章の概要 142
第 9 章の概要 143
9.1 Google 検索エンジン 143
9.2 Facebook 148
9.2.1 Web サイト 148
9.2.2 API 150
9.3 ギャップ 151
9.4 BMW 153
9.5 この章の概要157
以上がPython クローラーはどの本を読むべきですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。