python菜鸟 想做一个简单的爬虫 求教程
PHP中文网
PHP中文网 2017-04-17 14:27:26
0
21
1352

python菜鸟 想做一个简单的爬虫 求教程 ps:一般公司做爬虫采集的话常用什么语言

PHP中文网
PHP中文网

认证0级讲师

全員に返信(21)
Ty80
  • クロールコンテンツ、通常は HTTP リクエスト、リクエスト 1
  • クロールダウンした Web ページでは、必要な情報を取得するために文字列処理が行われます。 beautifulsoup、正規表現、str.find() はすべて使用可能です

一般的な Web ページの場合は、上記の 2 点だけで十分です。Ajax リクエストを含む Web サイトでは、必要なコンテンツをクロールできない場合があります。その API を見つけた方が便利かもしれません。

いいねを押す +0
小葫芦

私が過去に勉強していたときにまとめたチュートリアル:

Python クローラー チュートリアル

いいねを押す +0
小葫芦

題名に使用できるスクレイピングスクリプトを投稿するだけです。目的は、Douban ID と現在公開されている映画のタイトルを取得することです。スクリプトは Beautifulsoup ライブラリに依存しており、インストールする必要があります。中国語のドキュメント

補足: 対象者がサイトをクロールしたり、指定したページのクロールをカスタマイズしたりできる実際のクローラー プログラムを構築したい場合は、scrapy を勉強することをお勧めします

Python サンプル コードを取得します:

リーリー
いいねを押す +0
巴扎黑

フレームワークを必要としない単純なものについては、request と beautifulsoup ライブラリを確認してください。Python 構文に慣れている場合は、これら 2 つを読めば、簡単なクローラーをほぼ作成できるようになります。


一般的に、企業はクローラーを使用しています。私が見た企業では主に Java または Python が使用されています。

いいねを押す +0
大家讲道理

Baidu 検索 Python クローラー

いいねを押す +0
小葫芦

最も単純な実用的なフレームワークを備えたシンプルなクローラーです。インターネット上の紹介記事をご覧ください。
スクレイピーをおすすめします

いいねを押す +0
Ty80

Python で簡単なクローラーを作成する方法に関する記事はインターネット上に確かにたくさんありますが、これらの記事のほとんどは例としてのみ見なすことができ、実際に適用できるものはまだほとんどありません。クローラーとは、コンテンツを取得し、分析し、保存することだと思います。初めての方は、Google で検索してみてください。より詳細な調査を行いたい場合は、Github でコードを探して確認してください。

私自身、Python については少ししか知りませんが、お役に立てれば幸いです。

いいねを押す +0
刘奇

私のスクラップ情報をご覧ください

いいねを押す +0
Peter_Zhu

Scrapy は時間を大幅に節約します
github には多くの例があります

いいねを押す +0
迷茫

Tmall に登るためのコードを投稿してください:

リーリー
いいねを押す +0
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート