python菜鸟想做一个简单的爬虫求教程

Question

python菜鸟 想做一个简单的爬虫 求教程 ps:一般公司做爬虫采集的话常用什么语言

PHP中文网 · Answer

クロールコンテンツ、通常は HTTP リクエスト、リクエスト 1
クロールダウンした Web ページでは、必要な情報を取得するために文字列処理が行われます。 beautifulsoup、正規表現、str.find() はすべて使用可能です

一般的な Web ページの場合は、上記の 2 点だけで十分です。Ajax リクエストを含む Web サイトでは、必要なコンテンツをクロールできない場合があります。その API を見つけた方が便利かもしれません。

高洛峰 · Answer

私が過去に勉強していたときにまとめたチュートリアル:

Python クローラーチュートリアル

高洛峰 · Answer

題名に使用できるスクレイピングスクリプトを投稿するだけです。目的は、Douban ID と現在公開されている映画のタイトルを取得することです。スクリプトは Beautifulsoup ライブラリに依存しており、インストールする必要があります。中国語のドキュメント

補足: 対象者がサイトをクロールしたり、指定したページのクロールをカスタマイズしたりできる実際のクローラープログラムを構築したい場合は、scrapy を勉強することをお勧めします

Python サンプルコードを取得します:

リーリー

巴扎黑 · Answer

フレームワークを必要としない単純なものについては、request と beautifulsoup ライブラリを確認してください。Python 構文に慣れている場合は、これら 2 つを読めば、簡単なクローラーをほぼ作成できるようになります。

一般的に、企業はクローラーを使用しています。私が見た企業では主に Java または Python が使用されています。

大家讲道理 · Answer

Baidu 検索 Python クローラー

高洛峰 · Answer

最も単純な実用的なフレームワークを備えたシンプルなクローラーです。インターネット上の紹介記事をご覧ください。
スクレイピーをおすすめします

PHP中文网 · Answer

Python で簡単なクローラーを作成する方法に関する記事はインターネット上に確かにたくさんありますが、これらの記事のほとんどは例としてのみ見なすことができ、実際に適用できるものはまだほとんどありません。クローラーとは、コンテンツを取得し、分析し、保存することだと思います。初めての方は、Google で検索してみてください。より詳細な調査を行いたい場合は、Github でコードを探して確認してください。

私自身、Python については少ししか知りませんが、お役に立てれば幸いです。