#インターネットの急速な発展により、ますます多くのデータがこの時代に溢れています。データの取得と処理は私たちの生活に欠かせないものとなり、時代の要請に応じてクローラーも登場しました。
多くの言語でクロールできますが、python に基づくクローラーはより簡潔で便利です。 クローラーも Python 言語に不可欠な部分になっています。 それでは、クローラーを通じてどのようなデータを取得できるのでしょうか?どのような分析手法があるのでしょうか?
前回の記事では、リクエストとレスポンスの基本的なプロセスを紹介しました。 この記事では、クローラーが取得できるデータの種類とその具体的な分析方法について説明します。
#
どのような種類のデータを取得できますか?
Webページのテキスト:HTML文書、Ajaxなどで読み込んだJson形式のテキストなど;
写真、動画など:取得したバイナリファイルが保存されます画像またはビデオとしてフォーマット;
その他リクエストできるものは何でも取得できます。
デモ
import requests headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'} resp = requests.get('http://www.baidu.com/img/baidu_jgylogo3.gif',headers=headers) print(resp.content) # 二进制文件使用content # 保存图片 with open('logo.gif','wb') as f: f.write(resp.content) print('Ok')
操作が成功すると、印刷されたイメージのバイナリ データが表示され、印刷されたイメージを保存できます。成功したらOKです。この時点で、フォルダーを開くとダウンロードされた写真が表示されます。これらの数行のコードは、クローラーがファイルを保存するプロセスを示しているだけです。
解析方法にはどのようなものがありますか?
単純なページ ドキュメントなどの直接処理では、一部のスペース データを削除するだけです。
Json の解析と Ajax の処理ロードされたページ;
正規表現;
BeautifulSoup ライブラリ;
PyQuery;
Xパス。
##概要
これを見てください。クローラーの基本的な動作原理をすでに明確に理解していますか?もちろん、ローマは一日にして成らず、経験を積めば必ず爬虫類マスターになれます。私が共有した関連情報を読めば、誰もが成功できると信じています。
以上がクローラーではどのようなデータが取得でき、具体的な分析方法は何ですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。