Python クローラーはどのモジュールを呼び出す必要がありますか?-Python チュートリアル-php.cn

Python クローラーはどのモジュールを呼び出す必要がありますか?

尚

リリース： 2019-12-28 11:40:58

オリジナル

4224 人が閲覧しました

Python クローラーはどのモジュールを呼び出す必要がありますか?

一般的に使用される Python クローラーモジュール:

関連する推奨事項: Python クローラーライブラリと関連ツール

Python 標準ライブラリ ——urllib モジュール

機能: URL と http プロトコルを開く

注: Python 3.x の urllib ライブラリと urilib2 ライブラリは、urllib ライブラリにマージされました。このうち、urllib2.urlopen() は urllib.request.urlopen() になり、urllib2.Request() は urllib.request.Request() になります

urllib リクエストは Web ページ

urllib を返します。 request.urlopen

urllib.request.open(url[,data,[timeout,[cafile,[capth[,cadefault,[context]]]]]])

ログイン後にコピー

urllib.requset.urlioen は、HTTP (メイン)、HTTPS、FTP、プロトコル URL

ca 認証

データを開くことができます投稿モードで URL を送信します # を使用します

##ネットワークアドレスを送信するための URL (フロントエンド全体にはプロトコル名が必要で、バックエンドにはポート http://192.168.1.1:80 が必要です)

timeout タイムアウト設定

##関数はオブジェクトを返します。追加のメソッドが 3 つあります。

geturl() は応答の URL 情報を返します。

URL リダイレクトでよく使用されます。 info() は応答の基本情報を返します。

getcode() は応答ステータスコードを返します

例:

#coding:utf-8
import urllib.request
import time
import platform


#清屏函数(无关紧要 可以不写)
def clear():
    print(u"内容过多 3秒后清屏")
    time.sleep(3)
    OS = platform.system()
    if (OS == u&#39;Windows&#39;):
        os.system(&#39;cls&#39;)
    else:
        os.system(&#39;clear&#39;)
#访问函数
def linkbaidu():
    url = &#39;http://www.baidu.com&#39;
    try:
        response = urllib.request.urlopen(url,timeout=3)
    except urllib.URLError:
        print(u&#39;网络地址错误&#39;)
        exit()
    with open(&#39;/home/ifeng/PycharmProjects/pachong/study/baidu.txt&#39;,&#39;w&#39;) as fp:
        response = urllib.request.urlopen(url,timeout=3)
        fp.write(response.read())
    print(u&#39;获取url信息，response.geturl()\n:%s&#39;%response.getrul())
    print(u&#39;获取返回代码，response.getcode()\n:%s&#39; % response.getcode())
    print(u&#39;获取返回信息，response.info()\n:%s&#39; % response.info())
    print(u"获取的网页信息经存与baidu.txt")


if __name__ ==&#39;main&#39;:
    linkbaidu()

ログイン後にコピー

Python 標準ライブラリ – ロギングモジュール

ロギングモジュールは、次の関数を置き換えることができます。 print 関数を実行し、標準をログファイルに出力します。それを保存し、loggin モジュールを使用してデバッグ

re モジュール

正規表現

## を部分的に置き換えます。

#sys モジュール

システム関連モジュール

sys.argv (すべてのコマンドラインを含むリストを返します)

sys.exit (プログラムを終了します)

Scrapy フレームワーク

urllib と re を一緒に使うのは時代遅れすぎます。今の主流は Scrapy フレームワークです。