Python でクローラコードのサンプルを作成する方法-Python チュートリアル-php.cn

Python でクローラコードのサンプルを作成する方法

coldplay.xixi

リリース： 2020-08-11 13:58:52

オリジナル

9784 人が閲覧しました

Python クローラーコード例の方法: まずブラウザー情報を取得し、urlencode を使用して投稿データを生成し、次に pymysql をインストールし、データを MySQL に保存します。

Python でクローラコードのサンプルを作成する方法

#Python クローラーコードのサンプルメソッド:

#1、urllib および BeautifuluSoup

ブラウザ情報を取得します

from urllib import request
req = request.urlopen("http://www.baidu.com")
print(req.read().decode("utf-8"))

ログイン後にコピー

実際のブラウザをシミュレートします: user-Agent ヘッダーを保持します

(目的は、サーバーがクローラであると認識しないようにすることです。このブラウザ情報がそうでない場合は、

req = request.Request(url) #此处url为某个网址
req.add_header(key,value)  #key即user-Agent，value即浏览器的版本信息
resp = request.urlopen(req)
print(resp.read().decode("utf-8"))

ログイン後にコピー

関連学習の推奨事項:
Python ビデオチュートリアル

POST

を使用して、 urllib ライブラリの下に解析をインポートします

from urllib import parse

ログイン後にコピー

urlencode を使用して投稿データを生成します

postData = parse.urlencode([
    (key1,val1),
    (key2,val2),
    (keyn,valn)
])

ログイン後にコピー

post を使用します

request.urlopen(req,data=postData.encode("utf-8")) #使用postData发送post请求
resp.status  #得到请求状态
resp.reason #得到服务器的类型

ログイン後にコピー

完全なコード例 (例として Wikipedia ホームページリンクをクロールします)

#-*- coding:utf-8 -*-
from bs4 import BeautifulSoup as bs
from urllib.request import urlopen 
import re
import ssl
#获取维基百科词条信息
ssl._create_default_https_context = ssl._create_unverified_context #全局取消证书验证
#请求URL，并把结果用utf-8编码
req = urlopen("https://en.wikipedia.org/wiki/Main page").read().decode("utf-8")
#使用beautifulsoup去解析
soup = bs(req,"html.parser")
# print(soup)
#获取所有href属性以“/wiki/Special”开头的a标签
urllist = soup.findAll("a",href=re.compile("^/wiki/Special"))
for url in urllist:
#去除以.jpg或.JPG结尾的链接
if not re.search("\.(jpg|JPG)$",url["href"]):
#get_test()输出标签下的所有内容，包括子标签的内容；
#string只输出一个内容，若该标签有子标签则输出“none
print(url.get_text()+"----->"+url["href"])
# print(url)

ログイン後にコピー

2. MySQL にデータを保存します

pymysql

pip 経由でインストールします:

$ pip install pymysql

ログイン後にコピー

またはファイルをインストールします:

$ python setup.py install

ログイン後にコピー

Use

#引入开发包
import pymysql.cursors
#获取数据库链接
connection = pymysql.connect(host="localhost",
user = &#39;root&#39;,
password = &#39;123456&#39;,
db =&#39;wikiurl&#39;,
charset = &#39;utf8mb4&#39;)
try:
#获取会话指针
with connection.cursor() as cursor
#创建sql语句
sql = "insert into `tableName`(`urlname`,`urlhref`) values(%s,%s)"
#执行SQL语句
cursor.execute(sql,(url.get_text(),"https://en.wikipedia.org"+url["href"]))
#提交
connection.commit()
finally:
#关闭
connection.close()

ログイン後にコピー

3. クローラーに関する注意事項

Robots プロトコル (ロボットプロトコル、クローラープロトコルとも呼ばれる) の正式名は、「Web クローラー除外プロトコル」。Web サイトは、ロボットプロトコルを通じて、どのページがクロール可能でどのページがクロールできないかを検索エンジンに伝えます。通常、https://en.wikipedia.org/robots.txt

Disallow：不允许访问
allow：允许访问

ログイン後にコピー

などのメインページの下にあります。関連する推奨事項:
プログラミングビデオコース

以上がPython でクローラコードのサンプルを作成する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

Python でクローラ コードのサンプルを作成する方法

Python でクローラコードのサンプルを作成する方法