python爬蟲程式碼範例的方法:首先取得瀏覽器信息,並使用urlencode產生post資料;然後安裝pymysql,並儲存資料到MySQL即可。
python爬蟲程式碼範例的方法:
1、urllib和BeautifuSoup
#取得瀏覽器資訊
from urllib import request req = request.urlopen("http://www.baidu.com") print(req.read().decode("utf-8"))
模擬真實瀏覽器:攜帶user-Agent頭
(目的是不讓伺服器認為是爬蟲,若不帶此瀏覽器訊息,則可能會報錯)
req = request.Request(url) #此处url为某个网址 req.add_header(key,value) #key即user-Agent,value即浏览器的版本信息 resp = request.urlopen(req) print(resp.read().decode("utf-8"))
相關學習推薦:python影片教學
使用POST
匯入urllib庫下面的parse
from urllib import parse
使用urlencode產生post資料
postData = parse.urlencode([ (key1,val1), (key2,val2), (keyn,valn) ])
使用post
request.urlopen(req,data=postData.encode("utf-8")) #使用postData发送post请求 resp.status #得到请求状态 resp.reason #得到服务器的类型
完整程式碼範例(以爬取維基百科首頁連結為例)
#-*- coding:utf-8 -*- from bs4 import BeautifulSoup as bs from urllib.request import urlopen import re import ssl #获取维基百科词条信息 ssl._create_default_https_context = ssl._create_unverified_context #全局取消证书验证 #请求URL,并把结果用utf-8编码 req = urlopen("https://en.wikipedia.org/wiki/Main page").read().decode("utf-8") #使用beautifulsoup去解析 soup = bs(req,"html.parser") # print(soup) #获取所有href属性以“/wiki/Special”开头的a标签 urllist = soup.findAll("a",href=re.compile("^/wiki/Special")) for url in urllist: #去除以.jpg或.JPG结尾的链接 if not re.search("\.(jpg|JPG)$",url["href"]): #get_test()输出标签下的所有内容,包括子标签的内容; #string只输出一个内容,若该标签有子标签则输出“none print(url.get_text()+"----->"+url["href"]) # print(url)
2、儲存資料到MySQL
安裝pymysql
透過pip安裝:
$ pip install pymysql
或透過安裝檔:
$ python setup.py install
使用
#引入开发包 import pymysql.cursors #获取数据库链接 connection = pymysql.connect(host="localhost", user = 'root', password = '123456', db ='wikiurl', charset = 'utf8mb4') try: #获取会话指针 with connection.cursor() as cursor #创建sql语句 sql = "insert into `tableName`(`urlname`,`urlhref`) values(%s,%s)" #执行SQL语句 cursor.execute(sql,(url.get_text(),"https://en.wikipedia.org"+url["href"])) #提交 connection.commit() finally: #关闭 connection.close()
3、爬蟲注意事項
Robots協議(機器人協議,也稱為爬蟲協議)全名為“網路爬蟲排除協議”,網站透過Robots協議告訴搜尋引擎哪些頁面可以抓取,哪些頁面不可以抓取。一般在主頁下,如https://en.wikipedia.org/robots.txt
Disallow:不允许访问 allow:允许访问
#相關推薦:程式設計影片課程
以上是python如何範例爬蟲程式碼的詳細內容。更多資訊請關注PHP中文網其他相關文章!