파이썬 크롤러 코드 예제 사용 방법: 먼저 브라우저 정보를 얻고 urlencode를 사용하여 게시 데이터를 생성한 다음 pymysql을 설치하고 데이터를 MySQL에 저장합니다.
Python 크롤러 코드 예제에 대한 방법:
1, urllib 및 BeautifulfuSoup
브라우저 정보 가져오기
1 2 3 | from urllib import request
req = request.urlopen( "http://www.baidu.com" )
print (req.read().decode( "utf-8" ))
|
로그인 후 복사
실제 브라우저 시뮬레이션: 사용자 에이전트 헤더 전달
(목적은 다음이 아닙니다. let 서버는 이 브라우저 정보가 포함되어 있지 않으면 오류가 보고될 수 있습니다.)
1 2 3 4 | req = request.Request(url) #此处url为某个网址
req.add_header(key,value) #key即user-Agent,value即浏览器的版本信息
resp = request.urlopen(req)
print (resp.read().decode( "utf-8" ))
|
로그인 후 복사
관련 학습 권장 사항: python 비디오 튜토리얼
POST
를 사용하여 urllib 라이브러리에서 구문 분석을 가져옵니다.
urlencode를 사용하여 게시물 데이터 생성
1 2 3 4 5 | postData = parse.urlencode([
(key1,val1),
(key2,val2),
(keyn,valn)
])
|
로그인 후 복사
post 사용
1 2 3 | request.urlopen(req,data=postData.encode( "utf-8" )) #使用postData发送post请求
resp.status #得到请求状态
resp.reason #得到服务器的类型
|
로그인 후 복사
전체 코드 예제(Wikipedia 홈페이지 링크 크롤링을 예로 사용)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 | #-*- coding:utf-8 -*-
from bs4 import BeautifulSoup as bs
from urllib.request import urlopen
import re
import ssl
#获取维基百科词条信息
ssl._create_default_https_context = ssl._create_unverified_context #全局取消证书验证
#请求URL,并把结果用utf-8编码
req = urlopen( "https://en.wikipedia.org/wiki/Main page" ).read().decode( "utf-8" )
#使用beautifulsoup去解析
soup = bs(req, "html.parser" )
# print (soup)
#获取所有href属性以“/wiki/Special”开头的a标签
urllist = soup.findAll( "a" ,href=re.compile( "^/wiki/Special" ))
for url in urllist:
#去除以.jpg或.JPG结尾的链接
if not re.search( "\.(jpg|JPG)$" ,url[ "href" ]):
#get_test()输出标签下的所有内容,包括子标签的内容;
#string只输出一个内容,若该标签有子标签则输出“none
print (url.get_text()+ "----->" +url[ "href" ])
# print (url)
|
로그인 후 복사
2. MySQL에 데이터 저장
pymysql 설치
pip를 통해 설치 :
또는 설치 파일을 통해:
1 | $ python setup.py install
|
로그인 후 복사
Using
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 | #引入开发包
import pymysql.cursors
#获取数据库链接
connection = pymysql.connect(host= "localhost" ,
user = 'root',
password = '123456',
db ='wikiurl',
charset = 'utf8mb4')
try :
#获取会话指针
with connection.cursor() as cursor
#创建sql语句
sql = "insert into `tableName`(`urlname`,`urlhref`) values(%s,%s)"
#执行SQL语句
cursor.execute(sql,(url.get_text(), "https://en.wikipedia.org" +url[ "href" ]))
#提交
connection.commit()
finally:
#关闭
connection.close()
|
로그인 후 복사
3. 크롤러에 대한 주의 사항
Robots 프로토콜(로봇 프로토콜, 크롤러 프로토콜이라고도 함), 전체 이름은 "웹 크롤러 제외 프로토콜"입니다. 웹사이트는 로봇 프로토콜 가져오기를 통해 크롤링할 수 있는 페이지와 가져올 수 없는 페이지를 검색 엔진에 알려줍니다. 일반적으로 https://en.wikipedia.org/robots.txt
와 같은 메인 페이지 아래 관련 권장 사항: 프로그래밍 비디오 코스
위 내용은 Python에서 크롤러 코드를 예시하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!