> 백엔드 개발 > 파이썬 튜토리얼 > Python에서 크롤러 코드를 예시하는 방법

Python에서 크롤러 코드를 예시하는 방법

coldplay.xixi
풀어 주다: 2020-08-11 13:58:52
원래의
9692명이 탐색했습니다.

파이썬 크롤러 코드 예제 사용 방법: 먼저 브라우저 정보를 얻고 urlencode를 사용하여 게시 데이터를 생성한 다음 pymysql을 설치하고 데이터를 MySQL에 저장합니다.

Python에서 크롤러 코드를 예시하는 방법

Python 크롤러 코드 예제에 대한 방법:

1, urllib 및 BeautifulfuSoup

브라우저 정보 가져오기

1

2

3

from urllib import request

req = request.urlopen("http://www.baidu.com")

print(req.read().decode("utf-8"))

로그인 후 복사

실제 브라우저 시뮬레이션: 사용자 에이전트 헤더 전달

(목적은 다음이 아닙니다. let 서버는 이 브라우저 정보가 포함되어 있지 않으면 오류가 보고될 수 있습니다.)

1

2

3

4

req = request.Request(url) #此处url为某个网址

req.add_header(key,value)  #key即user-Agent,value即浏览器的版本信息

resp = request.urlopen(req)

print(resp.read().decode("utf-8"))

로그인 후 복사

관련 학습 권장 사항: python 비디오 튜토리얼

POST

를 사용하여 urllib 라이브러리에서 구문 분석을 가져옵니다.

1

from urllib import parse

로그인 후 복사

urlencode를 사용하여 게시물 데이터 생성

1

2

3

4

5

postData = parse.urlencode([

    (key1,val1),

    (key2,val2),

    (keyn,valn)

])

로그인 후 복사

post 사용

1

2

3

request.urlopen(req,data=postData.encode("utf-8")) #使用postData发送post请求

resp.status  #得到请求状态

resp.reason #得到服务器的类型

로그인 후 복사

전체 코드 예제(Wikipedia 홈페이지 링크 크롤링을 예로 사용)

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

#-*- coding:utf-8 -*-

from bs4 import BeautifulSoup as bs

from urllib.request import urlopen

import re

import ssl

#获取维基百科词条信息

ssl._create_default_https_context = ssl._create_unverified_context #全局取消证书验证

#请求URL,并把结果用utf-8编码

req = urlopen("https://en.wikipedia.org/wiki/Main page").read().decode("utf-8")

#使用beautifulsoup去解析

soup = bs(req,"html.parser")

# print(soup)

#获取所有href属性以“/wiki/Special”开头的a标签

urllist = soup.findAll("a",href=re.compile("^/wiki/Special"))

for url in urllist:

#去除以.jpg或.JPG结尾的链接

if not re.search("\.(jpg|JPG)$",url["href"]):

#get_test()输出标签下的所有内容,包括子标签的内容;

#string只输出一个内容,若该标签有子标签则输出“none

print(url.get_text()+"----->"+url["href"])

# print(url)

로그인 후 복사

2. MySQL에 데이터 저장

pymysql 설치

pip를 통해 설치 :

1

$ pip install pymysql

로그인 후 복사

또는 설치 파일을 통해:

1

$ python setup.py install

로그인 후 복사

Using

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

#引入开发包

import pymysql.cursors

#获取数据库链接

connection = pymysql.connect(host="localhost",

user = 'root',

password = '123456',

db ='wikiurl',

charset = 'utf8mb4')

try:

#获取会话指针

with connection.cursor() as cursor

#创建sql语句

sql = "insert into `tableName`(`urlname`,`urlhref`) values(%s,%s)"

#执行SQL语句

cursor.execute(sql,(url.get_text(),"https://en.wikipedia.org"+url["href"]))

#提交

connection.commit()

finally:

#关闭

connection.close()

로그인 후 복사

3. 크롤러에 대한 주의 사항

Robots 프로토콜(로봇 프로토콜, 크롤러 프로토콜이라고도 함), 전체 이름은 "웹 크롤러 제외 프로토콜"입니다. 웹사이트는 로봇 프로토콜 가져오기를 통해 크롤링할 수 있는 페이지와 가져올 수 없는 페이지를 검색 엔진에 알려줍니다. 일반적으로 https://en.wikipedia.org/robots.txt

1

2

Disallow:不允许访问

allow:允许访问

로그인 후 복사

와 같은 메인 페이지 아래 관련 권장 사항: 프로그래밍 비디오 코스

위 내용은 Python에서 크롤러 코드를 예시하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿