> 백엔드 개발 > 파이썬 튜토리얼 > Python 크롤러는 어떤 모듈을 호출해야 합니까?

Python 크롤러는 어떤 모듈을 호출해야 합니까?

풀어 주다: 2019-12-28 11:40:58
원래의
4123명이 탐색했습니다.

Python 크롤러는 어떤 모듈을 호출해야 합니까?

크롤러에 일반적으로 사용되는 Python 모듈:

관련 권장 사항: python 크롤러 라이브러리 및 관련 도구

Python 표준 라이브러리 - urllib 모듈

기능: URL 및 http 프로토콜 열기

참고: python 3 .x의 urllib 라이브러리와 urilib2 라이브러리가 urllib 라이브러리에 병합되었습니다. 그 중 urllib2.urlopen()은 urllib.request.urlopen()이 되고, urllib2.Request()는 urllib.request.Request()가 됩니다

urllib는 웹페이지 반환을 요청합니다

urllib.request.urlopen

urllib.request.open(url[,data,[timeout,[cafile,[capth[,cadefault,[context]]]]]])
로그인 후 복사

urllib . requset.urlioen은 HTTP(기본), HTTPS, FTP, 프로토콜 URL을 열 수 있습니다.

ca 인증

data 포스트 모드에서 URL을 제출할 때

url을 사용하여 네트워크 주소를 제출하세요(전체 프런트 엔드에는 프로토콜 이름이 필요합니다) 백엔드에는 포트 http: /192.168.1.1:80이 필요합니다.

timeout 시간 초과 설정

함수 반환 객체에는 세 가지 추가 메서드가 있습니다.

geturl()은 응답의 URL 정보를 반환합니다

URL 리디렉션과 함께 일반적으로 사용됩니다. info()는 응답의 기본 정보를 반환합니다.

getcode()는 응답의 상태 코드를 반환합니다.

예:

#coding:utf-8
import urllib.request
import time
import platform


#清屏函数(无关紧要 可以不写)
def clear():
    print(u"内容过多 3秒后清屏")
    time.sleep(3)
    OS = platform.system()
    if (OS == u'Windows'):
        os.system('cls')
    else:
        os.system('clear')
#访问函数
def linkbaidu():
    url = 'http://www.baidu.com'
    try:
        response = urllib.request.urlopen(url,timeout=3)
    except urllib.URLError:
        print(u'网络地址错误')
        exit()
    with open('/home/ifeng/PycharmProjects/pachong/study/baidu.txt','w') as fp:
        response = urllib.request.urlopen(url,timeout=3)
        fp.write(response.read())
    print(u'获取url信息,response.geturl()\n:%s'%response.getrul())
    print(u'获取返回代码,response.getcode()\n:%s' % response.getcode())
    print(u'获取返回信息,response.info()\n:%s' % response.info())
    print(u"获取的网页信息经存与baidu.txt")


if __name__ =='main':
    linkbaidu()
로그인 후 복사

Python 표준 라이브러리 – 로깅 모듈

로깅 모듈은 인쇄 기능의 기능을 대체할 수 있습니다. 표준 출력을 로그 파일에 저장할 수 있습니다.

re 모듈

정규식

sys 모듈

시스템 관련 모듈

sys.argv(모든 항목을 포함하는 목록 반환) 명령줄)

sys.exit(프로그램 종료)

Scrapy 프레임워크

urllib와 re는 함께 사용하기에는 너무 뒤떨어져 있습니다. 이제 주류는 Scrapy 프레임워크입니다

더 많은 Python 관련 기술 기사를 보려면 다음을 방문하세요. Python Tutorial 칼럼을 통해 배워보세요!

위 내용은 Python 크롤러는 어떤 모듈을 호출해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿