Python 크롤러는 어떤 모듈을 호출해야 합니까?-파이썬 튜토리얼-php.cn

Python 크롤러는 어떤 모듈을 호출해야 합니까?

尚

풀어 주다： 2019-12-28 11:40:58

원래의

4202명이 탐색했습니다.

Python 크롤러는 어떤 모듈을 호출해야 합니까?

크롤러에 일반적으로 사용되는 Python 모듈:

관련 권장 사항: python 크롤러 라이브러리 및 관련 도구

Python 표준 라이브러리 - urllib 모듈

기능: URL 및 http 프로토콜 열기

참고: python 3 .x의 urllib 라이브러리와 urilib2 라이브러리가 urllib 라이브러리에 병합되었습니다. 그 중 urllib2.urlopen()은 urllib.request.urlopen()이 되고, urllib2.Request()는 urllib.request.Request()가 됩니다

urllib는 웹페이지 반환을 요청합니다

urllib.request.urlopen

urllib.request.open(url[,data,[timeout,[cafile,[capth[,cadefault,[context]]]]]])

로그인 후 복사

urllib . requset.urlioen은 HTTP(기본), HTTPS, FTP, 프로토콜 URL을 열 수 있습니다.

ca 인증

data 포스트 모드에서 URL을 제출할 때

url을 사용하여 네트워크 주소를 제출하세요(전체 프런트 엔드에는 프로토콜 이름이 필요합니다) 백엔드에는 포트 http: /192.168.1.1:80이 필요합니다.

timeout 시간 초과 설정

함수 반환 객체에는 세 가지 추가 메서드가 있습니다.

geturl()은 응답의 URL 정보를 반환합니다

URL 리디렉션과 함께 일반적으로 사용됩니다. info()는 응답의 기본 정보를 반환합니다.

getcode()는 응답의 상태 코드를 반환합니다.

예:

#coding:utf-8
import urllib.request
import time
import platform


#清屏函数(无关紧要 可以不写)
def clear():
    print(u"内容过多 3秒后清屏")
    time.sleep(3)
    OS = platform.system()
    if (OS == u&#39;Windows&#39;):
        os.system(&#39;cls&#39;)
    else:
        os.system(&#39;clear&#39;)
#访问函数
def linkbaidu():
    url = &#39;http://www.baidu.com&#39;
    try:
        response = urllib.request.urlopen(url,timeout=3)
    except urllib.URLError:
        print(u&#39;网络地址错误&#39;)
        exit()
    with open(&#39;/home/ifeng/PycharmProjects/pachong/study/baidu.txt&#39;,&#39;w&#39;) as fp:
        response = urllib.request.urlopen(url,timeout=3)
        fp.write(response.read())
    print(u&#39;获取url信息，response.geturl()\n:%s&#39;%response.getrul())
    print(u&#39;获取返回代码，response.getcode()\n:%s&#39; % response.getcode())
    print(u&#39;获取返回信息，response.info()\n:%s&#39; % response.info())
    print(u"获取的网页信息经存与baidu.txt")


if __name__ ==&#39;main&#39;:
    linkbaidu()

로그인 후 복사

Python 표준 라이브러리 – 로깅 모듈

로깅 모듈은 인쇄 기능의 기능을 대체할 수 있습니다. 표준 출력을 로그 파일에 저장할 수 있습니다.

re 모듈

정규식

sys 모듈

시스템 관련 모듈

sys.argv(모든 항목을 포함하는 목록 반환) 명령줄)

sys.exit(프로그램 종료)

Scrapy 프레임워크

urllib와 re는 함께 사용하기에는 너무 뒤떨어져 있습니다. 이제 주류는 Scrapy 프레임워크입니다

더 많은 Python 관련 기술 기사를 보려면 다음을 방문하세요. Python Tutorial 칼럼을 통해 배워보세요!