urllib.request 라이브러리 사용의 기본 사항-파이썬 튜토리얼-php.cn

urllib.request 라이브러리 사용의 기본 사항

巴扎黑

풀어 주다： 2017-07-18 13:50:49

원래의

3141명이 탐색했습니다.

소위 웹 페이지 크롤링은 URL 주소에 지정된 네트워크 리소스를 네트워크 스트림에서 읽어 로컬에 저장하는 것입니다. Python에는 웹 페이지를 크롤링하는 데 사용할 수 있는 많은 라이브러리가 있습니다. 먼저 urllib.request를 배워보겠습니다. (python2의 urllib2. 출력 결과는 위 프로그램을 실행했을 때와 정확히 동일합니다. 즉, 위의 몇 줄의 코드는 Baidu 홈페이지의 모든 코드를 크롤링하는 데 도움이 되었습니다.

Reuqest

위의 예에서 urlopen()의 매개변수는 URL 주소입니다.

그러나 HTTP 헤더 추가와 같은 더 복잡한 작업을 수행해야 하는 경우 urlopen()의 매개 변수로 Request 인스턴스를 생성하고, Request 인스턴스의 매개 변수로 액세스해야 하는 URL 주소를 생성해야 합니다.

#!/usr/bin/python3
# -*- conding:utf-8 -*-
__author__ = &#39;mayi&#39;

# 导入urllib.request库
import urllib.request

# 向指定的url发送请求，并返回服务器响应的类文件对象
response = urllib.request.urlopen("http://www.baidu.com/")

# 类文件对象支持 文件对象的操作方法，如read()方法读取文件全部内容，返回字符串
html = response.read()

# 打印字符串
print(html)

로그인 후 복사

실행 결과는 정확히 동일합니다.

url 매개변수 외에도 새 요청 인스턴스는 두 개의 다른 매개변수도 설정할 수 있습니다.

1.data(기본값은 비어 있음): 함께 제공되는 URL입니다. 데이터(예: 게시 데이터) 및 HTTP 요청이 "GET"에서 "POST"로 변경됩니다.

2.headers(기본적으로 비어 있음): 전송해야 하는 HTTP 헤더의 키-값 쌍이 포함된 사전입니다.

User-Agent

크롤러 프로그램이 실제 사용자와 유사해지기를 원한다면, 첫 번째 단계는 인식된 브라우저인 것처럼 가장하는 것입니다. 요청을 보낼 때 브라우저마다 User-Agent 헤더가 다릅니다. urllib.request의 기본 User-Agent 헤더는 다음과 같습니다. Python-urllib/x.y(x와 y는 Python-urllib/3.5와 같은 Python 주 및 부 버전 번호입니다.)

#!/usr/bin/python3
# -*- conding:utf-8 -*-
__author__ = &#39;mayi&#39;

# 导入urllib.request库
import urllib.request

# url 作为Request()方法的参数，构造并返回一个Request对象
request = urllib.request.Request("http://www.baidu.com/")

# 向服务器发送这个请求
response = urllib.request.urlopen(request)

html = response.read()

print(html)

로그인 후 복사

Add more Header information

완전한 HTTP 요청 메시지를 구성하려면 HTTP 요청에 특정 헤더를 추가하세요.

#!/usr/bin/python3
# -*- conding:utf-8 -*-
__author__ = &#39;mayi&#39;

# 导入urllib.request库
import urllib.request

# chrome 的 User-Agent，包含在 header里
header = {&#39;User-Agent&#39;:&#39;Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36&#39;}

# url 连同 headers，一起构造Request请求，这个请求将附带 chrome 浏览器的User-Agent
request = urllib.request.Request("http://www.baidu.com/", headers = header)

# 向服务器发送这个请求
response = urllib.request.urlopen(request)

html = response.read()

print(html)

로그인 후 복사

특정 헤더 추가

可以通过调用Request.add_header() 添加/修改一个特定的header
也可以通过调用Request.get_header()来查看已有的header。

로그인 후 복사

위 내용은 urllib.request 라이브러리 사용의 기본 사항의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!