Python의 페이지에서 데이터를 읽는 것은 urllib2를 통해 쉽게 요청할 수 있습니다
import urllib2 print urllib2.urlopen('http://www.pythontab.com').read()
페이지의 POST 요청 작업과 관련된 경우 다음이 필요합니다. 헤더 정보, 제출된 게시물 데이터 및 요청 페이지를 제공합니다.
포스트 데이터에는 실제로 사전을 "data1=value1&data2=value2" 형식으로 변환하는 urllib.encode()가 필요합니다.
import urllib import urllib2 HEADER = { 'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:31.0) Gecko/20100101 Firefox/31.0', 'Referer' : 'http://202.206.1.163/logout.do' } POSTDATA = { 'data1': 'value1', 'data2': 'value2' } HOSTURL = 'http://xxx.com' enpostdata = urllib.urlencode(POSTDATA) urlrequest = urllib2.Request(hosturl,enpostdata,HEADER) urlresponse = urllib2.urlopen(urlrequest) print urlresponse.read()
요청 후 브라우저는 세션 유지 프로세스를 거치게 됩니다. 세션은 쿠키에 저장됩니다. 요청 헤더에 배치됩니다. 쿠키가 손실되면 세션 연결이 끊어집니다.
Python에서 쿠키 보존 설정이 필요합니다
# cookie set # 用来保持会话 cj = cookielib.LWPCookieJar() cookie_support = urllib2.HTTPCookieProcessor(cj) opener = urllib2.build_opener(cookie_support, urllib2.HTTPHandler) urllib2.install_opener(opener)
다음은 편의를 위해 위의 지식 포인트를 요약한 라이브러리 파일입니다. 사용법:
# filename: analogop.py #!/usr/bin/python # -*-coding:UTF-8 -*- # author: 初行 # qq: 121866673 # mail: zxbd1016@163.com # message: I need a python job # time: 2014/10/8 import urllib import urllib2 import cookielib # cookie set # 用来保持会话 cj = cookielib.LWPCookieJar() cookie_support = urllib2.HTTPCookieProcessor(cj) opener = urllib2.build_opener(cookie_support, urllib2.HTTPHandler) urllib2.install_opener(opener) # default header HEADER = { 'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:31.0) Gecko/20100101 Firefox/31.0', 'Referer' : 'http://202.206.1.163/logout.do' } # operate method def geturlopen(hosturl, postdata = {}, headers = HEADER): # encode postdata enpostdata = urllib.urlencode(postdata) # request url urlrequest = urllib2.Request(hosturl, enpostdata, headers) # open url urlresponse = urllib2.urlopen(urlrequest) # return url return urlresponse
테스트 파일입니다. 독자들이 테스트 환경을 갖고 있지 않기 때문에 직접 구축하거나 웹사이트를 찾아 읽어야 합니다. 테스트:
#filename: test.py from analogop import geturlopen postd = { 'usernum': '2011411111', 'upw': '124569', 'userip': '192.168.10.1', 'token': 'xxx' } urlread = geturlopen('http://127.0.0.1:8000/login/', postd) print urlread.read().decode('utf-8') urlread = geturlopen('http://127.0.0.1:8000/chafen/', {}) print urlread.read().decode('utf-8')