程序模拟浏览器请求及会话保持-python实现-Python教程-PHP中文网

首页

后端开发

Python教程

程序模拟浏览器请求及会话保持-python实现

高洛峰

Oct 18, 2016 am 09:20 AM

python下读取一个页面的数据可以通过urllib2轻松实现请求

import urllib2
print urllib2.urlopen(&#39;http://www.pythontab.com&#39;).read()

登录后复制

涉及到页面的POST请求操作的话需要提供头信息，提交的post数据和请求页面。

其中的post数据需要urllib.encode()一下，其实就是将字典转换成“data1=value1&data2=value2”的格式。

import urllib
import urllib2
  
HEADER = {
    &#39;User-Agent&#39; : &#39;Mozilla/5.0 (Windows NT 6.1; WOW64; rv:31.0) Gecko/20100101 Firefox/31.0&#39;,
    &#39;Referer&#39; : &#39;http://202.206.1.163/logout.do&#39;
}
  
POSTDATA = {
    &#39;data1&#39;: &#39;value1&#39;,
    &#39;data2&#39;: &#39;value2&#39;
}
  
HOSTURL = &#39;http://xxx.com&#39;
  
enpostdata = urllib.urlencode(POSTDATA)
urlrequest = urllib2.Request(hosturl,enpostdata,HEADER)
urlresponse = urllib2.urlopen(urlrequest)
  
print urlresponse.read()

登录后复制

请求之后浏览器会有一个会话保持的过程，会话都是保存在一个cookie里面的，下一次页面的请求会把cookie放到请求头，如果cookie丢失会话也就断开了。

在python下面需要设置一下cookie的保持

# cookie set
# 用来保持会话
cj = cookielib.LWPCookieJar()
cookie_support = urllib2.HTTPCookieProcessor(cj)
opener = urllib2.build_opener(cookie_support, urllib2.HTTPHandler)
urllib2.install_opener(opener)

登录后复制

下面是将以上知识点汇总写的一个库文件，方便使用：

# filename: analogop.py
  
#!/usr/bin/python
# -*-coding:UTF-8 -*-
  
# author: 初行
# qq: 121866673
# mail: zxbd1016@163.com
# message: I need a python job
# time: 2014/10/8
  
import urllib
import urllib2
import cookielib
  
# cookie set
# 用来保持会话
cj = cookielib.LWPCookieJar()
cookie_support = urllib2.HTTPCookieProcessor(cj)
opener = urllib2.build_opener(cookie_support, urllib2.HTTPHandler)
urllib2.install_opener(opener)
  
# default header
HEADER = {
    &#39;User-Agent&#39; : &#39;Mozilla/5.0 (Windows NT 6.1; WOW64; rv:31.0) Gecko/20100101 Firefox/31.0&#39;,
    &#39;Referer&#39; : &#39;http://202.206.1.163/logout.do&#39;
}
  
# operate method
def geturlopen(hosturl, postdata = {}, headers = HEADER):
    # encode postdata
    enpostdata = urllib.urlencode(postdata)
    # request url
    urlrequest = urllib2.Request(hosturl, enpostdata, headers)
    # open url
    urlresponse = urllib2.urlopen(urlrequest)
    # return url
    return urlresponse

登录后复制

这个是测试文件，因为读者没有测试环境，需要自己搭建或者找个网站测试：

#filename: test.py
from analogop import geturlopen
  
postd = {
    &#39;usernum&#39;: &#39;2011411111&#39;,
    &#39;upw&#39;: &#39;124569&#39;,
    &#39;userip&#39;: &#39;192.168.10.1&#39;,
    &#39;token&#39;: &#39;xxx&#39;
}
  
urlread = geturlopen(&#39;http://127.0.0.1:8000/login/&#39;, postd)
print urlread.read().decode(&#39;utf-8&#39;)
urlread = geturlopen(&#39;http://127.0.0.1:8000/chafen/&#39;, {})
print urlread.read().decode(&#39;utf-8&#39;)

登录后复制

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

gmail邮箱登陆入口在哪里

7333

Java教程

1627

CakePHP 教程

1351

Laravel 教程

1262

PHP教程

1209

显示更多

Related knowledge

如何使用Python查找文本文件的ZIPF分布 Mar 05, 2025 am 09:58 AM

本教程演示如何使用Python处理Zipf定律这一统计概念，并展示Python在处理该定律时读取和排序大型文本文件的效率。您可能想知道Zipf分布这个术语是什么意思。要理解这个术语，我们首先需要定义Zipf定律。别担心，我会尽量简化说明。 Zipf定律 Zipf定律简单来说就是：在一个大型自然语言语料库中，最频繁出现的词的出现频率大约是第二频繁词的两倍，是第三频繁词的三倍，是第四频繁词的四倍，以此类推。让我们来看一个例子。如果您查看美国英语的Brown语料库，您会注意到最频繁出现的词是“th

我如何使用美丽的汤来解析HTML？ Mar 10, 2025 pm 06:54 PM

本文解释了如何使用美丽的汤库来解析html。它详细介绍了常见方法，例如find（），find_all（），select（）和get_text（），以用于数据提取，处理不同的HTML结构和错误以及替代方案（SEL）

python中的图像过滤 Mar 03, 2025 am 09:44 AM

处理嘈杂的图像是一个常见的问题，尤其是手机或低分辨率摄像头照片。本教程使用OpenCV探索Python中的图像过滤技术来解决此问题。图像过滤：功能强大的工具图像过滤器

如何使用Python使用PDF文档 Mar 02, 2025 am 09:54 AM

PDF 文件因其跨平台兼容性而广受欢迎，内容和布局在不同操作系统、阅读设备和软件上保持一致。然而，与 Python 处理纯文本文件不同，PDF 文件是二进制文件，结构更复杂，包含字体、颜色和图像等元素。幸运的是，借助 Python 的外部模块，处理 PDF 文件并非难事。本文将使用 PyPDF2 模块演示如何打开 PDF 文件、打印页面和提取文本。关于 PDF 文件的创建和编辑，请参考我的另一篇教程。准备工作核心在于使用外部模块 PyPDF2。首先，使用 pip 安装它： pip 是 P