[Python]网络爬虫（十）：一个爬虫的诞生全过程（以山东大学绩点运算为例）-Python教程-PHP中文网

首页

后端开发

Python教程

[Python]网络爬虫（十）：一个爬虫的诞生全过程（以山东大学绩点运算为例）

黄舟

Jan 21, 2017 pm 02:42 PM

先来说一下我们学校的网站：

http://jwxt.sdu.edu.cn:7777/zhxt_bks/zhxt_bks.html

查询成绩需要登录，然后显示各学科成绩，但是只显示成绩而没有绩点，也就是加权平均分。

显然这样手动计算绩点是一件非常麻烦的事情。所以我们可以用Python做一个爬虫来解决这个问题。

1.决战前夜

先来准备一下工具：HttpFox插件。

这是一款http协议分析插件，分析页面请求和响应的时间、内容、以及浏览器用到的COOKIE等。

以我为例，安装在火狐上即可，效果如图：

可以非常直观的查看相应的信息。

点击start是开始检测，点击stop暂停检测，点击clear清除内容。

一般在使用之前，点击stop暂停，然后点击clear清屏，确保看到的是访问当前页面获得的数据。

2.深入敌后

下面就去山东大学的成绩查询网站，看一看在登录的时候，到底发送了那些信息。

先来到登录页面，把httpfox打开，clear之后，点击start开启检测：

输入完了个人信息，确保httpfox处于开启状态，然后点击确定提交信息，实现登录。

这个时候可以看到，httpfox检测到了三条信息：

这时点击stop键，确保捕获到的是访问该页面之后反馈的数据，以便我们做爬虫的时候模拟登陆使用。

3.庖丁解牛

乍一看我们拿到了三个数据，两个是GET的一个是POST的，但是它们到底是什么，应该怎么用，我们还一无所知。

所以，我们需要挨个查看一下捕获到的内容。

先看POST的信息：

既然是POST的信息，我们就直接看PostData即可。

可以看到一共POST两个数据，stuid和pwd。

并且从Type的Redirect to可以看出，POST完毕之后跳转到了bks_login2.loginmessage页面。

由此看出，这个数据是点击确定之后提交的表单数据。

点击cookie标签，看看cookie信息：

没错，收到了一个ACCOUNT的cookie，并且在session结束之后自动销毁。

那么提交之后收到了哪些信息呢？

我们来看看后面的两个GET数据。

先看第一个，我们点击content标签可以查看收到的内容，是不是有一种生吞活剥的快感-。-HTML源码暴露无疑了：

看来这个只是显示页面的html源码而已，点击cookie，查看cookie的相关信息：

啊哈，原来html页面的内容是发送了cookie信息之后才接受到的。

再来看看最后一个接收到的信息：

大致看了一下应该只是一个叫做style.css的css文件，对我们没有太大的作用。

4.冷静应战

既然已经知道了我们向服务器发送了什么数据，也知道了我们接收到了什么数据，基本的流程如下：

首先，我们POST学号和密码--->然后返回cookie的值

然后发送cookie给服务器--->返回页面信息。

获取到成绩页面的数据，用正则表达式将成绩和学分单独取出并计算加权平均数。

OK，看上去好像很简单的样纸。那下面我们就来试试看吧。

但是在实验之前，还有一个问题没有解决，就是POST的数据到底发送到了哪里？

再来看一下当初的页面：

很明显是用一个html框架来实现的，也就是说，我们在地址栏看到的地址并不是右边提交表单的地址。

那么怎样才能获得真正的地址-。-右击查看页面源代码：

嗯没错，那个name="w_right"的就是我们要的登录页面。

网站的原来的地址是：

http://jwxt.sdu.edu.cn:7777/zhxt_bks/zhxt_bks.html

所以，真正的表单提交的地址应该是：

http://jwxt.sdu.edu.cn:7777/zhxt_bks/xk_login.html

输入一看，果不其然：

靠居然是清华大学的选课系统。。。目测是我校懒得做页面了就直接借了。。结果连标题都不改一下。。。

但是这个页面依旧不是我们需要的页面，因为我们的POST数据提交到的页面，应该是表单form的ACTION中提交到的页面。

也就是说，我们需要查看源码，来知道POST数据到底发送到了哪里：

嗯，目测这个才是提交POST数据的地址。

整理到地址栏中，完整的地址应该如下：

http://jwxt.sdu.edu.cn:7777/pls/wwwbks/bks_login2.login

（获取的方式很简单，在火狐浏览器中直接点击那个链接就能看到这个链接的地址了）

5.小试牛刀

接下来的任务就是：用python模拟发送一个POST的数据并取到返回的cookie值。

关于cookie的操作可以看看这篇博文：

http://blog.csdn.net/wxg694175346/article/details/8925978

我们先准备一个POST的数据，再准备一个cookie的接收，然后写出源码如下：

# -*- coding: utf-8 -*-  
#---------------------------------------  
#   程序：山东大学爬虫  
#   版本：0.1  
#   作者：why  
#   日期：2013-07-12  
#   语言：Python 2.7  
#   操作：输入学号和密码  
#   功能：输出成绩的加权平均值也就是绩点  
#---------------------------------------  
  
import urllib    
import urllib2  
import cookielib  
  
cookie = cookielib.CookieJar()    
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))  
  
#需要POST的数据#  
postdata=urllib.urlencode({    
    &#39;stuid&#39;:&#39;201100300428&#39;,    
    &#39;pwd&#39;:&#39;921030&#39;    
})  
  
#自定义一个请求#  
req = urllib2.Request(    
    url = &#39;http://jwxt.sdu.edu.cn:7777/pls/wwwbks/bks_login2.login&#39;,    
    data = postdata  
)  
  
#访问该链接#  
result = opener.open(req)  
  
#打印返回的内容#  
print result.read()

登录后复制

如此这般之后，再看看运行的效果：

ok，如此这般，我们就算模拟登陆成功了。

6.偷天换日

接下来的任务就是用爬虫获取到学生的成绩。

再来看看源网站。

开启HTTPFOX之后，点击查看成绩，发现捕获到了如下的数据：

点击第一个GET的数据，查看内容可以发现Content就是获取到的成绩的内容。

而获取到的页面链接，从页面源代码中右击查看元素，可以看到点击链接之后跳转的页面（火狐浏览器只需要右击，“查看此框架”，即可）：

从而可以得到查看成绩的链接如下：

http://jwxt.sdu.edu.cn:7777/pls/wwwbks/bkscjcx.curscopre

7.万事俱备

现在万事俱备啦，所以只需要把链接应用到爬虫里面，看看能否查看到成绩的页面。

从httpfox可以看到，我们发送了一个cookie才能返回成绩的信息，所以我们就用python模拟一个cookie的发送，以此来请求成绩的信息：

# -*- coding: utf-8 -*-  
#---------------------------------------  
#   程序：山东大学爬虫  
#   版本：0.1  
#   作者：why  
#   日期：2013-07-12  
#   语言：Python 2.7  
#   操作：输入学号和密码  
#   功能：输出成绩的加权平均值也就是绩点  
#---------------------------------------  
  
import urllib    
import urllib2  
import cookielib  
  
#初始化一个CookieJar来处理Cookie的信息#  
cookie = cookielib.CookieJar()  
  
#创建一个新的opener来使用我们的CookieJar#  
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))  
  
#需要POST的数据#  
postdata=urllib.urlencode({    
    &#39;stuid&#39;:&#39;201100300428&#39;,    
    &#39;pwd&#39;:&#39;921030&#39;    
})  
  
#自定义一个请求#  
req = urllib2.Request(    
    url = &#39;http://jwxt.sdu.edu.cn:7777/pls/wwwbks/bks_login2.login&#39;,    
    data = postdata  
)  
  
#访问该链接#  
result = opener.open(req)  
  
#打印返回的内容#  
print result.read()  
  
#打印cookie的值  
for item in cookie:    
    print &#39;Cookie：Name = &#39;+item.name    
    print &#39;Cookie：Value = &#39;+item.value  
  
      
#访问该链接#  
result = opener.open(&#39;http://jwxt.sdu.edu.cn:7777/pls/wwwbks/bkscjcx.curscopre&#39;)  
  
#打印返回的内容#  
print result.read()

登录后复制

按下F5运行即可，看看捕获到的数据吧：

既然这样就没有什么问题了吧，用正则表达式将数据稍稍处理一下，取出学分和相应的分数就可以了。

8.手到擒来

这么一大堆html源码显然是不利于我们处理的，下面要用正则表达式来抠出必须的数据。

关于正则表达式的教程可以看看这个博文：

http://blog.csdn.net/wxg694175346/article/details/8929576

我们来看看成绩的源码：

既然如此，用正则表达式就易如反掌了。

我们将代码稍稍整理一下，然后用正则来取出数据：

# -*- coding: utf-8 -*-  
#---------------------------------------  
#   程序：山东大学爬虫  
#   版本：0.1  
#   作者：why  
#   日期：2013-07-12  
#   语言：Python 2.7  
#   操作：输入学号和密码  
#   功能：输出成绩的加权平均值也就是绩点  
#---------------------------------------  
  
import urllib    
import urllib2  
import cookielib  
import re  
  
class SDU_Spider:    
    # 申明相关的属性    
    def __init__(self):      
        self.loginUrl = &#39;http://jwxt.sdu.edu.cn:7777/pls/wwwbks/bks_login2.login&#39;   # 登录的url  
        self.resultUrl = &#39;http://jwxt.sdu.edu.cn:7777/pls/wwwbks/bkscjcx.curscopre&#39; # 显示成绩的url  
        self.cookieJar = cookielib.CookieJar()                                      # 初始化一个CookieJar来处理Cookie的信息  
        self.postdata=urllib.urlencode({&#39;stuid&#39;:&#39;201100300428&#39;,&#39;pwd&#39;:&#39;921030&#39;})     # POST的数据  
        self.weights = []   #存储权重，也就是学分  
        self.points = []    #存储分数，也就是成绩  
        self.opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(self.cookieJar))  
  
    def sdu_init(self):  
        # 初始化链接并且获取cookie  
        myRequest = urllib2.Request(url = self.loginUrl,data = self.postdata)   # 自定义一个请求  
        result = self.opener.open(myRequest)            # 访问登录页面，获取到必须的cookie的值  
        result = self.opener.open(self.resultUrl)       # 访问成绩页面，获得成绩的数据  
        # 打印返回的内容  
        # print result.read()  
        self.deal_data(result.read().decode(&#39;gbk&#39;))  
        self.print_data(self.weights);  
        self.print_data(self.points);  
  
    # 将内容从页面代码中抠出来    
    def deal_data(self,myPage):    
        myItems = re.findall(&#39;<TR>.*?<p.*?<p.*?<p.*?<p.*?<p.*?>(.*?)</p>.*?<p.*?<p.*?>(.*?)</p>.*?</TR>&#39;,myPage,re.S)     #获取到学分  
        for item in myItems:  
            self.weights.append(item[0].encode(&#39;gbk&#39;))  
            self.points.append(item[1].encode(&#39;gbk&#39;))  
  
              
    # 将内容从页面代码中抠出来  
    def print_data(self,items):    
        for item in items:    
            print item  
              
#调用    
mySpider = SDU_Spider()    
mySpider.sdu_init()

登录后复制

水平有限，，正则是有点丑，。运行的效果如图：

ok，接下来的只是数据的处理问题了。。

9.凯旋而归

完整的代码如下，至此一个完整的爬虫项目便完工了。

# -*- coding: utf-8 -*-  
#---------------------------------------  
#   程序：山东大学爬虫  
#   版本：0.1  
#   作者：why  
#   日期：2013-07-12  
#   语言：Python 2.7  
#   操作：输入学号和密码  
#   功能：输出成绩的加权平均值也就是绩点  
#---------------------------------------  
  
import urllib    
import urllib2  
import cookielib  
import re  
import string  
  
  
class SDU_Spider:    
    # 申明相关的属性    
    def __init__(self):      
        self.loginUrl = &#39;http://jwxt.sdu.edu.cn:7777/pls/wwwbks/bks_login2.login&#39;   # 登录的url  
        self.resultUrl = &#39;http://jwxt.sdu.edu.cn:7777/pls/wwwbks/bkscjcx.curscopre&#39; # 显示成绩的url  
        self.cookieJar = cookielib.CookieJar()                                      # 初始化一个CookieJar来处理Cookie的信息  
        self.postdata=urllib.urlencode({&#39;stuid&#39;:&#39;201100300428&#39;,&#39;pwd&#39;:&#39;921030&#39;})     # POST的数据  
        self.weights = []   #存储权重，也就是学分  
        self.points = []    #存储分数，也就是成绩  
        self.opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(self.cookieJar))  
  
    def sdu_init(self):  
        # 初始化链接并且获取cookie  
        myRequest = urllib2.Request(url = self.loginUrl,data = self.postdata)   # 自定义一个请求  
        result = self.opener.open(myRequest)            # 访问登录页面，获取到必须的cookie的值  
        result = self.opener.open(self.resultUrl)       # 访问成绩页面，获得成绩的数据  
        # 打印返回的内容  
        # print result.read()  
        self.deal_data(result.read().decode(&#39;gbk&#39;))  
        self.calculate_date();  
  
    # 将内容从页面代码中抠出来    
    def deal_data(self,myPage):    
        myItems = re.findall(&#39;<TR>.*?<p.*?<p.*?<p.*?<p.*?<p.*?>(.*?)</p>.*?<p.*?<p.*?>(.*?)</p>.*?</TR>&#39;,myPage,re.S)     #获取到学分  
        for item in myItems:  
            self.weights.append(item[0].encode(&#39;gbk&#39;))  
            self.points.append(item[1].encode(&#39;gbk&#39;))  
  
    #计算绩点，如果成绩还没出来，或者成绩是优秀良好，就不运算该成绩  
    def calculate_date(self):  
        point = 0.0  
        weight = 0.0  
        for i in range(len(self.points)):  
            if(self.points[i].isdigit()):  
                point += string.atof(self.points[i])*string.atof(self.weights[i])  
                weight += string.atof(self.weights[i])  
        print point/weight  
  
              
#调用    
mySpider = SDU_Spider()    
mySpider.sdu_init()

登录后复制

以上就是 [Python]网络爬虫（十）：一个爬虫的诞生全过程（以山东大学绩点运算为例）的内容，更多相关内容请关注PHP中文网（www.php.cn）！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

gmail邮箱登陆入口在哪里

7481

CakePHP 教程

1377

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

显示更多

Related knowledge

mysql 是否要付费 Apr 08, 2025 pm 05:36 PM

MySQL 有免费的社区版和收费的企业版。社区版可免费使用和修改，但支持有限，适合稳定性要求不高、技术能力强的应用。企业版提供全面商业支持，适合需要稳定可靠、高性能数据库且愿意为支持买单的应用。选择版本时考虑的因素包括应用关键性、预算和技术技能。没有完美的选项，只有最合适的方案，需根据具体情况谨慎选择。

mysql安装后怎么使用 Apr 08, 2025 am 11:48 AM

文章介绍了MySQL数据库的上手操作。首先，需安装MySQL客户端，如MySQLWorkbench或命令行客户端。1.使用mysql-uroot-p命令连接服务器，并使用root账户密码登录；2.使用CREATEDATABASE创建数据库，USE选择数据库；3.使用CREATETABLE创建表，定义字段及数据类型；4.使用INSERTINTO插入数据，SELECT查询数据，UPDATE更新数据，DELETE删除数据。熟练掌握这些步骤，并学习处理常见问题和优化数据库性能，才能高效使用MySQL。

mySQL下载完安装不了 Apr 08, 2025 am 11:24 AM

MySQL安装失败的原因主要有：1.权限问题，需以管理员身份运行或使用sudo命令；2.依赖项缺失，需安装相关开发包；3.端口冲突，需关闭占用3306端口的程序或修改配置文件；4.安装包损坏，需重新下载并验证完整性；5.环境变量配置错误，需根据操作系统正确配置环境变量。解决这些问题，仔细检查每个步骤，就能顺利安装MySQL。

mysql下载文件损坏无法安装的修复方案 Apr 08, 2025 am 11:21 AM

MySQL下载文件损坏，咋整？哎，下载个MySQL都能遇到文件损坏，这年头真是不容易啊！这篇文章就来聊聊怎么解决这个问题，让大家少走弯路。读完之后，你不仅能修复损坏的MySQL安装包，还能对下载和安装过程有更深入的理解，避免以后再踩坑。先说说为啥下载文件会损坏这原因可多了去了，网络问题是罪魁祸首，下载过程中断、网络不稳定都可能导致文件损坏。还有就是下载源本身的问题，服务器文件本身就坏了，你下载下来当然也是坏的。另外，一些杀毒软件过度“热情”的扫描也可能造成文件损坏。诊断问题：确定文件是否真的损坏

如何针对高负载应用程序优化 MySQL 性能？ Apr 08, 2025 pm 06:03 PM

MySQL数据库性能优化指南在资源密集型应用中，MySQL数据库扮演着至关重要的角色，负责管理海量事务。然而，随着应用规模的扩大，数据库性能瓶颈往往成为制约因素。本文将探讨一系列行之有效的MySQL性能优化策略，确保您的应用在高负载下依然保持高效响应。我们将结合实际案例，深入讲解索引、查询优化、数据库设计以及缓存等关键技术。1.数据库架构设计优化合理的数据库架构是MySQL性能优化的基石。以下是一些核心原则：选择合适的数据类型选择最小的、符合需求的数据类型，既能节省存储空间，又能提升数据处理速度

mysql安装后怎么优化数据库性能 Apr 08, 2025 am 11:36 AM

MySQL性能优化需从安装配置、索引及查询优化、监控与调优三个方面入手。1.安装后需根据服务器配置调整my.cnf文件，例如innodb_buffer_pool_size参数，并关闭query_cache_size；2.创建合适的索引，避免索引过多，并优化查询语句，例如使用EXPLAIN命令分析执行计划；3.利用MySQL自带监控工具(SHOWPROCESSLIST,SHOWSTATUS)监控数据库运行状况，定期备份和整理数据库。通过这些步骤，持续优化，才能提升MySQL数据库性能。

MySQL安装后服务无法启动的解决办法 Apr 08, 2025 am 11:18 AM

MySQL拒启动？别慌，咱来排查！很多朋友安装完MySQL后，发现服务死活启动不了，心里那个急啊！别急，这篇文章带你从容应对，揪出幕后黑手！读完后，你不仅能解决这个问题，还能提升对MySQL服务的理解，以及排查问题的思路，成为一名更强大的数据库管理员！MySQL服务启动失败，原因五花八门，从简单的配置错误到复杂的系统问题都有可能。咱们先从最常见的几个方面入手。基础知识：服务启动流程简述MySQL服务启动，简单来说，就是操作系统加载MySQL相关的文件，然后启动MySQL守护进程。这其中涉及到配置

mysql 需要互联网吗 Apr 08, 2025 pm 02:18 PM

MySQL 可在无需网络连接的情况下运行，进行基本的数据存储和管理。但是，对于与其他系统交互、远程访问或使用高级功能（如复制和集群）的情况，则需要网络连接。此外，安全措施（如防火墙）、性能优化（选择合适的网络连接）和数据备份对于连接到互联网的 MySQL 数据库至关重要。

See all articles

[Python]网络爬虫（十）：一个爬虫的诞生全过程（以山东大学绩点运算为例）

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题