社区

学习

工具库

AI工具

休闲

简体中文

首页 > 后端开发 > Python教程 > 如何完整写一个爬虫框架

如何完整写一个爬虫框架

零到壹度

发布： 2018-03-30 11:28:40

原创

4889 人浏览过

本文主要为大家分享一篇如何完整写一个爬虫框架的请求方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧，希望能帮助到大家。

产生爬虫框架：

1、建立一个scrapy爬虫工程

2、在工程中产生一个scrapy爬虫

3、配置spider爬虫

4、运行爬虫，获取网页

具体操作：

1、建立工程

定义一个工程，名称为：python123demo

方法：

在cmd中，d: 进入d盘， cd pycodes 进入文件pycodes

然后输入

scrapy startproject python123demo

在pycodes中会生成一个文件：

_init_.py不需要用户编写

2、在工程中产生一个scrapy爬虫

执行一条命令，给出爬虫名字和爬取的网站

产生爬虫：

生成一个名称为 demo 的spider

仅限生成 demo.py,其内容为：

name = 'demo' 当前爬虫名字为demo

allowed_domains = " 爬取该网站域名以下的链接，该域名由cmd命令台输入

start_urls = [] 爬取的初始页面

parse()用于处理相应，解析内容形成字典，发现新的url爬取请求

3、配置产生的spider爬虫，使之满足我们的需求

将解析的页面保存成文件

修改demo.py文件

4、运行爬虫，获取网页

打开cmd输入命令行进行爬虫

然后我的电脑上出现了一个错误

windows系统上出现这个问题的解决需要安装Py32Win模块，但是直接通过官网链接装exe会出现几百个错误，更方便的做法是

pip3 install pypiwin32

这是py3的解决方案

注意：py3版本如果用 pip install pypiwin32指令会发生错误

安装完成后，重新进行爬虫，成功！撒花！

捕获页面存储在 demo.html文件中

demo.py 所对应的完整代码：

两版本等价：

以上是如何完整写一个爬虫框架的详细内容。更多信息请关注PHP中文网其他相关文章！

相关标签：

python 框架

上一篇：Python之爬取其他网页下一篇：python操作文件方法

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

跟我学PS第八天02：光效素材的抠图方法

2018-08-28 15:02:42
跟我学PS第八天01：如何抠取文件中的印章

2018-08-25 10:55:46
跟我学PS第七天02：如何抠出复杂树林

2018-08-20 16:25:41
跟我学PS第七天01：如何将彩图抠出线稿效果

2018-08-18 11:26:54
跟我学PS第六天02：模糊工具

2018-08-14 16:35:58
跟我学PS第六天01：修复画笔工具

2018-07-28 15:36:43
跟我学PS第五天02：移动工具的使用方法和应用

2018-07-27 16:59:00
跟我学PS第五天01：使用裁剪工具

2018-07-27 15:22:47
跟我学PS第四天02：练习Photoshop中的套索工具

2018-07-23 17:56:00
跟我学PS第四天01：如何给照片加边框效果

2018-07-23 16:21:38

最新问题

框架

来自于 1970-01-01 08:00:00

0

0

0

框架

来自于 1970-01-01 08:00:00

0

0

0

什么框架？

来自于 1970-01-01 08:00:00

0

0

0

框架学习 - Android 界面框架！

来自于 1970-01-01 08:00:00

0

0

0

javascript - layui框架怎么样？

来自于 1970-01-01 08:00:00

0

0

0

相关专题

更多>

热门推荐

热门教程

更多>

相关教程

热门推荐

最新课程

最新ThinkPHP 5.1全球首发视频教程(60天成就PHP大牛线上培训班课)

1437212
php入门教程之一周学会PHP

4297023
JAVA 初级入门视频教程

2665715
小甲鱼零基础入门学习Python视频教程

516630
PHP 零基础入门教程

877440

最新下载

更多>

网站特效

网站源码

网站素材

前端模板