社区

学习

工具库

AI工具

休闲

简体中文

首页 > 后端开发 > Python教程 > Python之爬取其他网页

Python之爬取其他网页

零到壹度

发布： 2018-03-30 10:38:35

原创

2398 人浏览过

本文主要为大家分享一篇Python之爬取其他网页的请求方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧，希望能帮助到大家。

简单的说就是寻找网页中的超链接‘href’，之后将相对网址转变为绝对网址，在用for循环访问他

import requestsfrom bs4 import BeautifulSoup#将字符串转换为Python对象import pandas as pd
url = &#39;http://www.runoob.com/html/html-tutorial.html&#39;r= requests.get(url)
html=r.text.encode(r.encoding).decode()
soup =BeautifulSoup(html,&#39;lxml&#39;)#html放到beatifulsoup对象中l=[x.text for x in soup.findAll(&#39;h2&#39;)]#提取次标题中所有的文字df = pd.DataFrame(l,columns =[url])#将l变为DataFrame文件，列名为URLx=soup.findAll(&#39;a&#39;)[1]#查看第二个元素x.has_attr(&#39;href&#39;)#判断是都有href字符x.attrs[&#39;href&#39;]#获得超链接 attrs函数返回字典links = [i for i in soup.findAll(&#39;a&#39;)if i.has_attr(&#39;href&#39;)and i.attrs[&#39;href&#39;][0:5]== &#39;/html&#39;]#用if来做一个筛选relative_urls= set([i.attrs[&#39;href&#39;] for i in links])
absolute_urls={&#39;http://www.runoob.com&#39;+i for i in relative_urls}
absolute_urls.discard(url)#删除当前所在的urlfor i in absolute_urls:
    ri= requests.get(i)
    soupi =BeautifulSoup(ri.text.encode(ri.encoding),&#39;lxml&#39;)
    li=[x.text for x in soupi.findAll(&#39;h2&#39;)]
    dfi = pd.DataFrame(l,columns =[i])
    df = df.join(dfi,how=&#39;outer&#39;)
df

登录后复制

相关推荐：

Python爬取简单网页

python爬虫之爬取腾讯新闻

python爬取淘宝商品信息

以上是Python之爬取其他网页的详细内容。更多信息请关注PHP中文网其他相关文章！

相关标签：

python

上一篇：实例解析Python如何实现爬取京东手机图片下一篇：如何完整写一个爬虫框架

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

跟我学PS第八天02：光效素材的抠图方法

2018-08-28 15:02:42
跟我学PS第八天01：如何抠取文件中的印章

2018-08-25 10:55:46
跟我学PS第七天02：如何抠出复杂树林

2018-08-20 16:25:41
跟我学PS第七天01：如何将彩图抠出线稿效果

2018-08-18 11:26:54
跟我学PS第六天02：模糊工具

2018-08-14 16:35:58
跟我学PS第六天01：修复画笔工具

2018-07-28 15:36:43
跟我学PS第五天02：移动工具的使用方法和应用

2018-07-27 16:59:00
跟我学PS第五天01：使用裁剪工具

2018-07-27 15:22:47
跟我学PS第四天02：练习Photoshop中的套索工具

2018-07-23 17:56:00
跟我学PS第四天01：如何给照片加边框效果

2018-07-23 16:21:38

最新问题

哪些流行的Python库及其用途？

2025-03-21 18:46:29
python中的腌制和挑剔是什么？

2025-03-21 18:45:34
您最喜欢学习和开发的Python资源是什么？

2025-03-21 13:19:29
您如何使用Python的环境变量？

2025-03-21 13:16:30
Python中GC模块的目的是什么？

2025-03-21 13:13:27

相关专题

更多>

热门推荐

热门教程

更多>

相关教程

热门推荐

最新课程

最新ThinkPHP 5.1全球首发视频教程(60天成就PHP大牛线上培训班课)

1439065
php入门教程之一周学会PHP

4300139
JAVA 初级入门视频教程

2679486
小甲鱼零基础入门学习Python视频教程

517751
PHP 零基础入门教程

879126

最新下载

更多>

网站特效

网站源码

网站素材

前端模板