目录
find() 和 findAll()
正则表达式与 BeautifulSoup
首页 web前端 html教程 Web Scraping with Python深入HTML解析_html/css_WEB-ITnose

Web Scraping with Python深入HTML解析_html/css_WEB-ITnose

Jun 21, 2016 am 08:55 AM

有人问米开朗基罗:"您是如何创造出《大卫》这样的巨作的?"他答道:"很简单,我去采石场,看见一块巨大的大理石 ,我要做的只是凿去那些不该有的大理石,大卫就诞生了。

同样我们在抓取网页的时候,需要去掉我们不需要的,提取出需要的信息,只不过技术相当复杂。这篇文章将介绍HTML解析技术

在上篇文章( Web Scraping with Python--第一个网页抓取实例)中,我们初步接触了BeutifulSoup库, 这里我们将通过属性来查找标签tags。

几乎所有的网站都包含CSS,对我们抓取网页很有利,CSS依赖于不同的HTML元素有不同的标记,比如:

来看一个网站-http://www.pythonscraping.com/pages/warandpeace.html,里面是一篇文章,口语是红色的字体,而讲话者是绿色的字体,选取其中一个源代码片段:

"Heavens! what a virulent attack!" replied the prince, not in the least disconcerted by this reception.

可以使用上一篇文章中使用的程序来创建一个BeautifulSoup对象来获取整个网页:

from urllib.requestimport urlopenfrom bs4import BeautifulSouphtml = urlopen("http://www.pythonscraping.com/pages/warandpeace.html")bsObj = BeautifulSoup(html)
登录后复制

使用BeautifulSoup对象的findAll方法来提取出一个指定要求的列表

nameList = bsObj.findAll("span", {"class":"green"})for namein nameList:    print(name.get_text())
登录后复制

将上面的代码证整理一下:

from urllib.requestimport urlopenfrom bs4import BeautifulSoup html = urlopen("http://www.pythonscraping.com/pages/warandpeace.html")bsObj = BeautifulSoup(html, "html.parser")nameList = bsObj.findAll("span", {"class": "green"})for namein nameList:    print(name.get_text())
登录后复制

运行结果:

Anna

Pavlovna Scherer

Empress Marya

……

解释一下上面的代码:

bsObj.findAll(tagName, tagAttributes) 获取整个页面上的标签的列表,然后通过迭代列表,获取相应的标签的内容

find() 和 findAll()

这两个方法很相似,它们的声明如下:

findAll(tag, attributes, recursive, text, limit, keywords)find(tag, attributes, recursive, text, keywords)

tag参数就像之前见到的那样,你可以传递一个字符串或者一个字符串列表:.findAll({"h1","h2","h3","h4","h5","h6"})

attributes参数传递一个属性和tags相匹配的字典,例如:.findAll("span", {"class":"green", "class":"red"})

recursive参数用于设置是否设置递归

keywor参数允许你包含一个特别的属性,例如:

from urllib.requestimport urlopenfrom bs4import BeautifulSoup html = urlopen("http://www.pythonscraping.com/pages/warandpeace.html")bsObj = BeautifulSoup(html, "html.parser")allText = bsObj.findAll(id="text")#也可以换为:allText = bsObj.findAll("",{"id":"text"})print(allText[0].get_text())
登录后复制

如果你想查找子标签,可以使用children:

from urllib.requestimport urlopenfrom bs4import BeautifulSoup html = urlopen("http://www.pythonscraping.com/pages/page3.html")bsObj = BeautifulSoup(html, "html.parser")for childin bsObj.find("table", {"id": "giftList"}).children:    print(child)
登录后复制

如果想去掉第一行的内容,可以使用next_siblings

from urllib.requestimport urlopenfrom bs4import BeautifulSoup html = urlopen("http://www.pythonscraping.com/pages/page3.html")bsObj = BeautifulSoup(html, "html.parser")for siblingin bsObj.find("table", {"id":"giftList"}).tr.next_siblings:    print(sibling)
登录后复制

如果你想查找父标签,可以使用 previous_siblings:

from urllib.requestimport urlopenfrom bs4import BeautifulSoup html = urlopen("http://www.pythonscraping.com/pages/page3.html")bsObj = BeautifulSoup(html, "html.parser")print(bsObj.find("img",{"src":"../img/gifts/img1.jpg"}).parent.previous_sibling.get_text())
登录后复制

从下面的html结构一目了然

(3)

— “$15.00” (4)

— s (2)

Web Scraping with Python深入HTML解析_html/css_WEB-ITnose (1)

正则表达式与 BeautifulSoup

python中的正则可以参照我的另一篇《 Python基础(9)--正则表达式》

注意到上面的实例网页中有如下结构:

Web Scraping with Python深入HTML解析_html/css_WEB-ITnose

假如有个需求是提取所有的img标签,按照之前的说法,可以考虑 findAll("img")来解决这个问题,但是现代网站有的隐藏img……等不确定因素,这时候才有正则表达式来解决:

from urllib.requestimport urlopenfrom bs4import BeautifulSoupimport re html = urlopen("http://www.pythonscraping.com/pages/page3.html")bsObj = BeautifulSoup(html, "html.parser")images = bsObj.findAll("img", {"src":re.compile("\.\.\/img\/gifts/img.*\.jpg")})for imagein images:    print(image["src"])
登录后复制

运行结果如下:

../img/gifts/img1.jpg

../img/gifts/img2.jpg

../img/gifts/img3.jpg

../img/gifts/img4.jpg

../img/gifts/img6.jpg

作者:工学1号馆

出处: http://wuyudong.com/1842.html

本文版权归作者所有,欢迎转载,在文章页面明显位置给出原文链接,否则保留追究法律责任的权利.

如果觉得本文对您有帮助,可以对作者进行小额【赞助】

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
2 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

< datalist>的目的是什么。 元素? < datalist>的目的是什么。 元素? Mar 21, 2025 pm 12:33 PM

本文讨论了html< datalist>元素,通过提供自动完整建议,改善用户体验并减少错误来增强表格。Character计数:159

> gt;的目的是什么 元素? > gt;的目的是什么 元素? Mar 21, 2025 pm 12:34 PM

本文讨论了HTML< Progress>元素,其目的,样式和与< meter>元素。主要重点是使用< progress>为了完成任务和LT;仪表>对于stati

< meter>的目的是什么。 元素? < meter>的目的是什么。 元素? Mar 21, 2025 pm 12:35 PM

本文讨论了HTML< meter>元素,用于在一个范围内显示标量或分数值及其在Web开发中的常见应用。它区分了< meter>从< progress>和前

< iframe>的目的是什么。 标签?使用时的安全考虑是什么? < iframe>的目的是什么。 标签?使用时的安全考虑是什么? Mar 20, 2025 pm 06:05 PM

本文讨论了< iframe>将外部内容嵌入网页,其常见用途,安全风险以及诸如对象标签和API等替代方案的目的。

视口元标签是什么?为什么对响应式设计很重要? 视口元标签是什么?为什么对响应式设计很重要? Mar 20, 2025 pm 05:56 PM

本文讨论了视口元标签,这对于移动设备上的响应式Web设计至关重要。它解释了如何正确使用确保最佳的内容缩放和用户交互,而滥用可能会导致设计和可访问性问题。

如何使用HTML5表单验证属性来验证用户输入? 如何使用HTML5表单验证属性来验证用户输入? Mar 17, 2025 pm 12:27 PM

本文讨论了使用HTML5表单验证属性,例如必需的,图案,最小,最大和长度限制,以直接在浏览器中验证用户输入。

HTML5中跨浏览器兼容性的最佳实践是什么? HTML5中跨浏览器兼容性的最佳实践是什么? Mar 17, 2025 pm 12:20 PM

文章讨论了确保HTML5跨浏览器兼容性的最佳实践,重点是特征检测,进行性增强和测试方法。

我如何使用html5< time> 元素以语义表示日期和时间? 我如何使用html5< time> 元素以语义表示日期和时间? Mar 12, 2025 pm 04:05 PM

本文解释了HTML5< time>语义日期/时间表示的元素。 它强调了DateTime属性对机器可读性(ISO 8601格式)的重要性,并在人类可读文本旁边,增强Accessibilit

See all articles