Web Scraping with Python深入HTML解析_html/css_WEB-ITnose-html教學-PHP中文網

find() 和 findAll()

正则表达式与 BeautifulSoup

首頁

web前端

html教學

Web Scraping with Python深入HTML解析_html/css_WEB-ITnose

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 21, 2016 am 08:55 AM

有人问米开朗基罗："您是如何创造出《大卫》这样的巨作的？"他答道："很简单，我去采石场，看见一块巨大的大理石，我要做的只是凿去那些不该有的大理石，大卫就诞生了。

同样我们在抓取网页的时候，需要去掉我们不需要的，提取出需要的信息，只不过技术相当复杂。这篇文章将介绍HTML解析技术

在上篇文章（ Web Scraping with Python--第一个网页抓取实例）中，我们初步接触了BeutifulSoup库, 这里我们将通过属性来查找标签tags。

几乎所有的网站都包含CSS，对我们抓取网页很有利，CSS依赖于不同的HTML元素有不同的标记，比如：

来看一个网站-http://www.pythonscraping.com/pages/warandpeace.html，里面是一篇文章，口语是红色的字体，而讲话者是绿色的字体，选取其中一个源代码片段：

"Heavens! what a virulent attack!" replied the prince, not in the least disconcerted by this reception.

可以使用上一篇文章中使用的程序来创建一个BeautifulSoup对象来获取整个网页：

from urllib.requestimport urlopenfrom bs4import BeautifulSouphtml = urlopen("http://www.pythonscraping.com/pages/warandpeace.html")bsObj = BeautifulSoup(html)

登入後複製

使用BeautifulSoup对象的findAll方法来提取出一个指定要求的列表

nameList = bsObj.findAll("span", {"class":"green"})for namein nameList:    print(name.get_text())

登入後複製

将上面的代码证整理一下：

from urllib.requestimport urlopenfrom bs4import BeautifulSoup html = urlopen("http://www.pythonscraping.com/pages/warandpeace.html")bsObj = BeautifulSoup(html, "html.parser")nameList = bsObj.findAll("span", {"class": "green"})for namein nameList:    print(name.get_text())

登入後複製

运行结果：

Anna

Pavlovna Scherer

Empress Marya

……

解释一下上面的代码：

bsObj.findAll(tagName, tagAttributes) 获取整个页面上的标签的列表，然后通过迭代列表，获取相应的标签的内容

find() 和 findAll()

这两个方法很相似，它们的声明如下：

findAll(tag, attributes, recursive, text, limit, keywords)find(tag, attributes, recursive, text, keywords)

tag参数就像之前见到的那样，你可以传递一个字符串或者一个字符串列表：.findAll({"h1","h2","h3","h4","h5","h6"})

attributes参数传递一个属性和tags相匹配的字典，例如:.findAll("span", {"class":"green", "class":"red"})

recursive参数用于设置是否设置递归

keywor参数允许你包含一个特别的属性，例如：

from urllib.requestimport urlopenfrom bs4import BeautifulSoup html = urlopen("http://www.pythonscraping.com/pages/warandpeace.html")bsObj = BeautifulSoup(html, "html.parser")allText = bsObj.findAll(id="text")#也可以换为：allText = bsObj.findAll("",{"id":"text"})print(allText[0].get_text())

登入後複製

如果你想查找子标签，可以使用children:

from urllib.requestimport urlopenfrom bs4import BeautifulSoup html = urlopen("http://www.pythonscraping.com/pages/page3.html")bsObj = BeautifulSoup(html, "html.parser")for childin bsObj.find("table", {"id": "giftList"}).children:    print(child)

登入後複製

如果想去掉第一行的内容，可以使用next_siblings

from urllib.requestimport urlopenfrom bs4import BeautifulSoup html = urlopen("http://www.pythonscraping.com/pages/page3.html")bsObj = BeautifulSoup(html, "html.parser")for siblingin bsObj.find("table", {"id":"giftList"}).tr.next_siblings:    print(sibling)

登入後複製

如果你想查找父标签，可以使用 previous_siblings:

from urllib.requestimport urlopenfrom bs4import BeautifulSoup html = urlopen("http://www.pythonscraping.com/pages/page3.html")bsObj = BeautifulSoup(html, "html.parser")print(bsObj.find("img",{"src":"../img/gifts/img1.jpg"}).parent.previous_sibling.get_text())

登入後複製

从下面的html结构一目了然

—

— (3)

— “$15.00” (4)

— s (2)

— Web Scraping with Python深入HTML解析_html/css_WEB-ITnose (1)

正则表达式与 BeautifulSoup

python中的正则可以参照我的另一篇《 Python基础（9）--正则表达式》

注意到上面的实例网页中有如下结构：

Web Scraping with Python深入HTML解析_html/css_WEB-ITnose

假如有个需求是提取所有的img标签，按照之前的说法，可以考虑 findAll("img")来解决这个问题，但是现代网站有的隐藏img……等不确定因素，这时候才有正则表达式来解决：

from urllib.requestimport urlopenfrom bs4import BeautifulSoupimport re html = urlopen("http://www.pythonscraping.com/pages/page3.html")bsObj = BeautifulSoup(html, "html.parser")images = bsObj.findAll("img", {"src":re.compile("\.\.\/img\/gifts/img.*\.jpg")})for imagein images:    print(image["src"])

登入後複製

运行结果如下：

../img/gifts/img1.jpg

../img/gifts/img2.jpg

../img/gifts/img3.jpg

../img/gifts/img4.jpg

../img/gifts/img6.jpg

作者：工学1号馆

出处： http://wuyudong.com/1842.html

本文版权归作者所有，欢迎转载，在文章页面明显位置给出原文链接，否则保留追究法律责任的权利.

如果觉得本文对您有帮助，可以对作者进行小额【赞助】

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

熱工具

熱門話題

Java教學

1664

CakePHP 教程

1422

Laravel 教程

1316

PHP教程

1267

C# 教程

1239

Related knowledge

了解HTML，CSS和JavaScript：初學者指南 Apr 12, 2025 am 12:02 AM

WebDevelovermentReliesonHtml，CSS和JavaScript：1）HTMLStructuresContent，2）CSSStyleSIT和3）JavaScriptAddSstractivity，形成thebasisofmodernWebemodernWebExexperiences。

HTML，CSS和JavaScript：Web開發人員的基本工具 Apr 09, 2025 am 12:12 AM

HTML、CSS和JavaScript是Web開發的三大支柱。 1.HTML定義網頁結構，使用標籤如、等。 2.CSS控製網頁樣式，使用選擇器和屬性如color、font-size等。 3.JavaScript實現動態效果和交互，通過事件監聽和DOM操作。

HTML：結構，CSS：樣式，JavaScript：行為 Apr 18, 2025 am 12:09 AM

HTML、CSS和JavaScript在Web開發中的作用分別是：1.HTML定義網頁結構，2.CSS控製網頁樣式，3.JavaScript添加動態行為。它們共同構建了現代網站的框架、美觀和交互性。

HTML，CSS和JavaScript的未來：網絡開發趨勢 Apr 19, 2025 am 12:02 AM

HTML的未來趨勢是語義化和Web組件，CSS的未來趨勢是CSS-in-JS和CSSHoudini，JavaScript的未來趨勢是WebAssembly和Serverless。 1.HTML的語義化提高可訪問性和SEO效果，Web組件提升開發效率但需注意瀏覽器兼容性。 2.CSS-in-JS增強樣式管理靈活性但可能增大文件體積，CSSHoudini允許直接操作CSS渲染。 3.WebAssembly優化瀏覽器應用性能但學習曲線陡，Serverless簡化開發但需優化冷啟動問題。

HTML的未來：網絡設計的發展和趨勢 Apr 17, 2025 am 12:12 AM

HTML的未來充滿了無限可能。 1)新功能和標準將包括更多的語義化標籤和WebComponents的普及。 2)網頁設計趨勢將繼續向響應式和無障礙設計發展。 3)性能優化將通過響應式圖片加載和延遲加載技術提升用戶體驗。

HTML與CSS vs. JavaScript：比較概述 Apr 16, 2025 am 12:04 AM

HTML、CSS和JavaScript在網頁開發中的角色分別是：HTML負責內容結構，CSS負責樣式，JavaScript負責動態行為。 1.HTML通過標籤定義網頁結構和內容，確保語義化。 2.CSS通過選擇器和屬性控製網頁樣式，使其美觀易讀。 3.JavaScript通過腳本控製網頁行為，實現動態和交互功能。

HTML：建立網頁的結構 Apr 14, 2025 am 12:14 AM

HTML是構建網頁結構的基石。 1.HTML定義內容結構和語義，使用、、等標籤。 2.提供語義化標記，如、、等，提升SEO效果。 3.通過標籤實現用戶交互，需注意表單驗證。 4.使用、等高級元素結合JavaScript實現動態效果。 5.常見錯誤包括標籤未閉合和屬性值未加引號，需使用驗證工具。 6.優化策略包括減少HTTP請求、壓縮HTML、使用語義化標籤等。

HTML的角色：構建Web內容 Apr 11, 2025 am 12:12 AM

HTML的作用是通過標籤和屬性定義網頁的結構和內容。 1.HTML通過到、等標籤組織內容，使其易於閱讀和理解。 2.使用語義化標籤如、等增強可訪問性和SEO。 3.優化HTML代碼可以提高網頁加載速度和用戶體驗。

See all articles

Web Scraping with Python深入HTML解析_html/css_WEB-ITnose

find() 和 findAll()

正则表达式与 BeautifulSoup

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題