复杂的HTML解析 003_html/css_WEB-ITnose-html教學-PHP中文網

首頁

web前端

html教學

复杂的HTML解析 003_html/css_WEB-ITnose

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 21, 2016 am 08:49 AM

当我们想要从复杂的网络信息中抽取出我们需要的信息时，不假思索的写出层层抽取的代码是非常不理智的。这样的代码又臭又长，难以阅读，且容易失效。正确的方法是三思而后行，使用正确的技巧方法写出简洁，易懂，扩展性强的代码。重要的事情说三遍：三思而后行，三思而后行，三思而后行### 1.class和id抽取网页的class属性和id属性是非常丰富的，我们可以使用这些属性来抽取信息：例子：```from urllib.request import urlopenfrom bs4 import BeautifulSouphtml = urlopen("http://pythonscraping.com/pages/warandpeace.html")#网页html代码赋给变量bs0bjbs0bj = BeautifulSoup(html)#返回一个含有class=green属性的列表namelist = bs0bj.findAll("span",{"class":"green"})#遍历输出列表中不含标签的文字。for name in namelist:	print(name.get_text())```.get_text()：把正在处理的html文档中的所有标签都清除，返回一个只包含文字的字符串，一般情况下因尽可能保留标签，在最后情况下使用get_text()。### 2.find（）和finaall（）find（）和finaall（）这两个函数是非常常用的，我们可以用它们找到需要的标签或标签组。函数的格式定义如下：```      findAll(tag, attributes, recursive, text, limit, keywords)find(tag, attributes, recursive, text, keywords)```- tag：可以传入一个标签或多个标签的标签组，.findAll({"h1","h2","h3","h4","h5","h6"})- attributes：用一个字典封装的一个标签的若干属性和对应的属性值- recursive：是否递归查找子标签，默认为true，如果设置为False，则只查找一级标签。- text：用来匹配标签的文本内容，不是标签的属性，切记。- limit：限制数量，当为1时相当于find（）函数，设置为n时，显示前n个，按在网页上的顺序排列显示。- keyword：选择具有指定属性的标签。### 3.beautifulsoup对象- BeautifulSoup 对象：前面代码中的bsObj- Tag 对象 ：前面代码中的bsObj.div.h1- NavigableString 对象：标签里的文字- comment 对象：查找html的注释标签, <!--like this one-->### 4.导航树：整个html页面可以简化为一棵树，如下所示：![输入图片说明](https://static.oschina.net/uploads/img/201605/07122511_gnYC.png "在这里输入图片标题")![输入图片说明](https://static.oschina.net/uploads/img/201605/07122527_3gG9.png "在这里输入图片标题")1.处理子标签和后代标签：一般情况下，beautifulsoup总是处理当前标签下的后代标签，如bs0bj.body.h1是处理当前body标签下的第一个h1标签。bs0bj.body.finaAll("img")是找到第一div标签下的索引img列表。如果只想要找到子标签，可以使用.children标签。```from urllib.request import urlopenfrom bs4 import BeautifulSouphtml = urlopen("http://www.pythonscraping.com/pages/page3.html")bsObj = BeautifulSoup(html)for child in bsObj.find("table",{"id":"giftList"}).children:    print(child)```上面的代码会打印giftlist表格中的索引产品的数据行。使用descendants（）标签可以输出所有的后代标签。2.兄弟标签：使用next_siblings（）函数可以处理兄弟标签。```from urllib.request import urlopenfrom bs4 import BeautifulSouphtml = urlopen("http://www.pythonscraping.com/pages/page3.html")bsObj = BeautifulSoup(html)for sibling in bsObj.find("table",{"id":"giftList"}).tr.next_siblings:print(sibling)```使用兄弟标签会跳过标签自身，因为自身不能当作自己的兄弟，同时兄弟标签只能查找后面的标签，不能查找自身以及前面的兄弟标签。与next_siblings()类似，previous_siblings()函数是查找前面的兄弟节点。同时还有next_siblings()和previous_siblings()函数，它们的作业是返回单个标签。3.父标签使用parent和parents标签可以查找给定标签的父标签或父标签列表。```from urllib.request import urlopenfrom bs4 import BeautifulSouphtml = urlopen("http://www.pythonscraping.com/pages/page3.html")bsObj = BeautifulSoup(html)print(bsObj.find("img",{"src":"../img/gifts/img1.jpg" }).parent.previous_sibling.get_text())```上面代码的意思是找到给定标签的父标签的前一个兄弟标签中的文字。### 5.正则表达式：正则表达式是非常丰富的，但是上手很简单。可以自己搜索一些教程学习。正则测试：http://www.regexpal.com/### 6.正则表达式与BeautifulSoup正则表达式是非常有用的，举个例子，加入你想要抓取索引的img图片，使用finaall（）得到的结果可能会出乎意料，多了许多隐藏的图片或不相关的图片，此时可以使用正则表达式。我们发现想要获取的图片源代码格式如下：```<img  src="/static/imghw/default1.png"  data-src="../img/gifts/img3.jpg"  class="lazy" alt="复杂的HTML解析 003_html/css_WEB-ITnose" >```这样我们可以直接通过文件路径来查找信息，```from urllib.requestimport urlopenfrom bs4import BeautifulSoupimport rehtml = urlopen("http://www.pythonscraping.com/pages/page3.html")bsObj = BeautifulSoup(html)images = bsObj.findAll("img", {"src":re.compile("\.\.\/img\/gifts/img.*\.jpg")})for image in images:    print(image["src"])```上面的例子使用了正则表达式匹配了以../img/gifts/img开头,以.jpg结尾的图片。结果如下：```../img/gifts/img1.jpg../img/gifts/img2.jpg../img/gifts/img3.jpg../img/gifts/img4.jpg../img/gifts/img6.jpg```### 6.标签属性：对于一个标签对象，可以使用下面代码获得它的全部属性：```myTag.attrs```获得的属性存在一个字典中，可以取出某一个属性```myTag.attrs["href"]```### 7.lambda表达式

登入後複製

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

熱工具

熱門話題

Java教學

1653

CakePHP 教程

1413

Laravel 教程

1306

PHP教程

1251

C# 教程

1224

Related knowledge

HTML容易為初學者學習嗎？ Apr 07, 2025 am 12:11 AM

HTML適合初學者學習，因為它簡單易學且能快速看到成果。 1)HTML的學習曲線平緩，易於上手。 2)只需掌握基本標籤即可開始創建網頁。 3)靈活性高，可與CSS和JavaScript結合使用。 4)豐富的學習資源和現代工具支持學習過程。

了解HTML，CSS和JavaScript：初學者指南 Apr 12, 2025 am 12:02 AM

WebDevelovermentReliesonHtml，CSS和JavaScript：1）HTMLStructuresContent，2）CSSStyleSIT和3）JavaScriptAddSstractivity，形成thebasisofmodernWebemodernWebExexperiences。

HTML，CSS和JavaScript的角色：核心職責 Apr 08, 2025 pm 07:05 PM

HTML定義網頁結構，CSS負責樣式和佈局，JavaScript賦予動態交互。三者在網頁開發中各司其職，共同構建豐富多彩的網站。

Gitee Pages靜態網站部署失敗：單個文件404錯誤如何排查和解決？ Apr 04, 2025 pm 11:54 PM

GiteePages靜態網站部署失敗：404錯誤排查與解決在使用Gitee...

HTML中起始標籤的示例是什麼？ Apr 06, 2025 am 12:04 AM

AnexampleOfAstartingTaginHtmlis，beginSaparagraph.startingTagSareEssentialInhtmlastheyInitiateEllements，defiteTheeTheErtypes，andarecrucialforsstructuringwebpages wepages webpages andConstructingthedom。