Dieser Artikel stellt hauptsächlich die relevanten Informationen über die Verwendung des Beautiful Soup-Moduls zum Erstellen von Objekten vor. Ich glaube, dass es für jeden, der es benötigt, einen gewissen Referenzwert hat.
Installieren
Installieren Sie das Beautiful Soup-Modul über pip: pip install beautifulsoup4
.
Sie können auch die PyCharm-IDE verwenden, um Code in den Einstellungen von PyCharm zu schreiben, darin nach dem Beautiful Soup-Modul zu suchen und es zu installieren.
BeautifulSoup-Objekt erstellen
Das Beautiful Soup-Modul wird häufig zum Abrufen von Daten von Webseiten verwendet. Mit dem Beautiful Soup-Modul können wir beliebige Daten aus einem HTML/XML-Dokument extrahieren, zum Beispiel alle Links in einer Webseite oder Inhalte innerhalb von Tags.
Um dies zu erreichen, stellt Beautiful Soup verschiedene Objekte und Methoden zur Verfügung. Jedes HTML/XML-Dokument kann in verschiedene Beautiful Soup-Objekte konvertiert werden. Diese Objekte haben unterschiedliche Eigenschaften und Methoden, und wir können die erforderlichen Daten daraus extrahieren.
Beautiful Soup hat insgesamt drei Objekte:
BeautifulSoup
Tag
NavigableString
Erstellen eines BeautifulSoup-Objekts
Das Erstellen eines BeautifulSoup-Objekts ist der Ausgangspunkt für jede Beautiful Soup Projekt.
BeautifulSoup kann eine Zeichenfolge oder ein dateiähnliches Objekt, beispielsweise eine Datei oder Webseite, auf dem Computer übergeben.
Erstellen Sie ein BeautifulSoup-Objekt aus einer Zeichenfolge
Erstellen Sie ein BeautifulSoup-Objekt, indem Sie in seinem Konstruktor eine Zeichenfolge übergeben.
helloworld = '<p>Hello World</p>' soup_string = BeautifulSoup(helloworld) print soup_string <html><body><p>Hello World</p></body></html>
Erstellen Sie ein BeautifulSoup-Objekt aus einem dateiähnlichen Objekt
Erstellen Sie ein BeautifulSoup-Objekt, indem Sie in seinem Konstruktor ein dateiähnliches Objekt übergeben. Dies ist beim Parsen von Online-Webseiten sehr nützlich.
url = "http://www.glumes.com" page = urllib2.urlopen(url) soup = BeautifulSoup(page) print soup
Zusätzlich zur Übergabe dateiähnlicher Objekte können wir auch lokale Dateiobjekte an den Konstruktor von BeautifulSoup übergeben, um Objekte zu generieren.
with open('foo.html','r') as foo_file : soup_foo = BeautifulSoup(foo_file) print soup_foo
Erstellen Sie BeautifulSoup-Objekte für das XML-Parsen
Das Beautiful Soup-Modul kann auch zum Parsen von XML verwendet werden.
Beim Erstellen eines BeautifulSoup-Objekts wählt das Beautiful Soup-Modul die entsprechende TreeBuilder-Klasse aus, um den HTML/XML-Baum zu erstellen. Standardmäßig ist das HTML TreeBuilder-Objekt ausgewählt, das den Standard-HTML-Parser verwendet, um einen HTML-Strukturbaum zu erstellen. Im obigen Code wird das BeautifulSoup-Objekt aus der Zeichenfolge generiert, indem sie in eine HTML-Baumstruktur analysiert wird.
Wenn wir möchten, dass das Beautiful Soup-Modul den Eingabeinhalt in einen XML-Typ analysiert, müssen wir den im Beautiful Soup-Konstruktor verwendeten Funktionsparameter genau angeben. Durch Angabe des Parameters „features“ wählt Beautiful Soup die TreeBuilder-Klasse aus, die am besten für die von uns gewünschten Funktionen geeignet ist.
Verstehen des Funktionsparameters
Jeder TreeBuilder verfügt je nach verwendetem Parser über unterschiedliche Funktionen. Daher führt der Eingabeinhalt je nach dem an den Konstruktor übergebenen Funktionsparameter zu unterschiedlichen Ergebnissen.
Im Beautiful Soup-Modul lauten die derzeit von TreeBuilder verwendeten Parser wie folgt:
lxml
html5lib
html.parser
Der Features-Parameter des BeautifulSoup-Konstruktors kann eine String-Liste oder einen String-Wert akzeptieren.
Derzeit sind die von jedem TreeBuilder unterstützten Funktionsparameter und Parser in der folgenden Tabelle aufgeführt:
Features | TreeBuilder | Parser |
---|---|---|
[‘lxml','html','fast','permissive'] | LXMLTreeBuilder | lxml |
[‘html','html5lib','permissive','strict','html5′] | HTML5TreeBuilder | html5lib |
[‘html','strict','html.parser'] | HTMLParserTreeBuilder | html.parser |
[‘xml','lxml','permissive','fast'] | LXMLTreeBuilderForXML | lxml |
根据指定的 feature 参数,Beautiful Soup 将会选择最合适的 TreeBuilder 类。如果在指定对应的解析器时,出现如下的报错信息,可能就是需要安装对应的解析器了。
bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: html5lib. Do you need to install a parser library?
就 HTML 文档而言,选择 TreeBuilder 的顺序是基于解析器建立的优先级,就如上表格所示的优先级。首先是 lxml ,其次是 html5lib ,最后才是 html.parser 。例如,我们选择 html 字符串作为 feature 参数,那么如果 lxml 解析器可用,则 Beautiful Soup 模块将会选择 LXMLTreeBuilder 。如果 lxml 不可用,则会选择 根据 html5lib 解析器选择 HTML5TreeBuilder 。如果在不可用,则会选择根据 html.parser 选择 HTMLParserTreeBuilder 了。
至于 XML ,由于 lxml 是唯一的解析器,所以 LXMLTreeBuilderForXML 总是会被选择的。
所以,为 XML 创建一个 Beautiful Soup 对象的代码如下:
helloworld = '<p>Hello World</p>' soup_string = BeautifulSoup(helloworld,features="xml") print soup_string
输入的结果也是 XML 形式的文件 :
在创建 Beautiful Soup 对象时,更好的实践是指定解析器。这是因为,不同的解析器解析的结果内容大不相同,尤其是在我们的 HTML 文档内容非法时,结果更为明显。
当我们创建一个 BeautifulSoup 对象时,Tag 和 NavigableString 对象也就创建了。
创建 Tag 对象
我们可以从 BeautifulSoup 对象中得到 Tag 对象,也就是 HTML/XML 中的标签。
如下 HTML 代码所示:
#!/usr/bin/python # -*- coding:utf-8 -*- from bs4 import BeautifulSoup html_atag = """ <html> <body> <p>Test html a tag example</p> <a href="http://www.glumes.com'>Home</a> <a href="http;//www.glumes.com/index.html'>Blog</a> </body> <html> """ soup = BeautifulSoup(html_atag,'html.parser') atag = soup.a print type(atag) print atag
从结果中可以看到 atag 的类型是
HTML/XML 标签对象具有名称和属性。名称就是标签的名字,例如 标签 的名称就是 a 。属性则是标签的 class 、id 、style 等。Tag 对象允许我们得到 HTML 标签的名称和属性 。
Tag 对象的名称
通过 .name 方式得到 Tag 对象的名称 。
tagname = atag.name print tagname
同时也能够改变 Tag 对象的名称:
atag.name = 'p'