Beautiful Soup モジュールが Python でオブジェクトを作成する方法の概要

Y2J
リリース: 2017-04-22 09:45:27
オリジナル
1795 人が閲覧しました

この記事では主に、Beautiful Soup モジュールを使用してオブジェクトを作成するための関連情報を紹介します。必要な方はぜひ参考にしてください。

インストール

pip 経由で Beautiful Soup モジュールをインストールします: pip install beautifulsoup4

PyCharm IDE を使用してコードを記述することもできます。PyCharm の設定でプロジェクトを見つけ、その中で Beautiful Soup モジュールを検索してインストールします。

BeautifulSoup オブジェクトを作成する

Beautiful Soup モジュールは、Web ページからデータを取得するために広く使用されています。 Beautiful Soup モジュールを使用すると、HTML/XML ドキュメントからあらゆるデータ (Web ページ内のすべてのリンクやタグ内のコンテンツなど) を抽出できます。

これを実現するために、Beautiful Soup はさまざまなオブジェクトとメソッドを提供します。あらゆる HTML/XML ドキュメントをさまざまな Beautiful Soup オブジェクトに変換でき、これらのオブジェクトにはさまざまなプロパティとメソッドがあり、そこから必要なデータを抽出できます。

Beautiful Soup には合計 3 つのオブジェクトがあります:

  1. BeautifulSoup

  2. Tag

  3. NavigableString

BeautifulSoup オブジェクトを作成します

BeautifulSoup オブジェクトの作成は、あらゆる作業の開始点です。美しいスーププロジェクト。

BeautifulSoup は、マシン上のファイルや Web ページなどの文字列またはファイルのようなオブジェクトを渡すことができます。

文字列から BeautifulSoup オブジェクトを作成する

BeautifulSoup のコンストラクターに文字列を渡してオブジェクトを作成します。

helloworld = &#39;<p>Hello World</p>&#39;
soup_string = BeautifulSoup(helloworld)
print soup_string 
<html><body><p>Hello World</p></body></html>
ログイン後にコピー

ファイル様オブジェクトから BeautifulSoup オブジェクトを作成する

BeautifulSoup のコンストラクターにファイル様オブジェクトを渡すことでオブジェクトを作成します。これは、オンライン Web ページを解析するときに非常に便利です。

url = "http://www.glumes.com"
page = urllib2.urlopen(url)
soup = BeautifulSoup(page)
print soup
ログイン後にコピー

ファイルのようなオブジェクトを渡すことに加えて、ローカル ファイル オブジェクトを BeautifulSoup のコンストラクターに渡してオブジェクトを生成することもできます。

with open(&#39;foo.html&#39;,&#39;r&#39;) as foo_file :
 soup_foo = BeautifulSoup(foo_file)
print soup_foo
ログイン後にコピー

XML 解析用の BeautifulSoup オブジェクトを作成する

Beautiful Soup モジュールは XML の解析にも使用できます。

BeautifulSoup オブジェクトを作成するとき、Beautiful Soup モジュールは適切な TreeBuilder クラスを選択して HTML/XML ツリーを作成します。デフォルトでは、HTML TreeBuilder オブジェクトが選択されており、デフォルトの HTML パーサーを使用して HTML 構造ツリーを生成します。上記のコードでは、文字列を HTML ツリー構造に解析することによって、BeautifulSoup オブジェクトが生成されます。

Beautiful Soup モジュールで入力コンテンツを XML 型に解析したい場合は、Beautiful Soup コンストラクターで使用される features パラメーターを正確に指定する必要があります。 features パラメーターを指定すると、Beautiful Soup は必要な機能を満たす最も適切な TreeBuilder クラスを選択します。

機能パラメーターを理解する

すべての TreeBuilder には、使用するパーサーに基づいて異なる機能があります。したがって、入力コンテンツは、コンストラクターに渡される features パラメーターに応じて異なる結果になります。
Beautiful Soup モジュールで、現在 TreeBuilder によって使用されているパーサーは次のとおりです:

  1. lxml

  2. html5lib

  3. html.parser

BeautifulSoup コンストラクターの features パラメーターは、次のリストを受け入れることができます。文字列または文字列値。

現在、各 TreeBuilder でサポートされている機能パラメーターとパーサーは次の表のとおりです。 fast '、'許容 ']

lxmltreebuilderlxml[' html '、' html5lib '、'容認 '、' strict '、' html5 ']html5treebuilderhtml5lib[' '' '' '' ' html ' ,'strict','html.parser']HTMLParserTreeBuilderhtml.parser['xml','lxml','permissive','fast']LXMLTreeBuilderForXMLlxml

根据指定的 feature 参数,Beautiful Soup 将会选择最合适的 TreeBuilder 类。如果在指定对应的解析器时,出现如下的报错信息,可能就是需要安装对应的解析器了。

bs4.FeatureNotFound: Couldn&#39;t find a tree builder with the features you requested: html5lib. 
Do you need to install a parser library?
ログイン後にコピー

就 HTML 文档而言,选择 TreeBuilder 的顺序是基于解析器建立的优先级,就如上表格所示的优先级。首先是 lxml ,其次是 html5lib ,最后才是 html.parser 。例如,我们选择 html 字符串作为 feature 参数,那么如果 lxml 解析器可用,则 Beautiful Soup 模块将会选择 LXMLTreeBuilder 。如果 lxml 不可用,则会选择 根据 html5lib 解析器选择 HTML5TreeBuilder 。如果在不可用,则会选择根据 html.parser 选择 HTMLParserTreeBuilder 了。

至于 XML ,由于 lxml 是唯一的解析器,所以 LXMLTreeBuilderForXML 总是会被选择的。

所以,为 XML 创建一个 Beautiful Soup 对象的代码如下:

helloworld = &#39;<p>Hello World</p>&#39;
soup_string = BeautifulSoup(helloworld,features="xml")
print soup_string
ログイン後にコピー

输入的结果也是 XML 形式的文件 :

在创建 Beautiful Soup 对象时,更好的实践是指定解析器。这是因为,不同的解析器解析的结果内容大不相同,尤其是在我们的 HTML 文档内容非法时,结果更为明显。

当我们创建一个 BeautifulSoup 对象时,Tag 和 NavigableString 对象也就创建了。

创建 Tag 对象

我们可以从 BeautifulSoup 对象中得到 Tag 对象,也就是 HTML/XML 中的标签。

如下 HTML 代码所示:

#!/usr/bin/python
# -*- coding:utf-8 -*-
from bs4 import BeautifulSoup
html_atag = """
 <html>
 <body>
 <p>Test html a tag example</p>
 <a href="http://www.glumes.com&#39;>Home</a>
 <a href="http;//www.glumes.com/index.html&#39;>Blog</a>
 </body>
 <html>
 """
soup = BeautifulSoup(html_atag,&#39;html.parser&#39;)
atag = soup.a
print type(atag)
print atag
ログイン後にコピー

从结果中可以看到 atag 的类型是 。而 soup.a 的结果就是 HTML 文档中的第一个 标签。
HTML/XML 标签对象具有名称和属性。名称就是标签的名字,例如 标签
的名称就是 a 。属性则是标签的 class 、id 、style 等。Tag 对象允许我们得到 HTML 标签的名称和属性 。

Tag 对象的名称

通过 .name 方式得到 Tag 对象的名称 。

同时也能够改变 Tag 对象的名称:

这样就将上面 HTML 文档中的第一个 标签名称换成了

标签了。

Tag 对象的属性

在 HTML 页面中,标签可能有不同的属性,例如 class 、id 、style 等。Tag 对象能够以字典的形式访问标签的属性。

也能通过 .attrs 的方式访问到,这样会将所有的属性内容都打印出来 :

创建 NavigableString 对象

NavigableString 对象持有 HTML 或 XML 标签的文本内容。这是一个 Unicode 编码的字符串。

我们可以通过 .string 的方式得到标签的本文内容 。

小结

代码小结如下:

BeautifulSoup

Tag

NavigableString

总结

以上がBeautiful Soup モジュールが Python でオブジェクトを作成する方法の概要の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート