·Beautiful Soup は、Python に付属の標準ライブラリやその他多くのサードパーティ ライブラリ モジュールを含む、さまざまな HTML パーサーをサポートしています。その1つがlxml parserです。 lxml parserのインストールは以下の方法でインストールできます:
1) easy_install lxml 2) pip install lxml
また、Pythonのインストールについては、 easy_install と pip の 2 つのタイプがあります。
別の純粋な Python パーサーは、Web ブラウザーのように HTML ページを解析できる html5lib パーサーです。 html5lib は次の 2 つの方法でインストールできます。1) easy_install html5lib 2) pip install html5lib
Python の html.parser
BeautifulSoup(markup,"html.parser")
python自体には
高速
lxml の HTML パーサー | 良い互換性 | 外部 C 依存関係 | |
lxmlの XML パーサー | BeautifulSoup(マークアップ, " lxml-xml") BeautifulSoup(markup,"xml") | 非常に高速 | 外部 C 依存関係|
BeautifulSoup(markup, "html5lib ") | 1)互換性が非常に良い | 2) WebブラウザのようにHTMLページを解析できる 3) 有効なHTML5を作成する | 遅い外部Python依存 |
速度を追求したい場合は、 | lxml、を使用することをお勧めします使用している Python バージョン 2.x が 2.7.3 より前の場合、または python3.x が 3.2.2 より前の場合は、Python の組み込み HTML パーサーが適応しないため、html5lib または lxml をインストールして使用する必要があります。これらの古いバージョンも同様です。 |
|