HTML から JSON への変換: Python を通じて実装
ビッグデータと人工知能の台頭により、データ処理と統計分析のスキルがますます重要になっています。 Web 開発者にとって、HTML は最も一般的に使用されるデータ形式の 1 つです。この記事では、Python でさらに多くのデータ処理と統計分析を行うために、HTML を JSON 形式に変換する方法を学びます。
JSONとは何ですか?
JSON (JavaScript Object Notation) は軽量のデータ交換形式です。これは JavaScript オブジェクト構文に基づいていますが、現在では独立したデータ形式となり、Web サービスやデータ交換で広く使用されています。 XML と比較すると、JSON はシンプルで高速、使いやすく理解しやすいため、フロントエンドとバックエンドのデータ交換によく使用されます。
なぜ HTML を JSON に変換する必要があるのですか?
Web 開発では、さまざまな Web サイトや API からデータを抽出し、それを分析に使用したり、自分の Web サイトに表示したりする必要がよくあります。 HTML はデータ形式の 1 つである可能性がありますが、ほとんどの場合、それを JSON 形式に変換する必要があります。これは、JSON 形式がよりコンパクトで、処理と送信が容易で、より汎用性が高く、複数の言語やテクノロジー間のデータ交換に使用できるためです。
HTML を JSON に変換する Python プログラム
Python は、HTML を JSON に簡単に変換できる豊富なライブラリとツールを備えた人気のプログラミング言語です。この記事では、Python ライブラリ Beautiful Soup と lxml を使用して HTML を解析し、JSON 形式に変換します。実装手順は次のとおりです:
Python で HTML を JSON に変換するには、次のライブラリとツールを使用する必要があります:
これらのライブラリは、PIP ツール (例: pip install beautifulsoup4 lxml) とツールを使用してインストールできます。
HTMLをJSONに変換する前に、変換するHTMLドキュメントを準備する必要があります。これは、Web ページからコピーされた HTML コード、またはローカル ファイルから読み取られた HTML ドキュメントです。この記事では、例として次の HTML コードを使用します:
これは、Web ページを作成する初めての試みです。
HTML ドキュメントでは、Beautiful Soup と lxml を使用して解析できます。以下は Python コードです:
from bs4 import BeautifulSoup
import lxml
html_doc = """
これは、Web ページを作成する初めての試みです。
soup = BeautifulSoup(html_doc, "lxml")
このコードは、HTML ドキュメントをツリー構造に解析します。Beautiful Soup の関数とメソッドを使用して、HTML のさまざまな部分を取得できます。書類。
解析された HTML ドキュメントをトラバースすることで、JSON 形式に変換できます。以下は Python コードの例です:
import json
title =Soup.title.string
body =Soup.body
content_list = []
for tag in body.descendants:
tag.string が None でない場合:
<code>content_list.append(tag.string.strip())</code>
content = " ".join(content_list)
web_page = {"title": title, "content": content}
json_data = json.dumps (web_page)
print(json_data)
出力結果は次のとおりです:
{"title": "My Web Page", "content": "私の Web ページへようこそ これは、Web を作成するという私の最初の試みです。ページ。" }
解析された HTML ドキュメントをループすることにより、HTML のタイトルと本文を取得し、それらを JSON 形式に変換します。 Python の json ライブラリを使用して JSON データを文字列に変換し、JSON データを出力します。
結論
この記事では、Python の Beautiful Soup と lxml ライブラリを使用して HTML を JSON 形式に変換する方法を学びました。この方法により、HTML Web ページからデータを抽出し、Python 環境でさらに処理と分析を実行できます。このアプローチは、Web 開発、データ処理、およびデータ分析において重要な役割を果たします。
以上がhtmlからjsonへの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。