HTML をプレーン テキストに変換するいくつかの方法を検討する

PHPz
リリース: 2023-04-25 11:13:05
オリジナル
2062 人が閲覧しました

HTML は Web ページの作成に使用されるマークアップ言語であり、Web 開発でよく使用されます。ただし、電子メールやテキスト メッセージを送信する場合など、HTML タグが読み取りの妨げになるのを避けるために、HTML を通常のテキストに変換する必要がある場合があります。この記事では、HTML をプレーン テキストに変換するいくつかの方法を検討します。

  1. Python を使用した BeautifulSoup ライブラリ

BeautifulSoup は、HTML および XML ドキュメントを解析するための Python ライブラリです。 HTML をプレーン テキストに変換し、簡単にカスタマイズできます。以下は、BeautifulSoup を使用して HTML をプレーン テキストに変換するサンプル コードです:

from bs4 import BeautifulSoup

html = '<html><body><p>This is some <strong>bold</strong> text.</p></body></html>'
soup = BeautifulSoup(html, 'html.parser')
text = soup.get_text()

print(text)
ログイン後にコピー

このコードは次のテキストを出力します:

This is some bold text.
ログイン後にコピー
ログイン後にコピー
ログイン後にコピー
  1. JavaScript の innerText 属性を使用する
# Web ページで Javascript を使用している場合は、innerText 属性を使用して HTML をプレーン テキストに変換できます。 innerText は、マークアップを除く、その要素とそのすべての子要素のテキスト コンテンツを返す要素のプロパティです。以下は、innerText を使用して HTML をプレーン テキストに変換するサンプル コードです:

var html = '<html><body><p>This is some <strong>bold</strong> text.</p></body></html>';
var element = document.createElement('div');
element.innerHTML = html;
var text = element.innerText;

console.log(text);
ログイン後にコピー
このコードは次のテキストを出力します:

This is some bold text.
ログイン後にコピー
ログイン後にコピー
ログイン後にコピー
    正規表現の使用
正規表現は、テキストから特定のコンテンツを抽出するために使用できる強力で柔軟なツールです。ライブラリやフレームワークを使用したくない場合は、正規表現を使用して HTML をプレーン テキストに変換できます。正規表現を使用して HTML をプレーン テキストに変換するサンプル コードを次に示します。

var html = '<html><body><p>This is some <strong>bold</strong> text.</p></body></html>';
var regex = /(<([^>]+)>)/ig;
var text = html.replace(regex, '');

console.log(text);
ログイン後にコピー
このコードは次のテキストを出力します。

This is some bold text.
ログイン後にコピー
ログイン後にコピー
ログイン後にコピー
summary

どちらを選択してもHTML をプレーン テキストに変換するにはいくつかの方法があり、どれも非常に効果的で使いやすいものです。 BeautifulSoup を使用すると、HTML の解析とカスタマイズが容易になり、innerText を使用して Web ページ要素をより簡単に処理し、正規表現を使用してテキスト抽出プロセスをより詳細に制御できるようになります。どちらの方法を選択しても、HTML テキストの操作をより効率的に行うのに役立つことを願っています。

以上がHTML をプレーン テキストに変換するいくつかの方法を検討するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート