ホームページ > バックエンド開発 > C++ > 文字列から HTML タグを効率的に削除するにはどうすればよいですか?

文字列から HTML タグを効率的に削除するにはどうすればよいですか?

DDD
リリース: 2025-01-06 02:01:40
オリジナル
699 人が閲覧しました

How to Efficiently Remove HTML Tags from a String?

HTML 文字列からのコンテンツの抽出: HTML タグの削除

文字列から HTML タグを削除することは、プログラミングにおける一般的なタスクです。文字列内に存在する特定のタグはさまざまですが、それらをすべて削除する信頼できる方法を見つけるのは難しい場合があります。

簡単なアプローチの 1 つは、正規表現を利用することです。次の正規表現はすべての HTML タグを削除できます:

public static string StripHTML(string input)
{
   return Regex.Replace(input, "<.*?>", String.Empty);
}
ログイン後にコピー

このソリューションは、すべての HTML タグ (< の後に任意の数の文字が続き、> で終わる) を空の文字列に置き換えます。

ただし、このアプローチには限界があります。すべてのケースに対応できるわけではありません。特に、複雑な、または深くネストされた HTML 構造を扱う場合はそうです。

より堅牢な解決策は、HTML の操作用に特別に設計されたオープンソース ライブラリである HTML Agility Pack を使用することです。ライブラリを使用する例:

HtmlDocument doc = new HtmlDocument();
doc.LoadHtml(input);
Console.WriteLine(doc.DocumentNode.InnerText);
ログイン後にコピー

このソリューションは、HTML を HTML ノード オブジェクトに解析し、その内部テキストを抽出し、文字列のコンテンツを保持しながらすべての HTML タグを効果的に削除します。

以上が文字列から HTML タグを効率的に削除するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート