HTML 文字列からのコンテンツの抽出: HTML タグの削除
文字列から HTML タグを削除することは、プログラミングにおける一般的なタスクです。文字列内に存在する特定のタグはさまざまですが、それらをすべて削除する信頼できる方法を見つけるのは難しい場合があります。
簡単なアプローチの 1 つは、正規表現を利用することです。次の正規表現はすべての HTML タグを削除できます:
public static string StripHTML(string input) { return Regex.Replace(input, "<.*?>", String.Empty); }
このソリューションは、すべての HTML タグ (< の後に任意の数の文字が続き、> で終わる) を空の文字列に置き換えます。
ただし、このアプローチには限界があります。すべてのケースに対応できるわけではありません。特に、複雑な、または深くネストされた HTML 構造を扱う場合はそうです。
より堅牢な解決策は、HTML の操作用に特別に設計されたオープンソース ライブラリである HTML Agility Pack を使用することです。ライブラリを使用する例:
HtmlDocument doc = new HtmlDocument(); doc.LoadHtml(input); Console.WriteLine(doc.DocumentNode.InnerText);
このソリューションは、HTML を HTML ノード オブジェクトに解析し、その内部テキストを抽出し、文字列のコンテンツを保持しながらすべての HTML タグを効果的に削除します。
以上が文字列から HTML タグを効率的に削除するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。