HTML タグを効率的に削除するための正規表現
正規表現を使用して HTML タグを削除しようとする場合、タグの取り残しの問題に対処することが重要です終了タグ。この記事では、この課題に対する効率的な解決策を提供します。
提供されたコード:
string sPattern = @"<\/?!?(img|a)[^>]*>"; Regex rgx = new Regex(sPattern);
最初に出現した を削除しようとします。
望ましい結果を達成するには、正規表現を次のように変更する必要があります:
string sPattern = @"<\/?[^>]*>";
この更新されたパターンは、タグに関係なく、任意の HTML タグと一致します。
さらに、提供されるコードは、次に示すように、Trim や Replace などの文字列メソッドを利用することで簡素化できます。以下:
string removeTags(string input) { return input.Replace("<[^>]*>", "") .Replace("\s+", " ") .Trim(); }
この関数は、すべての HTML タグを効率的に削除し、複数のスペースを 1 つのスペースに置き換え、先頭または末尾のスペースを削除します。
以上が正規表現を使用してすべての HTML タグを効率的に削除するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。