ホームページ > バックエンド開発 > C++ > C# 正規表現を使用して文字列から HTML タグを削除する方法

C# 正規表現を使用して文字列から HTML タグを削除する方法

Patricia Arquette
リリース: 2025-01-25 11:07:09
オリジナル
316 人が閲覧しました

How to Remove HTML Tags from a String Using C# Regular Expressions?

C#文字列からHTMLタグを効率的に削除します

HTMLタグを削除してテキストデータのクリーニングは、多くのC#アプリケーションで頻繁に要件です。正規表現は簡潔なソリューションを提供しますが、特に複雑なHTML構造を扱う場合は、常に最も堅牢な方法ではないかもしれません。

HTMLタグを削除する単純な正規表現は、

です

この式は、HTMLタグを効果的にターゲットにして、角度ブラケット内に囲まれたキャラクターを識別および一致させます。
<code class="language-csharp"><[^>]*></code>
ログイン後にコピー
メソッドは、削除を容易にします:

Regex.Replace

このコードスニペットは、一致したすべてのタグを空の文字列に置き換え、プレーンテキストのみを残します。
<code class="language-csharp">string cleanText = Regex.Replace(htmlString, @"<[^>]*>", string.Empty);</code>
ログイン後にコピー

重要な考慮事項:

この正規表現アプローチには制限があります。 ネストされたタグまたは角度ブラケットを含むCDATAセクションを含むシナリオを正しく処理できない場合があります。より複雑なHTMLの場合、専用のHTMLパーサーは優れた精度と信頼性を提供します。 XMLパーサーを使用することは、このような状況での堅牢なHTMLタグ削除のためのより良い代替手段です。

以上がC# 正規表現を使用して文字列から HTML タグを削除する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
著者別の最新記事
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート