HTML は Web ページのデザインに不可欠なテクノロジであり、Web ページ内のコンテンツ表示の鍵となります。ただし、プレーン テキスト コンテンツを抽出し、その後 HTML タグを削除する必要がある場合があります。この記事では正規表現を使ってHTMLタグを削除する方法を紹介します。
HTML タグは山かっこで囲まれます。 HTML タグには、class や id など、要素の特性を定義するために使用される多数の属性があります。正規表現を使用して HTML タグを削除する場合は、タグを削除するだけでなく、タグ内の属性も削除することに注意する必要があります。
具体的な正規表現は次のとおりです:
/<[^>]+>/g
このうち、/ は正規表現の先頭と末尾を表し、大なり記号と小なり記号は正規表現の先頭と末尾を表します。 HTML タグ; 1 は > のどの文字にも一致しないことを意味します; 一致する文字を 1 回以上繰り返すことができることを意味します; /g は 1 回の検索ではなく全文検索を意味します。
たとえば、次の HTML コード内のすべてのタグを削除するには:
<!DOCTYPE html> <html> <head> <title>HTML标签测试</title> </head> <body> <h1>我们来测试一下HTML标签去除吧!</h1> <p>这是一个段落。</p> </body> </html>
JavaScript で次のコードを使用できます:
var html = 'HTML标签测试 我们来测试一下HTML标签去除吧!
这是一个段落。
'; var pureText = html.replace(/<[^>]+>/g, ''); console.log(pureText);
上記のコードはプレーン テキストを出力します。 HTML タグを削除した後 テキストの内容:
HTML标签测试我们来测试一下HTML标签去除吧!这是一个段落。
このようにして、HTML タグを削除することができました。実際に使用する場合は、次の点にも注意する必要があります。
さらに、Cheerio などの特殊な HTML 解析ライブラリを使用して HTML タグを抽出することもできます。ただし、どの方法を使用する場合でも、抽出されたテキスト コンテンツが正確で期待どおりであることを確認するために常に注意を払う必要があります。
以上が正規表現を使用して HTML タグを削除する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。