Web 開発では、HTML は不可欠な要素です。ただし、HTML タグのないプレーン テキストを HTML から抽出する必要がある場合があります。このとき、正規表現は非常に便利なツールです。
PHP では、preg_replace() 関数を使用して HTML タグを削除できます。この関数の使用方法は次のとおりです。
preg_replace($pattern, $replacement, $subject);
このうち、$pattern は正規表現パターン、$replacement は置換文字列、$subject は処理対象の文字列です。以下で説明するように、$pattern と $replacement の両方を配列にすることができることに注意してください。
次に、HTML タグを削除するためのいくつかの一般的な正規表現について説明します。
$pattern = '/<[^>]*>/'; $replacement = ''; $text = preg_replace($pattern, $replacement, $html);
この正規表現では、< は左山かっこを表し、1 は一致を表します右山括弧を除く任意の文字、* は 0 回以上一致することを意味します。したがって、この式は任意の HTML タグと一致し、null 文字に置き換えられます。
$pattern = '/<script[^>]*>(.*?)</script>/is'; $replacement = ''; $text = preg_replace($pattern, $replacement, $html);
この正規表現は、