インターネット技術の継続的な発展に伴い、Web サイトの開発はますます複雑かつ充実してきました。 Web サイトの保守や開発では、HTML コードがよく使用されます。 HTML は Web ページの基礎ですが、場合によっては HTML からプレーンテキストを抽出する必要があるため、HTML タグを削除する必要があります。このニーズに応えて、この記事では PHP を使用して HTML を削除する方法を紹介します。
1.strip_tags 関数を使用して HTML を削除する
PHP では、strip_tags 関数は HTML タグを削除するために特別に使用されます。この関数の使用法は次のとおりです:
strip_tags($str, $allowTags)
このうち、$str は処理対象の文字列、$allowTags はオプションのパラメータで、保持を許可する HTML タグを参照します。指定すると、すべての HTML タグが削除されます。以下はサンプル コードです:
$html = '<p>这是一段带有HTML标签的文本,<a href="https://www.example.com">这是链接</a>。</p>'; echo strip_tags($html);
出力結果は次のとおりです:
这是一段带有HTML标签的文本,这是链接。
このコードは HTML タグを削除し、テキストのみを保持します。
2. 正規表現を使用して HTML を削除する
strip_tags 関数の使用に加えて、正規表現を使用して HTML タグを削除することもできます。正規表現を使用する前に、HTML タグの基本構文を理解する必要があることに注意してください。
HTML タグは山かっこで囲まれ、開始タグと終了タグがあります。開始タグは「<」で始まり「>」で終わり、終了タグは「」で始まり「>」で終わります。タグ名は文字、数字、アンダースコアで構成されます。
以下は、HTML タグの削除に使用できる簡単な正規表現コードの例です:
$html = '<p>这是一段带有HTML标签的文本,<a href="https://www.example.com">这是链接</a>。</p>'; echo preg_replace('/<[^>]+>/u', '', $html);
出力結果は次のとおりです:
这是一段带有HTML标签的文本,这是链接。
このコードはすべての "< に一致します。 ;" と ">" の間の文字を削除し、空の文字列に置き換えます。
3. DOMDocument クラスを使用して HTML を削除する
上記の 2 つの方法に加えて、PHP の DOMDocument クラスを使用して HTML タグを削除することもできます。この方法の利点は、不規則な HTML コードによって引き起こされる解析エラーを回避できることです。サンプル コードは次のとおりです。
$html = '<p>这是一段带有HTML标签的文本,<a href="https://www.example.com">这是链接</a>。</p>'; $dom = new DOMDocument(); // 创建一个DOMDocument对象 $dom->loadHTML($html); // 将HTML字符串加载到对象中 echo $dom->textContent; // 输出内容
出力結果は次のとおりです。
这是一段带有HTML标签的文本,这是链接。
DOMDocument クラスは HTML コードを DOM ツリーに解析し、このクラスが提供するメソッドを使用して次のことを行うことができます。要素のタグ名や属性の取得など、DOM ツリーの要素を操作します。
概要
HTML タグは上記の 3 つの方法で簡単に削除できますが、実際のニーズに基づいて現在のシナリオに適した方法を選択する必要があります。 HTML コードが比較的標準化されている場合は、高速であるため、strip_tags 関数または正規表現メソッドを使用することをお勧めします。さらに柔軟性が必要な場合は、DOMDocument クラスを使用して HTML コードを解析することをお勧めします。
以上がPHPのHTMLタグを削除する方法(3つの方法)の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。