Exclure les balises HTML de la détection et du remplacement des URL de texte
Dans votre quête pour convertir les URL de texte brut en balises d'ancrage HTML, en excluant celles du HTML balises, vous avez rencontré un obstacle avec votre regex actuelle. Cet article vise à fournir une solution complète à ce défi.
Votre approche regex actuelle détecte et remplace efficacement les URL dans le texte, mais elle cible également par erreur les URL dans les balises HTML. Pour remédier à cela, nous devons utiliser une approche plus ciblée.
Utiliser XPath pour identifier les URL éligibles
Au lieu d'une recherche de texte large, nous pouvons utiliser XPath pour sélectionner précisément nœuds de texte contenant des URL qui ne sont pas des descendants d'éléments d'ancrage. Cela garantit que les URL dans les balises HTML ne sont pas affectées.
$xPath = new DOMXPath($dom); $texts = $xPath->query('/html/body//text()[not(ancestor::a) and (contains(., "http://") or contains(., "https://") or contains(., "ftp://"))]');
Remplacement des nœuds de texte par des fragments de document
Plutôt que de modifier directement les nœuds de texte, nous utiliserons le document fragments pour remplacer le nœud de texte entier par le code HTML souhaité. Cette technique non standard rationalise le processus.
foreach ($texts as $text) { $fragment = $dom->createDocumentFragment(); $fragment->appendXML( preg_replace("~((?:http|https|ftp)://(?:\S*?\.\S*?))(?=\s|\;|\)|\]|\[|\{|\}|,|\"|'|:|\<|$|\.\s)~i", '<a href=""></a>', $text->data) ); $text->parentNode->replaceChild($fragment, $text); }
Sortie
Cette approche convertit efficacement les URL éligibles en texte brut en balises d'ancrage HTML, tout en excluant celles au sein du HTML. balises. Le HTML résultant reflétera les conversions souhaitées sans aucune modification indésirable.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!