Maison > développement back-end > tutoriel php > javascript - php 抓取的页面如何处理可以只保留DOM结构,去掉CSS和JS?

javascript - php 抓取的页面如何处理可以只保留DOM结构,去掉CSS和JS?

WBOY
Libérer: 2016-06-06 20:50:47
original
1218 Les gens l'ont consulté

正则规则写好后,页面一旦有改变就要重新修改正则。
先提取页面的 DOM,有没有比较好的办法?

回复内容:

正则规则写好后,页面一旦有改变就要重新修改正则。
先提取页面的 DOM,有没有比较好的办法?

我想你需要的是 php 的 DOM 模块 ... 默认有安装不用担心 ...

因为不知道你的实际应用场景是什么 ... 给你写个简单的例子吧 ...

<?php /* i heard that you need DOM ..? */
$doc = new DOMDocument();

/* i wrote a simple page ... change it to a curl result ... */
$doc->loadHTML( <title>Sunyanzi's Test</title>

  <h1>Hello World</h1>
  <a href="http://segmentfault.com/" id="onlylink">Hey Welcome</a>
Copier après la connexion
Étiquettes associées:
source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal