在laravel中使用Symfony的Crawler组件分析HTML实例详解
这篇文章主要介绍了在laravel中使用Symfony的Crawler组件分析HTML,需要的朋友可以参考下
Crawler全名是DomCrawler,是Symfony框架的组件。令人发指的是DomCrawler的没有中文文档,Symfony也没有翻译该部分,所以使用DomCrawler开发只能一点一点摸索,现将使用过程中的经验总结。
首先是安装
composer require symfony/dom-crawler composer require symfony/css-selector
css-seelctor 是 css选择器,用css选择节点时一些函数会用到
手册里面使用的例子是
use Symfony\Component\DomCrawler\Crawler; $html = <<<‘HTML‘ Hello World! Hello Crawler! HTML; $crawler = new Crawler($html); foreach ($crawler as $domElement) { var_dump($domElement->nodeName); }
打印的结果是
string ‘html‘ (length=4)
因为这段html代码的nodeName就是html,英语不好,开始使用的时候还以为程序错了。。。
实际使用过程,如果new Crawler($html)会出现乱码问题,应该是与页面编码有关,所以可以采用下面的方式,先初始化crawler,然后添加node
$crawler = new Crawler(); $crawler->addHtmlContent($html);
addHtmlContent的第二个参数是charset,默认是utf-8。
其他例子可以参考官方文档,http://symfony.com/doc/current/components/dom_crawler.html
记录一下工作中一点点试出来的用法
filterXPath(string $xpath) 方法,按照手册上的说法,该方法的参数是$xpath,经常用的是p,p等块。
echo $crawler->filterXPath(‘//body/p‘)->text(); echo $crawler->filterXPath(‘//body/p‘)->last()->text();
输出是第一个和下一个p标签块的文本
var_dump($crawler->filterXPath(‘//body‘)->html());
输出body内的html
foreach ($crawler->filterXPath(‘//body/p‘) as $i => $node) { $c = new Crawler($node); echo $c->filter(‘p‘)->text(); }
filterXPath获得的是DOMElement块的数组,每个DOMElement块可以使用新的crawler对象继续解析
$nodeValues = $crawler->filterXPath(‘//body/p‘)->each(function (Crawler $node, $i) { return $node->text(); });
crawler提供了each循环,使用闭包函数简化代码,不过注意的是,这种写法$nodeValues得到的是数组,需要进一步处理。
其他用法
echo $crawler->filterXPath(‘//body/p‘)->attr(‘class‘);
可以获得第一个p标签对应class属性的值“message”
$crawler->filterXPath(‘//p[@class="样式"]‘)->filter(‘a‘)->attr(‘href‘); $crawler->filterXPath(‘//p[@class="样式"]‘)->filter(‘a>img‘)->extract(array(‘alt‘, ‘href‘))
以上是获得标签属性的一些方法
filter和filterXPath不同,手册上写的是css选择器,不太明白,我理解是p这种XPath节点包含的元素,具体情况还需要在实际开发中去尝试。
总的来说感觉DomCrawler要比simple html dom好用一些,可能是我用的比较浅显。
上述只是Crawler的基本功能,更过用法请查阅symfony手册关于Crawler部分的函数
http://api.symfony.com/3.2/Symfony/Component/DomCrawler/Crawler.html
Crawler主要问题还是示例太少,函数手册里面没有使用实例,只能在实际使用中去摸索。。。。
以上是在laravel中使用Symfony的Crawler组件分析HTML实例详解的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

Laravel9和CodeIgniter4的最新版本提供了更新的特性和改进。Laravel9采用MVC架构,提供数据库迁移、身份验证和模板引擎等功能。CodeIgniter4采用HMVC架构,提供路由、ORM和缓存。在性能方面,Laravel9的基于服务提供者设计模式和CodeIgniter4的轻量级框架使其具有出色的性能。在实际应用中,Laravel9适用于需要灵活性和强大功能的复杂项目,而CodeIgniter4适用于快速开发和小型应用程序。

比较Laravel和CodeIgniter的数据处理能力:ORM:Laravel使用EloquentORM,提供类对象关系映射,而CodeIgniter使用ActiveRecord,将数据库模型表示为PHP类的子类。查询构建器:Laravel具有灵活的链式查询API,而CodeIgniter的查询构建器更简单,基于数组。数据验证:Laravel提供了一个Validator类,支持自定义验证规则,而CodeIgniter的验证功能内置较少,需要手动编码自定义规则。实战案例:用户注册示例展示了Lar

Laravel - Artisan 命令 - Laravel 5.7 提供了处理和测试新命令的新方法。它包括测试 artisan 命令的新功能,下面提到了演示?

对于初学者来说,CodeIgniter的学习曲线更平缓,功能较少,但涵盖了基本需求。Laravel提供了更广泛的功能集,但学习曲线稍陡。在性能方面,Laravel和CodeIgniter都表现出色。Laravel具有更广泛的文档和活跃的社区支持,而CodeIgniter更简单、轻量级,具有强大的安全功能。在建立博客应用程序的实战案例中,Laravel的EloquentORM简化了数据操作,而CodeIgniter需要更多的手动配置。

在选择大型项目框架时,Laravel和CodeIgniter各有优势。Laravel针对企业级应用程序而设计,提供模块化设计、依赖项注入和强大的功能集。CodeIgniter是一款轻量级框架,更适合小型到中型项目,强调速度和易用性。对于具有复杂需求和大量用户的大型项目,Laravel的强大功能和可扩展性更合适。而对于简单项目或资源有限的情况下,CodeIgniter的轻量级和快速开发能力则更为理想。

微服务架构使用PHP框架(如Symfony和Laravel)来实现微服务,并遵循RESTful原则和标准数据格式来设计API。微服务通过消息队列、HTTP请求或gRPC进行通信,并使用工具(如Prometheus和ELKStack)进行监控和故障排除。

对于小型项目,Laravel适用于大型项目,需要强大的功能和安全性。CodeIgniter适用于非常小的项目,需要轻量级和易用性。

比较了Laravel的Blade和CodeIgniter的Twig模板引擎,根据项目需求和个人偏好进行选择:Blade基于MVC语法,鼓励良好代码组织和模板继承。Twig是第三方库,提供灵活语法、强大过滤器、扩展支持和安全沙箱。
