php 匹配博客目录里的文章链接
最近在写爬虫练手,但是发现匹配出来数据很少
以博客园为例,这个是我的正则
<code>/http\:\/\/www\.cnblogs\.com\/' . $name . '\/[^\" ]+.html/i </code>
然后匹配这位同学:http://www.cnblogs.com/hoojo/default.html?page=1
发现只有42条数据,但是这位同学明显不止42篇文章,请问如何优化我的正则
回复内容:
最近在写爬虫练手,但是发现匹配出来数据很少
以博客园为例,这个是我的正则
<code>/http\:\/\/www\.cnblogs\.com\/' . $name . '\/[^\" ]+.html/i </code>
然后匹配这位同学:http://www.cnblogs.com/hoojo/default.html?page=1
发现只有42条数据,但是这位同学明显不止42篇文章,请问如何优化我的正则
首先,你这个http://www.cnblogs.com/hoojo/default.html?page=1 只是第一页,第一页好像只有这么多篇文章吧?http://www.cnblogs.com/hoojo/default.html?page=2 是第二页。
首先,你要确定他的博客里面有多少页。你就从第二页http://www.cnblogs.com/hoojo/default.html?page=2 取它的总页数共6页: 上一页 1 2 3 4 5 6
,再在你原来的代码外面加个 for 循环
http://www.cnblogs.com/hoojo/default.html?page={$page_number}
这样就好了。
不太懂您的正则写法。
我数了下第一页一共50条文章,然后我是这么实现的:
<code><?php $aa = file_get_contents('http://www.cnblogs.com/hoojo/default.html?page=1'); preg_match_all ("|class=\"postTitle2\" href=\"(.*)\">|i", $aa, $m); var_dump($m[1]); </code>
这样的结果就是文章链接数组了。
在测试过程中发现文章作者会把其他文章链接写在摘要里,并且被显示。所以您的方法会把摘要内的链接也读出来。
我这里是用文章原文链接的特性获取到的链接。
希望能够帮到你。

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

PHP 8.4 带来了多项新功能、安全性改进和性能改进,同时弃用和删除了大量功能。 本指南介绍了如何在 Ubuntu、Debian 或其衍生版本上安装 PHP 8.4 或升级到 PHP 8.4

CakePHP 是 PHP 的开源框架。它的目的是使应用程序的开发、部署和维护变得更加容易。 CakePHP 基于类似 MVC 的架构,功能强大且易于掌握。模型、视图和控制器 gu

Visual Studio Code,也称为 VS Code,是一个免费的源代码编辑器 - 或集成开发环境 (IDE) - 可用于所有主要操作系统。 VS Code 拥有针对多种编程语言的大量扩展,可以轻松编写

CakePHP 是一个开源MVC 框架。它使开发、部署和维护应用程序变得更加容易。 CakePHP 有许多库可以减少大多数常见任务的过载。

本教程演示了如何使用PHP有效地处理XML文档。 XML(可扩展的标记语言)是一种用于人类可读性和机器解析的多功能文本标记语言。它通常用于数据存储
