博客爬取系统，博客爬取_PHP教程-php教程-PHP中文网

博客爬取系统，博客爬取

引言

那些东西可以抓取？

首页

后端开发

php教程

博客爬取系统，博客爬取_PHP教程

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jul 13, 2016 am 10:08 AM

博客爬取系统，博客爬取

引言

　　周末没事干，无聊，使用php做了个博客抓取系统，我经常访问的是cnblogs，当然从博客园（看看我还是很喜欢博客园的）开始入手了，我的抓取比较简易，获取网页内容，然后通过正则匹配，获取到想要的东西，然后保存数据库，当然了，在实际过程中会遇到一些问题。做这个之前已经想好了，要做成可扩充的，以后要是哪天想添加csdn、51cto、新浪博客这些内容了可以很容易的扩展。

那些东西可以抓取？

　　首先要说些，这个是个简易的抓取，不是所有网页中看到的东西都可以抓取，有些东西是抓取不到的，就像下面这些

博客爬取系统，博客爬取_PHP教程比如从链接a开始爬，如果depth是1，获取玩当前链接的内容就完事，如果depth是2的话，就从a链接的内容中再去按指定的规则匹配链接，对匹配到的链接也做depth为1的处理，以此类推，depth是获取链接的深度、层级。这样爬虫才可以”爬动起来“。

　　当然了，用一个链接去爬特定的内容，这个爬到的东西是很有限的，或者有可能还没爬起来就死掉了（往后的层级没有匹配到内容），所以在爬取的时候可以设置多个起始链接。当然了，在爬取的时候很可能会遇到很多重复的链接，所以还得给抓取到的链接做记号，防止重复获取相同的内容，造成冗余。有几个变量来缓存这些信息，格式如下

<p><span>第一，就是一个hash数组，键值是url的md5值，状态是0，维护一个不重复的url数组，形如下面的形式</span></p>

<pre class="code"><span>Array</span><span>
(
    [bc790cda87745fa78a2ebeffd8b48145] </span>=> 0<span>
    [9868e03f81179419d5b74b5ee709cdc2] </span>=> 0<span>
    [4a9506d20915a511a561be80986544be] </span>=> 0<span>
    [818bcdd76aaa0d41ca88491812559585] </span>=> 0<span>
    [9433c3f38fca129e46372282f1569757] </span>=> 0<span>
    [f005698a0706284d4308f7b9cf2a9d35] </span>=> 0<span>
    [e463afcf13948f0a36bf68b30d2e9091] </span>=> 0<span>
    [23ce4775bd2ce9c75379890e84fadd8e] </span>=> 0
    ......<span>
)</span>

登录后复制

<p><span>第二个就是要获取的url数组，这个地方还可以优化，我是将所有的链接链接全部获取到数组中，再去循环数组获取内容，就等于是说，所有最大深度减1的内容都获取了两次，这里可以直接在获取下一级内容的时候顺便把内容获取了，然后上面的数组中状态修改为1（已经获取），这样可以提高效率。先看看保存链接的数组内容：</span></p>

<pre class="code"><span>Array</span><span>
(
    [</span>0] => <span>Array</span><span>
        (
            [</span>0] => http:<span>//</span><span>zzk.cnblogs.com/s?t=b&w=php&p=1</span>
<span>        )
    [</span>1] => <span>Array</span><span>
        (
            [</span>0] => http:<span>//</span><span>www.cnblogs.com/baochuan/archive/2012/03/12/2391135.html</span>
            [1] => http:<span>//</span><span>www.cnblogs.com/ohmygirl/p/internal-variable-1.html</span>
            [2] => http:<span>//</span><span>www.cnblogs.com/zuoxiaolong/p/java1.html</span>
                ......<span>
        )

    [</span>2] => <span>Array</span><span>
        (
            [</span>0] => http:<span>//</span><span>www.cnblogs.com/ohmygirl/category/623392.html</span>
            [1] => http:<span>//</span><span>www.cnblogs.com/ohmygirl/category/619019.html</span>
            [2] => http:<span>//</span><span>www.cnblogs.com/ohmygirl/category/619020.html</span>
                ......<span>
        )

)</span>

登录后复制

最后将所有的链接拼为一个数组返回，让程序循环获取连接中的内容。就像上面的获取层级是2，0级的链内容接获取过了，仅仅用来获取1级中的链接，1级中的所有链接内容也获取过了，仅仅用来保存2级中的链接，等到真正获取内容的时候又会对上面的内容进行一次获取，而且上面的hash数组中的状态都没有用到。。。（有待优化）。

　　还有一个获取文章的正则，通过分析博客园中的文章内容，发现文章标题、正文部分基本都可以很规则的获取到

<p><span>标题，标题html代码的形式都是下图的那种格式，可以很轻松的用下面的正则匹配到</span></p>

<pre class="code"><span>#</span><span><a\s*?id=\"cb_post_title_url\"[^>]*?>(.*?)<\/a>#is</span>

登录后复制

<p><img  alt="博客爬取系统，博客爬取_PHP教程" >正文，正文部分是可以通过正则表达式的高级特性平衡组很容易获取到的，但弄了半天发现php好像对平衡组支持的不是很好，所以放弃额平衡组，在html源码中发现通过下面的正则也可以很容易匹配到文章正文的内容，每篇文章基本都有下图中的内容</span></p>

<pre class="code"><span>#</span><span>(<div\s*?id=\"cnblogs_post_body\"[^>]*?>.*)<div\s*id=\"blog_post_info_block\">#is</span>

登录后复制

<p>开始：</p>
<p><img  alt="博客爬取系统，博客爬取_PHP教程" ><span>for</span>(<span>$i</span>=1;<span>$i</span><=100;<span>$i</span>++<span>){
            </span><span>echo</span> "PAGE{<span>$i</span>}*************************[begin]***************************\r"<span>;
            </span><span>$spidercnblogs</span> = <span>new</span> C\Spidercnblogs("http://zzk.cnblogs.com/s?t=b&w=php&p={$i}"<span>);
            </span><span>$urls</span> = <span>$spidercnblogs</span>-><span>spiderUrls();
            </span><span>die</span><span>();
            </span><span>foreach</span> (<span>$urls</span> <span>as</span> <span>$key</span> => <span>$value</span><span>) {
                </span><span>$cnblogs</span>->grap(<span>$value</span><span>);
                </span><span>$cnblogs</span>-><span>save();
            }
        }</span>

登录后复制

　　至此，就可以去抓去自己喜欢的东西了，抓取速度不是很快，我在一台普通pc上面开了10个进程，抓了好几个小时，才获取到了40多万条数据，好了看看抓取到的内容稍微优化之后的显示效果，这里面加上了博客园的基础css代码，可以看出效果和

<p>抓取到的内容稍作修改：</p>
<p><img  alt="博客爬取系统，博客爬取_PHP教程" >
<p>原始内容</p>
<p><img  alt="博客爬取系统，博客爬取_PHP教程" >github&mdash;&mdash;myBlogs</span></strong></p>

登录后复制

　　本文版权归作者iforever(luluyrt@163.com)所有，未经作者本人同意禁止任何形式的转载，转载文章之后必须在文章页面明显位置给出作者和原文连接，否则保留追究法律责任的权利。

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

gmail邮箱登陆入口在哪里

7744

Java教程

1643

CakePHP 教程

1397

Laravel 教程

1291

PHP教程

1234

显示更多

Related knowledge

支付宝PHP SDK转账报错：如何解决'Cannot declare class SignData”问题？ Apr 01, 2025 am 07:21 AM

支付宝PHP...

在PHP API中说明JSON Web令牌（JWT）及其用例。 Apr 05, 2025 am 12:04 AM

JWT是一种基于JSON的开放标准，用于在各方之间安全地传输信息，主要用于身份验证和信息交换。1.JWT由Header、Payload和Signature三部分组成。2.JWT的工作原理包括生成JWT、验证JWT和解析Payload三个步骤。3.在PHP中使用JWT进行身份验证时，可以生成和验证JWT，并在高级用法中包含用户角色和权限信息。4.常见错误包括签名验证失败、令牌过期和Payload过大，调试技巧包括使用调试工具和日志记录。5.性能优化和最佳实践包括使用合适的签名算法、合理设置有效期、

会话如何劫持工作，如何在PHP中减轻它？ Apr 06, 2025 am 12:02 AM

会话劫持可以通过以下步骤实现：1.获取会话ID，2.使用会话ID，3.保持会话活跃。在PHP中防范会话劫持的方法包括：1.使用session_regenerate_id()函数重新生成会话ID，2.通过数据库存储会话数据，3.确保所有会话数据通过HTTPS传输。

在PHPStorm中如何进行CLI模式的调试？ Apr 01, 2025 pm 02:57 PM

在PHPStorm中如何进行CLI模式的调试？在使用PHPStorm进行开发时，有时我们需要在命令行界面（CLI）模式下调试PHP�...

描述扎实的原则及其如何应用于PHP的开发。 Apr 03, 2025 am 12:04 AM

SOLID原则在PHP开发中的应用包括：1.单一职责原则（SRP）：每个类只负责一个功能。2.开闭原则（OCP）：通过扩展而非修改实现变化。3.里氏替换原则（LSP）：子类可替换基类而不影响程序正确性。4.接口隔离原则（ISP）：使用细粒度接口避免依赖不使用的方法。5.依赖倒置原则（DIP）：高低层次模块都依赖于抽象，通过依赖注入实现。