首页 PHP 库 其它类库 phP的抓取网站类库
phP的抓取网站类库
<?php
header("Content-Type: text/html; charset=UTF-8");
require("phpQuery.php");
$hj = QueryList::Query('http://mobile.csdn.net/',array("title"=>array('.unit h1','text')));
//dump($hj->data);
$data = QueryList::Query('http://cms.querylist.cc/bizhi/453.html',array(
    'image' => array('img','src')
    ))->data;
//
$data = QueryList::Query('http://cms.querylist.cc/google/list_1.html',array(
    'link' => array('a','href')
    ))->data;
$page = 'http://cms.querylist.cc/news/566.html';
$reg = array(
    'title' => array('h1','text'),
    'date' => array('.pt_info','text','-span -a',function($content){
        $arr = explode(' ',$content);
        return $arr[0];
    }),
    'content' => array('.post_content','html','a -.content_copyright -script',function($content){
     
            $doc = phpQuery::newDocumentHTML($content);
            $imgs = pq($doc)->find('img');
            foreach ($imgs as $img) {
                $src = 'http://cms.querylist.cc'.pq($img)->attr('src');
                $localSrc = 'w/'.md5($src).'.jpg';
                $stream = file_get_contents($src);
                file_put_contents($localSrc,$stream);
                pq($img)->attr('src',$localSrc);
            }
            return $doc->htmlOuter();
    })
    );
$rang = '.content';
$ql = QueryList::Query($page,$reg,$rang);
$data = $ql->getData();
dump($data);

支持抓取网站,进行爬虫,非常强大,是一个基于PHP的服务端开源项目,它可以让PHP开发人员轻松处理DOM文档内容,比如获取某新闻网站的头条信息。更有意思的是,它采用了jQuery的思想,你可以像使用jQuery一样处理页面内容,获取你想要的页面信息。

免责声明

本站所有资源均由网友贡献或各大下载网站转载。请自行检查软件的完整性!本站所有资源仅供学习参考。请不要将它们用于商业目的。否则,一切后果由您负责!如有侵权,请联系我们删除。联系方式:admin@php.cn

相关文章

如何使用 Python 中的请求从严重依赖 JavaScript 的网站中抓取内容? 如何使用 Python 中的请求从严重依赖 JavaScript 的网站中抓取内容?

04 Nov 2024

Requests for Javascript-Enabled PagesRequests 是一个强大的 Python HTTP 库,但它很难从网站中提取内容......

如何使用 PHP 网页抓取从网站中提取数据? 如何使用 PHP 网页抓取从网站中提取数据?

19 Nov 2024

网页抓取如何与 PHP 一起使用网页抓取涉及三个主要步骤:请求 URL:使用 GET 或 POST 从指定的位置获取数据...

如何使用 PHP 网页抓取从网站中提取数据 如何使用 PHP 网页抓取从网站中提取数据

17 Oct 2024

** PHP 中的网页抓取:提取

如何查看网站被百度抓取的情况 如何查看网站被百度抓取的情况

24 May 2019

查看网站被百度抓取的情况的方法:通过分析网站日志中百度蜘蛛的活跃性、抓取频率、返回的HTTP状态码等来实现。还可以查看网站根目录下的日志文件,该文件记录了网站被访问和操作的情况。

以下是一些基于您的文章的问题式标题:

一般的:

* Python 可以用于网页抓取吗?综合指南
* 如何使用 Python 从网站提取数据:分步教程 以下是一些基于您的文章的问题式标题: 一般的: * Python 可以用于网页抓取吗?综合指南 * 如何使用 Python 从网站提取数据:分步教程

26 Oct 2024

Python 中的网页抓取网页抓取涉及从网站中提取特定数据。凭借其多功能的库,Python 提供了有效的...

如何使用 Curl 库在 PHP 中实现网络抓取? 如何使用 Curl 库在 PHP 中实现网络抓取?

17 Nov 2024

如何在 PHP 中实现 Web Scraper Web 抓取涉及三个步骤:向 URL 发送 GET 或 POST 请求。接收 HTML 响应。解析...

See all articles