首页 PHP 库 其它类库 phP的抓取网站类库
phP的抓取网站类库
<?php
header("Content-Type: text/html; charset=UTF-8");
require("phpQuery.php");
$hj = QueryList::Query('http://mobile.csdn.net/',array("title"=>array('.unit h1','text')));
//dump($hj->data);
$data = QueryList::Query('http://cms.querylist.cc/bizhi/453.html',array(
    'image' => array('img','src')
    ))->data;
//
$data = QueryList::Query('http://cms.querylist.cc/google/list_1.html',array(
    'link' => array('a','href')
    ))->data;
$page = 'http://cms.querylist.cc/news/566.html';
$reg = array(
    'title' => array('h1','text'),
    'date' => array('.pt_info','text','-span -a',function($content){
        $arr = explode(' ',$content);
        return $arr[0];
    }),
    'content' => array('.post_content','html','a -.content_copyright -script',function($content){
     
            $doc = phpQuery::newDocumentHTML($content);
            $imgs = pq($doc)->find('img');
            foreach ($imgs as $img) {
                $src = 'http://cms.querylist.cc'.pq($img)->attr('src');
                $localSrc = 'w/'.md5($src).'.jpg';
                $stream = file_get_contents($src);
                file_put_contents($localSrc,$stream);
                pq($img)->attr('src',$localSrc);
            }
            return $doc->htmlOuter();
    })
    );
$rang = '.content';
$ql = QueryList::Query($page,$reg,$rang);
$data = $ql->getData();
dump($data);

支持抓取网站,进行爬虫,非常强大,是一个基于PHP的服务端开源项目,它可以让PHP开发人员轻松处理DOM文档内容,比如获取某新闻网站的头条信息。更有意思的是,它采用了jQuery的思想,你可以像使用jQuery一样处理页面内容,获取你想要的页面信息。

免责声明

本站所有资源均由网友贡献或各大下载网站转载。请自行检查软件的完整性!本站所有资源仅供学习参考。请不要将它们用于商业目的。否则,一切后果由您负责!如有侵权,请联系我们删除。联系方式:admin@php.cn

相关文章

网站适用的PHP缓存类 网站适用的PHP缓存类

13 Jun 2016

网站适用的PHP缓存类。缓存在实际使用当中应用很广泛,可以减轻对服务器数据库的访问,提高运行速度。目前很多CMS内容管理系统中频繁使用缓存机制来提高系

使用PHP的Snoopy类抓取图片 使用PHP的Snoopy类抓取图片

13 Jun 2016

使用PHP的Snoopy类抓取图片。用了两天php的Snoopy这个类,发现很好用。获取请求网页里面的所有链接,直接使用fetchlinks就可以,获取所有文本信息使用fetchtext(其内部还

如何使用PHP Goutte类库进行网页爬取与数据提取? 如何使用PHP Goutte类库进行网页爬取与数据提取?

09 Aug 2023

如何使用PHPGoutte类库进行网页爬取与数据提取?概述:在日常的开发过程中,我们经常需要从互联网上获取各种数据,例如电影排名、天气预报等等。而网页爬取则是获取这些数据的常用方法之一。在PHP开发中,我们可以利用Goutte类库来实现网页爬取与数据提取的功能。本文将介绍如何使用PHPGoutte类库进行网页爬取与数据提取,并附上代码示例。什么是Gout

如何使用 Python 中的请求从严重依赖 JavaScript 的网站中抓取内容? 如何使用 Python 中的请求从严重依赖 JavaScript 的网站中抓取内容?

04 Nov 2024

Requests for Javascript-Enabled PagesRequests 是一个强大的 Python HTTP 库,但它很难从网站中提取内容......

如何运用PHP和phpSpider进行特定网站内容的精准抓取? 如何运用PHP和phpSpider进行特定网站内容的精准抓取?

22 Jul 2023

如何运用PHP和phpSpider进行特定网站内容的精准抓取?导言:随着互联网的发展,网站上的数据量越来越多,通过手动操作获取所需信息的效率较低。因此,我们经常需要运用自动化抓取工具来获取特定网站的内容,PHP语言和phpSpider库就是其中一个非常实用的工具。本文将介绍如何使用PHP和phpSpider进行特定网站内容的精准抓取,并提供代码示例。一、安装

PHP-FPM性能提高指南:优化网站的数据库访问 PHP-FPM性能提高指南:优化网站的数据库访问

05 Oct 2023

PHP-FPM性能提高指南:优化网站的数据库访问摘要:本文将介绍关于如何优化网站的数据库访问,以提高PHP-FPM性能的一些实用技巧和具体的代码示例。引言:对于大多数网站来说,数据库是存储和管理数据的重要组成部分,而PHP-FPM作为一种常用的网页服务器解决方案,其性能对于网站的快速响应至关重要。在高并发的情况下,数据库访问往往成为瓶颈,因此优化数据库访问是

See all articles