php通过curl单独抓取网页可以，抓取多个会出错-php教程-PHP中文网

回复内容：

你的代码呢???

首页

后端开发

php教程

php通过curl单独抓取网页可以，抓取多个会出错

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 06, 2016 pm 08:27 PM

curl php

使用curl单独抓取http://jobs.hubu.edu.cn/Detail.aspx?ArticleChannelId=81&amp;amp;amp;ArticleId=5722可行，但是如果抓取相同类型的一系列网站就会出错，将他们放在数组
$linkList中，分别是http://jobs.hubu.edu.cn/Detail.aspx?ArticleChannelId=81&amp;amp;amp;ArticleId=5722, http://jobs.hubu.edu.cn/Detail.aspx?ArticleChannelId=81&amp;amp;amp;ArticleId=5325等等。
php通过curl单独抓取网页可以，抓取多个会出错

function getJobsHubuNotice()

{
            
    $curl = curl_init('http://jobs.hubu.edu.cn/List.aspx?ArticleChannelId=81');
    curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);
    $result = curl_exec($curl);
            //内容处理
    $result = strip_tags($result,'&amp;amp;amp;amp;lt;a&amp;amp;amp;amp;gt;');
    $result = stristr($result, 'nbsp当前位置：');
    $result = str_replace('nbsp当前位置：', '', $result);
    $result = stristr($result, '当前1/2页',true);
    $result = stristr($result, '通知公告');
    $result = str_replace('通知公告&amp;amp;amp;amp;lt;/a&amp;amp;amp;amp;gt;', '', $result);
    preg_match_all('/(?&amp;amp;amp;amp;lt;=href=\&amp;amp;amp;amp;quot;).*?(?=\&amp;amp;amp;amp;quot;)/', $result, $arrayTemp);
    $linkList = $arrayTemp[0];
    preg_match_all('/(?&amp;amp;amp;amp;lt;=title=\&amp;amp;amp;amp;quot;).*?(?=\&amp;amp;amp;amp;quot;)/', $result, $arrayTemp);
    $titleList = $arrayTemp[0];
    preg_match_all('/(?&amp;amp;amp;amp;lt;=\[)\d*\-\d*(?=\])/', $result, $arrayTemp);
    $dateList_temp = $arrayTemp[0];
    $dateList = array();
    $linkList = str_replace('Detail.aspx', 'http://jobs.hubu.edu.cn/Detail.aspx', $linkList);
    foreach ($dateList_temp as $key =&amp;amp;amp;amp;gt; $value) {
        $dateList[$key] = date('Y').'-'.$value;
    }
    $JobsHubu = array();
            //分别获得网页上的每条通知的标题，链接，时间
    $JobsHubu[0] = $dateList;
    $JobsHubu[1] = $titleList;
    $JobsHubu[2] = $linkList;
    return $JobsHubu;
}
//
function makePage($link)
{

        .......   //省略部分代码
       else if(starts($link,'jobs.hubu'))
      {
        echo &amp;amp;amp;amp;quot;进入makePage函数&amp;amp;amp;amp;quot;;
        echo &amp;amp;amp;amp;quot;处理网页&amp;amp;amp;amp;quot;.$link.'&amp;amp;amp;amp;lt;br/&amp;amp;amp;amp;gt;';
        $curl = curl_init();
        curl_setopt($curl, CURLOPT_URL , $link);
        curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);
        $result = curl_exec($curl);
        //echo $result;
        //echo &amp;amp;amp;amp;quot;result结束&amp;amp;amp;amp;quot;;
        $result = strip_tags($result);
        $result = stristr($result, ' &amp;amp;amp;amp;gt; 通知公告');
        $result = str_replace(' &amp;amp;amp;amp;gt; 通知公告', '', $result);
        $result = stristr($result, '$(document).ready',true);
        $result = trim($result);
        $result = str_replace(&amp;amp;amp;amp;quot;\r\n&amp;amp;amp;amp;quot;, '&amp;amp;amp;amp;lt;br/&amp;amp;amp;amp;gt;', $result);
        $result = preg_replace('/(\&amp;amp;amp;amp;lt;br\/\&amp;amp;amp;amp;gt;){1,}/', '&amp;amp;amp;amp;lt;br/&amp;amp;amp;amp;gt;', $result);
        echo $result;
        echo '&amp;amp;amp;amp;lt;br/&amp;amp;amp;amp;gt;&amp;amp;amp;amp;lt;br/&amp;amp;amp;amp;gt;';
        echo &amp;amp;amp;amp;quot;退出makePage函数&amp;amp;amp;amp;quot;;
        return $result;
       }
}

登录后复制

先用getJobsHubuNotice()函数获取新闻的链接，标题，日期，然后用makePage()函数获取内容
php通过curl单独抓取网页可以，抓取多个会出错

这是在makePage内部打印链接的结果，链接用浏览器打开没有问题.

回复内容：

function getJobsHubuNotice()

{
            
    $curl = curl_init('http://jobs.hubu.edu.cn/List.aspx?ArticleChannelId=81');
    curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);
    $result = curl_exec($curl);
            //内容处理
    $result = strip_tags($result,'&amp;amp;amp;amp;lt;a&amp;amp;amp;amp;gt;');
    $result = stristr($result, 'nbsp当前位置：');
    $result = str_replace('nbsp当前位置：', '', $result);
    $result = stristr($result, '当前1/2页',true);
    $result = stristr($result, '通知公告');
    $result = str_replace('通知公告&amp;amp;amp;amp;lt;/a&amp;amp;amp;amp;gt;', '', $result);
    preg_match_all('/(?&amp;amp;amp;amp;lt;=href=\&amp;amp;amp;amp;quot;).*?(?=\&amp;amp;amp;amp;quot;)/', $result, $arrayTemp);
    $linkList = $arrayTemp[0];
    preg_match_all('/(?&amp;amp;amp;amp;lt;=title=\&amp;amp;amp;amp;quot;).*?(?=\&amp;amp;amp;amp;quot;)/', $result, $arrayTemp);
    $titleList = $arrayTemp[0];
    preg_match_all('/(?&amp;amp;amp;amp;lt;=\[)\d*\-\d*(?=\])/', $result, $arrayTemp);
    $dateList_temp = $arrayTemp[0];
    $dateList = array();
    $linkList = str_replace('Detail.aspx', 'http://jobs.hubu.edu.cn/Detail.aspx', $linkList);
    foreach ($dateList_temp as $key =&amp;amp;amp;amp;gt; $value) {
        $dateList[$key] = date('Y').'-'.$value;
    }
    $JobsHubu = array();
            //分别获得网页上的每条通知的标题，链接，时间
    $JobsHubu[0] = $dateList;
    $JobsHubu[1] = $titleList;
    $JobsHubu[2] = $linkList;
    return $JobsHubu;
}
//
function makePage($link)
{

        .......   //省略部分代码
       else if(starts($link,'jobs.hubu'))
      {
        echo &amp;amp;amp;amp;quot;进入makePage函数&amp;amp;amp;amp;quot;;
        echo &amp;amp;amp;amp;quot;处理网页&amp;amp;amp;amp;quot;.$link.'&amp;amp;amp;amp;lt;br/&amp;amp;amp;amp;gt;';
        $curl = curl_init();
        curl_setopt($curl, CURLOPT_URL , $link);
        curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);
        $result = curl_exec($curl);
        //echo $result;
        //echo &amp;amp;amp;amp;quot;result结束&amp;amp;amp;amp;quot;;
        $result = strip_tags($result);
        $result = stristr($result, ' &amp;amp;amp;amp;gt; 通知公告');
        $result = str_replace(' &amp;amp;amp;amp;gt; 通知公告', '', $result);
        $result = stristr($result, '$(document).ready',true);
        $result = trim($result);
        $result = str_replace(&amp;amp;amp;amp;quot;\r\n&amp;amp;amp;amp;quot;, '&amp;amp;amp;amp;lt;br/&amp;amp;amp;amp;gt;', $result);
        $result = preg_replace('/(\&amp;amp;amp;amp;lt;br\/\&amp;amp;amp;amp;gt;){1,}/', '&amp;amp;amp;amp;lt;br/&amp;amp;amp;amp;gt;', $result);
        echo $result;
        echo '&amp;amp;amp;amp;lt;br/&amp;amp;amp;amp;gt;&amp;amp;amp;amp;lt;br/&amp;amp;amp;amp;gt;';
        echo &amp;amp;amp;amp;quot;退出makePage函数&amp;amp;amp;amp;quot;;
        return $result;
       }
}

登录后复制

先用getJobsHubuNotice()函数获取新闻的链接，标题，日期，然后用makePage()函数获取内容
php通过curl单独抓取网页可以，抓取多个会出错

这是在makePage内部打印链接的结果，链接用浏览器打开没有问题.

你的代码呢???

你的PHP代码并没有出错, 初步怀疑是你请求时传递的 url 不正确, 见下图:

php通过curl单独抓取网页可以，抓取多个会出错

你代码中输出的那个错误, 其实是你获取到的网页上输出的内容.

再次更新,我想我知道你请求出错的原因是什么了:
你从网页中获取到的URL地址为: Detail.aspx?ArticleChannelId=81&amp;amp;amp;amp;ArticleId=2777,

php通过curl单独抓取网页可以，抓取多个会出错

其中中 &amp;amp;amp; 这个字符为 &amp;amp;amp; 的HTML实体符, 在你输出的时候(即你的截图中)它显示的是&amp;amp;amp;, 而当你去真正请求的时候, 是使用的下面这样的东东:

php通过curl单独抓取网页可以，抓取多个会出错

你只需要把它进行还原或者简单的, 把URL中的 &amp;amp;amp; 替换为 &amp;amp;amp; 然后再去请求就ok了.

再次更新:

&amp;amp;amp;amp;lt;?php
class HttpClient{
    private $ch;

    function __construct($cookie_jar){
        $this-&amp;amp;amp;amp;gt;ch = curl_init();
        curl_setopt($this-&amp;amp;amp;amp;gt;ch, CURLOPT_USERAGENT, 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; Trident/4.0; QQDownload 685; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET4.0C; .NET4.0E)');//UA
        curl_setopt($this-&amp;amp;amp;amp;gt;ch, CURLOPT_TIMEOUT, 40);
        curl_setopt($this-&amp;amp;amp;amp;gt;ch, CURLOPT_FOLLOWLOCATION, TRUE);
        curl_setopt($this-&amp;amp;amp;amp;gt;ch, CURLOPT_AUTOREFERER, true);
        curl_setopt($this-&amp;amp;amp;amp;gt;ch, CURLOPT_RETURNTRANSFER, TRUE);
        curl_setopt($this-&amp;amp;amp;amp;gt;ch, CURLOPT_ENCODING, 'UTF-8');
        curl_setopt($this-&amp;amp;amp;amp;gt;ch, CURLOPT_COOKIEJAR, $cookie_jar);
        curl_setopt($this-&amp;amp;amp;amp;gt;ch, CURLOPT_COOKIEFILE, $cookie_jar);
    }

    function __destruct(){
        curl_close($this-&amp;amp;amp;amp;gt;ch);
    }

    final public function setReferer($ref=''){
        if($ref != ''){
            curl_setopt($this-&amp;amp;amp;amp;gt;ch, CURLOPT_REFERER, $ref);
        }
    }

    final public function Get($url, $header=false, $nobody=false){
        curl_setopt($this-&amp;amp;amp;amp;gt;ch, CURLOPT_POST, false);
        curl_setopt($this-&amp;amp;amp;amp;gt;ch, CURLOPT_URL, $url);
        curl_setopt($this-&amp;amp;amp;amp;gt;ch, CURLOPT_HEADER, $header);
        curl_setopt($this-&amp;amp;amp;amp;gt;ch, CURLOPT_NOBODY, $nobody);
        return curl_exec($this-&amp;amp;amp;amp;gt;ch);
    }

    final public function Post($url, $data=array(), $header=false, $nobody=false){
        curl_setopt($this-&amp;amp;amp;amp;gt;ch, CURLOPT_URL, $url);
        curl_setopt($this-&amp;amp;amp;amp;gt;ch, CURLOPT_HEADER, $header);
        curl_setopt($this-&amp;amp;amp;amp;gt;ch, CURLOPT_NOBODY, $nobody);
        curl_setopt($this-&amp;amp;amp;amp;gt;ch, CURLOPT_POST, true);
        curl_setopt($this-&amp;amp;amp;amp;gt;ch, CURLOPT_POSTFIELDS, http_build_query($data));
        return curl_exec($this-&amp;amp;amp;amp;gt;ch);
    }
}


const ROOT_URL = 'http://jobs.hubu.edu.cn/';

$home = 'http://jobs.hubu.edu.cn/List.aspx?ArticleChannelId=81';


$http = new HttpClient('cookie.txt');

//获取列表页
$html = $http-&amp;amp;amp;amp;gt;Get($home);

//用正则匹配出来 当前页 所有的 文章
preg_match_all('/&amp;amp;amp;amp;lt;td class=&amp;amp;amp;amp;quot;newslist&amp;amp;amp;amp;quot; align=&amp;amp;amp;amp;quot;left&amp;amp;amp;amp;quot;&amp;amp;amp;amp;gt;&amp;amp;amp;amp;lt;a id=&amp;amp;amp;amp;quot;.+?&amp;amp;amp;amp;quot; title=&amp;amp;amp;amp;quot;(.+?)&amp;amp;amp;amp;quot; href=&amp;amp;amp;amp;quot;(.+?)&amp;amp;amp;amp;quot; target=&amp;amp;amp;amp;quot;_self&amp;amp;amp;amp;quot;&amp;amp;amp;amp;gt;.+?&amp;amp;amp;amp;lt;\/a&amp;amp;amp;amp;gt;\s+\[(\d+\-\d+)\]/', $html, $links);

array_shift($links);//删除掉第一个

$size = count($links[0]);

for($i=0; $i&amp;amp;amp;amp;lt;$size; $i++){//有匹配到结果
    $title = $links[0][$i];
    $url = htmlspecialchars_decode($links[1][$i]);//还原URL中的 HTML 实体符为原始的字符
    $date = date('Y') . '-' . $links[2][$i];

    echo $date, &amp;amp;amp;amp;quot;\t&amp;amp;amp;amp;quot;, $title, &amp;amp;amp;amp;quot;\t&amp;amp;amp;amp;quot;, $url, &amp;amp;amp;amp;quot;\n&amp;amp;amp;amp;quot;;
    //makePage($url);
}


function makePage($url){
    global $http;//使用全局变量中的那个 HttpClient 实例

    $html = $http-&amp;amp;amp;amp;gt;Get(ROOT_URL . $url);//拼接完整的URL

    //$html 就是页面的内容
}

登录后复制

因为无聊帮你更新一下代码, 上面为我自己根据你之前的代码编写而成, 下图为运行结果(makePage里面加你自己的代码):

php通过curl单独抓取网页可以，抓取多个会出错

makePage($link)
$link有值么，类型对么？

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

AI Hentai Generator

免费生成ai无尽的。

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

gmail邮箱登陆入口在哪里

7518

CakePHP 教程

1378

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

显示更多

Related knowledge

适用于 Ubuntu 和 Debian 的 PHP 8.4 安装和升级指南 Dec 24, 2024 pm 04:42 PM

PHP 8.4 带来了多项新功能、安全性改进和性能改进，同时弃用和删除了大量功能。本指南介绍了如何在 Ubuntu、Debian 或其衍生版本上安装 PHP 8.4 或升级到 PHP 8.4

如何设置 Visual Studio Code (VS Code) 进行 PHP 开发 Dec 20, 2024 am 11:31 AM

Visual Studio Code，也称为 VS Code，是一个免费的源代码编辑器 - 或集成开发环境 (IDE) - 可用于所有主要操作系统。 VS Code 拥有针对多种编程语言的大量扩展，可以轻松编写

您如何在PHP中解析和处理HTML/XML？ Feb 07, 2025 am 11:57 AM

本教程演示了如何使用PHP有效地处理XML文档。 XML（可扩展的标记语言）是一种用于人类可读性和机器解析的多功能文本标记语言。它通常用于数据存储

我后悔之前不知道的 7 个 PHP 函数 Nov 13, 2024 am 09:42 AM

如果您是一位经验丰富的 PHP 开发人员，您可能会感觉您已经在那里并且已经完成了。您已经开发了大量的应用程序，调试了数百万行代码，并调整了一堆脚本来实现操作

在PHP API中说明JSON Web令牌（JWT）及其用例。 Apr 05, 2025 am 12:04 AM

JWT是一种基于JSON的开放标准，用于在各方之间安全地传输信息，主要用于身份验证和信息交换。1.JWT由Header、Payload和Signature三部分组成。2.JWT的工作原理包括生成JWT、验证JWT和解析Payload三个步骤。3.在PHP中使用JWT进行身份验证时，可以生成和验证JWT，并在高级用法中包含用户角色和权限信息。4.常见错误包括签名验证失败、令牌过期和Payload过大，调试技巧包括使用调试工具和日志记录。5.性能优化和最佳实践包括使用合适的签名算法、合理设置有效期、

php程序在字符串中计数元音 Feb 07, 2025 pm 12:12 PM

字符串是由字符组成的序列，包括字母、数字和符号。本教程将学习如何使用不同的方法在PHP中计算给定字符串中元音的数量。英语中的元音是a、e、i、o、u，它们可以是大写或小写。什么是元音？元音是代表特定语音的字母字符。英语中共有五个元音，包括大写和小写： a, e, i, o, u 示例 1 输入：字符串 = "Tutorialspoint" 输出：6 解释字符串 "Tutorialspoint" 中的元音是 u、o、i、a、o、i。总共有 6 个元

解释PHP中的晚期静态绑定（静态：:)。 Apr 03, 2025 am 12:04 AM

静态绑定（static::）在PHP中实现晚期静态绑定（LSB），允许在静态上下文中引用调用类而非定义类。1）解析过程在运行时进行，2）在继承关系中向上查找调用类，3）可能带来性能开销。

什么是PHP魔术方法（__ -construct，__destruct，__call，__get，__ set等）并提供用例？ Apr 03, 2025 am 12:03 AM

PHP的魔法方法有哪些？PHP的魔法方法包括：1.\_\_construct，用于初始化对象；2.\_\_destruct，用于清理资源；3.\_\_call，处理不存在的方法调用；4.\_\_get，实现动态属性访问；5.\_\_set，实现动态属性设置。这些方法在特定情况下自动调用，提升代码的灵活性和效率。

See all articles

php通过curl单独抓取网页可以，抓取多个会出错

回复内容：

你的代码呢???

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题