목차
回复内容:
백엔드 개발 PHP 튜토리얼 php curl 抓網頁數據問題,聽說內地神人很多,求神人解

php curl 抓網頁數據問題,聽說內地神人很多,求神人解

Jun 06, 2016 pm 08:45 PM
php

因工作需求,需要抓取别人网站的数据,使用php + curl 但是遇到问题无解

听说内地的神人很多,请各位神人帮帮小弟,来自台湾的小弟已经爬文爬文三天了。


网址:http://www.cbssports.com/mlb/scoreboard

然后,选择下方正在比赛中的赛事,点选GAMETRACKER 就可以看到直播

问题来了

以这个网址为例:(当各位大大看到时,也许赛事已经结束了)

ttp://www.cbssports.com/mlb/gametracker/live/MLB_20140527_TB@TOR

小弟写的程序如下:

<code>$game=array();
$ch = curl_init(); 
$search1=$_GET['searcharg']; 
$url ="http://www.cbssports.com/mlb/gametracker/live/MLB_20140527_TB@TOR"; 


$ch = curl_init(); 
curl_setopt($ch, CURLOPT_URL, $url); 
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); 
curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11");
$data = curl_exec($ch);

curl_close($ch);
preg_match_all('/<span class="teamLocation">(.*?)/is',$data,$teamCity);
</span></code>
로그인 후 복사

….(进行字符串解析)

目前已知问题:
不管是 「另存新檔」save as ,还是 检视原始档 ,一些该出现的html都没有出现,例如:
原网站为:

<code><tr id="current-pitcher">
    <td><img  src="/static/imghw/default1.png" data-src="http://sports.cbsimg.net/images/baseball/mlb/players/60x80/1961062.jpg" class="lazy" border="0" alt="php curl 抓網頁數據問題,聽說內地神人很多,求神人解" ></td>
    <td>
<span class="label">Pitcher:</span><span class="name"><b>M. Mariot</b> |  # 48 RP</span>
        <br>
        <a href="#" class="statOpt" data-playerid="1" data-position="pitcher">Game Stats</a>
        <div class="game-stats">0.1 IP</div>
        <div class="season-stats">0-0, 5.73 ERA, 11.0 IP, 9 K's, 6 BB</div>
    </td>
</tr>
</code>
로그인 후 복사
로그인 후 복사

不管是另存新档的网页或是curl 抓出来的结果为

<ul class="nav">
    <li class="active ingame" data-filter="current"><a href="#">Current Situation</a></li>
    <li data-filter="hitchart"><a href="#">Hitting Charts</a></li>
    <li data-filter="pitchchart"><a href="#">Pitching Charts</a></li>
</ul>
<div class="currentSituation ingame">
    <div class="batter-pitcher fLeft">
        <table>
            <tr id="current-pitcher">
                <td><img  src="/static/imghw/default1.png" data-src="http://sports.cbsimg.net/images/baseball/mlb/players/60x80/no-photo-available.jpg" class="lazy" border="0" alt="php curl 抓網頁數據問題,聽說內地神人很多,求神人解" ></td>
                <td>
<span class="label">Pitcher:</span><span class="name">    </span>
                    <br>
                    <a href="#" class="statOpt" data-playerid="1" data-position="pitcher">Game Stats</a>
                    <div class="game-stats">


<p>上面蓝色代表没有显示出来的,</p>

<p>目前我试过的方式,送cookie!模拟浏览器 ,还是没效,<br>
不知道各位内地的神人有没有解?请给小弟一个方向吧(跪求)</p>

                            
                        


                                                                                                                        
                     <h2 id="回复内容">回复内容:</h2>
                      
                                                            
<p>因工作需求,需要抓取别人网站的数据,使用php + curl 但是遇到问题无解</p>

<p>听说内地的神人很多,请各位神人帮帮小弟,来自台湾的小弟已经爬文爬文三天了。</p>

<hr>
<p>网址:http://www.cbssports.com/mlb/scoreboard</p>

<p>然后,选择下方正在比赛中的赛事,点选GAMETRACKER 就可以看到直播</p>

<p>问题来了</p>

<p>以这个网址为例:(当各位大大看到时,也许赛事已经结束了)</p>

<p>ttp://www.cbssports.com/mlb/gametracker/live/MLB_20140527_TB@TOR</p>

<p>小弟写的程序如下:</p>

<div class="code" style="position:relative; padding:0px; margin:0px;"><pre class="brush:php;toolbar:false">&lt;code&gt;$game=array();
$ch = curl_init(); 
$search1=$_GET['searcharg']; 
$url =&quot;http://www.cbssports.com/mlb/gametracker/live/MLB_20140527_TB@TOR&quot;; 


$ch = curl_init(); 
curl_setopt($ch, CURLOPT_URL, $url); 
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); 
curl_setopt($ch, CURLOPT_USERAGENT, &quot;Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11&quot;);
$data = curl_exec($ch);

curl_close($ch);
preg_match_all('/&lt;span class=&quot;teamLocation&quot;&gt;(.*?)/is',$data,$teamCity);
&lt;/span&gt;&lt;/code&gt;</pre><div class="contentsignin">로그인 후 복사</div></div>

<p>….(进行字符串解析)</p>

<p>目前已知问题:<br>
不管是 「另存新檔」save as ,还是 检视原始档  ,一些该出现的html都没有出现,例如:<br>
原网站为:</p>

<div class="code" style="position:relative; padding:0px; margin:0px;"><div class="code" style="position:relative; padding:0px; margin:0px;"><pre class="brush:php;toolbar:false">&lt;code&gt;&lt;tr id=&quot;current-pitcher&quot;&gt;
    &lt;td&gt;&lt;img  src=&quot;/static/imghw/default1.png&quot; data-src=&quot;http://sports.cbsimg.net/images/baseball/mlb/players/60x80/1961062.jpg&quot; class=&quot;lazy&quot; border=&quot;0&quot; alt=&quot;php curl 抓網頁數據問題,聽說內地神人很多,求神人解&quot; &gt;&lt;/td&gt;
    &lt;td&gt;
&lt;span class=&quot;label&quot;&gt;Pitcher:&lt;/span&gt;&lt;span class=&quot;name&quot;&gt;&lt;b&gt;M. Mariot&lt;/b&gt; |  # 48 RP&lt;/span&gt;
        &lt;br&gt;
        &lt;a href=&quot;#&quot; class=&quot;statOpt&quot; data-playerid=&quot;1&quot; data-position=&quot;pitcher&quot;&gt;Game Stats&lt;/a&gt;
        &lt;div class=&quot;game-stats&quot;&gt;0.1 IP&lt;/div&gt;
        &lt;div class=&quot;season-stats&quot;&gt;0-0, 5.73 ERA, 11.0 IP, 9 K's, 6 BB&lt;/div&gt;
    &lt;/td&gt;
&lt;/tr&gt;
&lt;/code&gt;</pre><div class="contentsignin">로그인 후 복사</div></div><div class="contentsignin">로그인 후 복사</div></div>

<p>不管是另存新档的网页或是curl 抓出来的结果为</p>

<div class="code" style="position:relative; padding:0px; margin:0px;"><pre class="brush:php;toolbar:false">&lt;code&gt;&lt;ul class=&quot;nav&quot;&gt;
    &lt;li class=&quot;active ingame&quot; data-filter=&quot;current&quot;&gt;&lt;a href=&quot;#&quot;&gt;Current Situation&lt;/a&gt;&lt;/li&gt;
    &lt;li data-filter=&quot;hitchart&quot;&gt;&lt;a href=&quot;#&quot;&gt;Hitting Charts&lt;/a&gt;&lt;/li&gt;
    &lt;li data-filter=&quot;pitchchart&quot;&gt;&lt;a href=&quot;#&quot;&gt;Pitching Charts&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;div class=&quot;currentSituation ingame&quot;&gt;
    &lt;div class=&quot;batter-pitcher fLeft&quot;&gt;
        &lt;table&gt;
            &lt;tr id=&quot;current-pitcher&quot;&gt;
                &lt;td&gt;&lt;img  src=&quot;/static/imghw/default1.png&quot; data-src=&quot;http://sports.cbsimg.net/images/baseball/mlb/players/60x80/no-photo-available.jpg&quot; class=&quot;lazy&quot; border=&quot;0&quot; alt=&quot;php curl 抓網頁數據問題,聽說內地神人很多,求神人解&quot; &gt;&lt;/td&gt;
                &lt;td&gt;
&lt;span class=&quot;label&quot;&gt;Pitcher:&lt;/span&gt;&lt;span class=&quot;name&quot;&gt;    &lt;/span&gt;
                    &lt;br&gt;
                    &lt;a href=&quot;#&quot; class=&quot;statOpt&quot; data-playerid=&quot;1&quot; data-position=&quot;pitcher&quot;&gt;Game Stats&lt;/a&gt;
                    &lt;div class=&quot;game-stats&quot;&gt;


&lt;p&gt;上面蓝色代表没有显示出来的,&lt;/p&gt;

&lt;p&gt;目前我试过的方式,送cookie!模拟浏览器 ,还是没效,&lt;br&gt;
不知道各位内地的神人有没有解?请给小弟一个方向吧(跪求)&lt;/p&gt;

                            
                        
            &lt;p class=&quot;answer fmt&quot; data-id=&quot;1020000000522290&quot;&gt;
                                    
&lt;/p&gt;
&lt;p&gt;额,不知道你碰到了什么问题,不过我看了下就是简单的抓取,完全没问题啊。另外,解析HTML请不要在用正则了,推荐你用一下 phpQuery 这个库,PHP抓取利器。以你给的网址为例:&lt;/p&gt;

&lt;pre class='brush:php;toolbar:false;'&gt;include &quot;phpQuery.php&quot;;
phpQuery::newDocumentFile(&quot;http://www.cbssports.com/mlb/gametracker/live/MLB_20140527_TB@TOR&quot;);
echo pq(&quot;#current-pitcher&quot;)-&gt;html();
</pre><div class="contentsignin">로그인 후 복사</div></div>

<p><img  src="/static/imghw/default1.png" data-src="http://segmentfault.com/img/bVcl2b" class="lazy" data- alt="php curl 抓網頁數據問題,聽說內地神人很多,求神人解" ></p>

                            
            <p class="answer fmt" data-id="1020000000522314">
                                    
</p>
<p>我遇到的问题 其实说穿了就是</p>

<p>...我用firbug 或 chrome debug时,所追踪的html 跟我 「检视原始档」和「另存新档」时所看到的资料不同:</p>

<p>目前有赛事  http://www.cbssports.com/mlb/gametracker/live/MLB_20140527_DET@OAK</p>

<p>神人求解</p>

                            
            <p class="answer fmt" data-id="1020000000522593">
                                    
</p>
<p>你想要抓去的html内容,是由javascript生成的,抓包工具都不会解析执行javascript的。<br>
解决方法就是用phantomjs,可以跑一个受脚本控制的,无界面的webkit。</p>

                            </div>
</td>
</tr>
</table>
</div>
</div>
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

뜨거운 기사 태그

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

Ubuntu 및 Debian용 PHP 8.4 설치 및 업그레이드 가이드 Ubuntu 및 Debian용 PHP 8.4 설치 및 업그레이드 가이드 Dec 24, 2024 pm 04:42 PM

Ubuntu 및 Debian용 PHP 8.4 설치 및 업그레이드 가이드

CakePHP 날짜 및 시간 CakePHP 날짜 및 시간 Sep 10, 2024 pm 05:27 PM

CakePHP 날짜 및 시간

CakePHP 프로젝트 구성 CakePHP 프로젝트 구성 Sep 10, 2024 pm 05:25 PM

CakePHP 프로젝트 구성

CakePHP 파일 업로드 CakePHP 파일 업로드 Sep 10, 2024 pm 05:27 PM

CakePHP 파일 업로드

CakePHP 라우팅 CakePHP 라우팅 Sep 10, 2024 pm 05:25 PM

CakePHP 라우팅

CakePHP 토론 CakePHP 토론 Sep 10, 2024 pm 05:28 PM

CakePHP 토론

CakePHP 빠른 가이드 CakePHP 빠른 가이드 Sep 10, 2024 pm 05:27 PM

CakePHP 빠른 가이드

PHP 개발을 위해 Visual Studio Code(VS Code)를 설정하는 방법 PHP 개발을 위해 Visual Studio Code(VS Code)를 설정하는 방법 Dec 20, 2024 am 11:31 AM

PHP 개발을 위해 Visual Studio Code(VS Code)를 설정하는 방법

See all articles