Heim > Backend-Entwicklung > PHP-Tutorial > php curl 抓網頁數據問題,聽說內地神人很多,求神人解

php curl 抓網頁數據問題,聽說內地神人很多,求神人解

WBOY
Freigeben: 2016-06-06 20:45:28
Original
1187 Leute haben es durchsucht

因工作需求,需要抓取别人网站的数据,使用php + curl 但是遇到问题无解

听说内地的神人很多,请各位神人帮帮小弟,来自台湾的小弟已经爬文爬文三天了。


网址:http://www.cbssports.com/mlb/scoreboard

然后,选择下方正在比赛中的赛事,点选GAMETRACKER 就可以看到直播

问题来了

以这个网址为例:(当各位大大看到时,也许赛事已经结束了)

ttp://www.cbssports.com/mlb/gametracker/live/MLB_20140527_TB@TOR

小弟写的程序如下:

<code>$game=array();
$ch = curl_init(); 
$search1=$_GET['searcharg']; 
$url ="http://www.cbssports.com/mlb/gametracker/live/MLB_20140527_TB@TOR"; 


$ch = curl_init(); 
curl_setopt($ch, CURLOPT_URL, $url); 
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); 
curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11");
$data = curl_exec($ch);

curl_close($ch);
preg_match_all('/<span class="teamLocation">(.*?)/is',$data,$teamCity);
</span></code>
Nach dem Login kopieren

….(进行字符串解析)

目前已知问题:
不管是 「另存新檔」save as ,还是 检视原始档 ,一些该出现的html都没有出现,例如:
原网站为:

<code><tr id="current-pitcher">
    <td><img  src="http://sports.cbsimg.net/images/baseball/mlb/players/60x80/1961062.jpg" border="0" alt="php curl 抓網頁數據問題,聽說內地神人很多,求神人解" ></td>
    <td>
<span class="label">Pitcher:</span><span class="name"><b>M. Mariot</b> |  # 48 RP</span>
        <br>
        <a href="#" class="statOpt" data-playerid="1" data-position="pitcher">Game Stats</a>
        <div class="game-stats">0.1 IP</div>
        <div class="season-stats">0-0, 5.73 ERA, 11.0 IP, 9 K's, 6 BB</div>
    </td>
</tr>
</code>
Nach dem Login kopieren
Nach dem Login kopieren

不管是另存新档的网页或是curl 抓出来的结果为

<ul class="nav">
    <li class="active ingame" data-filter="current"><a href="#">Current Situation</a></li>
    <li data-filter="hitchart"><a href="#">Hitting Charts</a></li>
    <li data-filter="pitchchart"><a href="#">Pitching Charts</a></li>
</ul>
<div class="currentSituation ingame">
    <div class="batter-pitcher fLeft">
        <table>
            <tr id="current-pitcher">
                <td><img  src="http://sports.cbsimg.net/images/baseball/mlb/players/60x80/no-photo-available.jpg" border="0" alt="php curl 抓網頁數據問題,聽說內地神人很多,求神人解" ></td>
                <td>
<span class="label">Pitcher:</span><span class="name">    </span>
                    <br>
                    <a href="#" class="statOpt" data-playerid="1" data-position="pitcher">Game Stats</a>
                    <div class="game-stats">


<p>上面蓝色代表没有显示出来的,</p>

<p>目前我试过的方式,送cookie!模拟浏览器 ,还是没效,<br>
不知道各位内地的神人有没有解?请给小弟一个方向吧(跪求)</p>

                            
                        


                                                                                                                        
                     <h2>回复内容:</h2>
                      
                                                            
<p>因工作需求,需要抓取别人网站的数据,使用php + curl 但是遇到问题无解</p>

<p>听说内地的神人很多,请各位神人帮帮小弟,来自台湾的小弟已经爬文爬文三天了。</p>

<hr>
<p>网址:http://www.cbssports.com/mlb/scoreboard</p>

<p>然后,选择下方正在比赛中的赛事,点选GAMETRACKER 就可以看到直播</p>

<p>问题来了</p>

<p>以这个网址为例:(当各位大大看到时,也许赛事已经结束了)</p>

<p>ttp://www.cbssports.com/mlb/gametracker/live/MLB_20140527_TB@TOR</p>

<p>小弟写的程序如下:</p>

<div class="code" style="position:relative; padding:0px; margin:0px;"><pre class="brush:php;toolbar:false">&lt;code&gt;$game=array();
$ch = curl_init(); 
$search1=$_GET['searcharg']; 
$url =&quot;http://www.cbssports.com/mlb/gametracker/live/MLB_20140527_TB@TOR&quot;; 


$ch = curl_init(); 
curl_setopt($ch, CURLOPT_URL, $url); 
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); 
curl_setopt($ch, CURLOPT_USERAGENT, &quot;Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11&quot;);
$data = curl_exec($ch);

curl_close($ch);
preg_match_all('/&lt;span class=&quot;teamLocation&quot;&gt;(.*?)/is',$data,$teamCity);
&lt;/span&gt;&lt;/code&gt;</pre><div class="contentsignin">Nach dem Login kopieren</div></div>

<p>….(进行字符串解析)</p>

<p>目前已知问题:<br>
不管是 「另存新檔」save as ,还是 检视原始档  ,一些该出现的html都没有出现,例如:<br>
原网站为:</p>

<div class="code" style="position:relative; padding:0px; margin:0px;"><div class="code" style="position:relative; padding:0px; margin:0px;"><pre class="brush:php;toolbar:false">&lt;code&gt;&lt;tr id=&quot;current-pitcher&quot;&gt;
    &lt;td&gt;&lt;img  src=&quot;http://sports.cbsimg.net/images/baseball/mlb/players/60x80/1961062.jpg&quot; border=&quot;0&quot; alt=&quot;php curl 抓網頁數據問題,聽說內地神人很多,求神人解&quot; &gt;&lt;/td&gt;
    &lt;td&gt;
&lt;span class=&quot;label&quot;&gt;Pitcher:&lt;/span&gt;&lt;span class=&quot;name&quot;&gt;&lt;b&gt;M. Mariot&lt;/b&gt; |  # 48 RP&lt;/span&gt;
        &lt;br&gt;
        &lt;a href=&quot;#&quot; class=&quot;statOpt&quot; data-playerid=&quot;1&quot; data-position=&quot;pitcher&quot;&gt;Game Stats&lt;/a&gt;
        &lt;div class=&quot;game-stats&quot;&gt;0.1 IP&lt;/div&gt;
        &lt;div class=&quot;season-stats&quot;&gt;0-0, 5.73 ERA, 11.0 IP, 9 K's, 6 BB&lt;/div&gt;
    &lt;/td&gt;
&lt;/tr&gt;
&lt;/code&gt;</pre><div class="contentsignin">Nach dem Login kopieren</div></div><div class="contentsignin">Nach dem Login kopieren</div></div>

<p>不管是另存新档的网页或是curl 抓出来的结果为</p>

<div class="code" style="position:relative; padding:0px; margin:0px;"><pre class="brush:php;toolbar:false">&lt;code&gt;&lt;ul class=&quot;nav&quot;&gt;
    &lt;li class=&quot;active ingame&quot; data-filter=&quot;current&quot;&gt;&lt;a href=&quot;#&quot;&gt;Current Situation&lt;/a&gt;&lt;/li&gt;
    &lt;li data-filter=&quot;hitchart&quot;&gt;&lt;a href=&quot;#&quot;&gt;Hitting Charts&lt;/a&gt;&lt;/li&gt;
    &lt;li data-filter=&quot;pitchchart&quot;&gt;&lt;a href=&quot;#&quot;&gt;Pitching Charts&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;div class=&quot;currentSituation ingame&quot;&gt;
    &lt;div class=&quot;batter-pitcher fLeft&quot;&gt;
        &lt;table&gt;
            &lt;tr id=&quot;current-pitcher&quot;&gt;
                &lt;td&gt;&lt;img  src=&quot;http://sports.cbsimg.net/images/baseball/mlb/players/60x80/no-photo-available.jpg&quot; border=&quot;0&quot; alt=&quot;php curl 抓網頁數據問題,聽說內地神人很多,求神人解&quot; &gt;&lt;/td&gt;
                &lt;td&gt;
&lt;span class=&quot;label&quot;&gt;Pitcher:&lt;/span&gt;&lt;span class=&quot;name&quot;&gt;    &lt;/span&gt;
                    &lt;br&gt;
                    &lt;a href=&quot;#&quot; class=&quot;statOpt&quot; data-playerid=&quot;1&quot; data-position=&quot;pitcher&quot;&gt;Game Stats&lt;/a&gt;
                    &lt;div class=&quot;game-stats&quot;&gt;


&lt;p&gt;上面蓝色代表没有显示出来的,&lt;/p&gt;

&lt;p&gt;目前我试过的方式,送cookie!模拟浏览器 ,还是没效,&lt;br&gt;
不知道各位内地的神人有没有解?请给小弟一个方向吧(跪求)&lt;/p&gt;

                            
                        
            &lt;p class=&quot;answer fmt&quot; data-id=&quot;1020000000522290&quot;&gt;
                                    
&lt;/p&gt;
&lt;p&gt;额,不知道你碰到了什么问题,不过我看了下就是简单的抓取,完全没问题啊。另外,解析HTML请不要在用正则了,推荐你用一下 phpQuery 这个库,PHP抓取利器。以你给的网址为例:&lt;/p&gt;

&lt;pre class=&quot;brush:php;toolbar:false&quot;&gt;&lt;code class=&quot;lang-php&quot;&gt;include &quot;phpQuery.php&quot;;
phpQuery::newDocumentFile(&quot;http://www.cbssports.com/mlb/gametracker/live/MLB_20140527_TB@TOR&quot;);
echo pq(&quot;#current-pitcher&quot;)-&gt;html();
&lt;/code&gt;</pre><div class="contentsignin">Nach dem Login kopieren</div></div>

<p><img  data-src="http://segmentfault.com/img/bVcl2b" alt="php curl 抓網頁數據問題,聽說內地神人很多,求神人解" ></p>

                            
            <p class="answer fmt" data-id="1020000000522314">
                                    
</p>
<p>我遇到的问题 其实说穿了就是</p>

<p>...我用firbug 或 chrome debug时,所追踪的html 跟我 「检视原始档」和「另存新档」时所看到的资料不同:</p>

<p>目前有赛事  http://www.cbssports.com/mlb/gametracker/live/MLB_20140527_DET@OAK</p>

<p>神人求解</p>

                            
            <p class="answer fmt" data-id="1020000000522593">
                                    
</p>
<p>你想要抓去的html内容,是由javascript生成的,抓包工具都不会解析执行javascript的。<br>
解决方法就是用phantomjs,可以跑一个受脚本控制的,无界面的webkit。</p>

                            </div>
</td>
</tr>
</table>
</div>
</div>
Verwandte Etiketten:
php
Quelle:php.cn
Vorheriger Artikel:shell随机写入指定文件 Nächster Artikel:PHP使用Beanstalkd做任务队列,是不是代表需要有一个PHP常驻进程?
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Neueste Artikel des Autors
Aktuelle Ausgaben
verwandte Themen
Mehr>
Beliebte Empfehlungen
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage