Table des matières
回复内容:
Maison développement back-end tutoriel php php curl 抓網頁數據問題,聽說內地神人很多,求神人解

php curl 抓網頁數據問題,聽說內地神人很多,求神人解

Jun 06, 2016 pm 08:45 PM
php

因工作需求,需要抓取别人网站的数据,使用php + curl 但是遇到问题无解

听说内地的神人很多,请各位神人帮帮小弟,来自台湾的小弟已经爬文爬文三天了。


网址:http://www.cbssports.com/mlb/scoreboard

然后,选择下方正在比赛中的赛事,点选GAMETRACKER 就可以看到直播

问题来了

以这个网址为例:(当各位大大看到时,也许赛事已经结束了)

ttp://www.cbssports.com/mlb/gametracker/live/MLB_20140527_TB@TOR

小弟写的程序如下:

<code>$game=array();
$ch = curl_init(); 
$search1=$_GET['searcharg']; 
$url ="http://www.cbssports.com/mlb/gametracker/live/MLB_20140527_TB@TOR"; 


$ch = curl_init(); 
curl_setopt($ch, CURLOPT_URL, $url); 
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); 
curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11");
$data = curl_exec($ch);

curl_close($ch);
preg_match_all('/<span class="teamLocation">(.*?)/is',$data,$teamCity);
</span></code>
Copier après la connexion

….(进行字符串解析)

目前已知问题:
不管是 「另存新檔」save as ,还是 检视原始档 ,一些该出现的html都没有出现,例如:
原网站为:

<code><tr id="current-pitcher">
    <td><img  src="/static/imghw/default1.png" data-src="http://sports.cbsimg.net/images/baseball/mlb/players/60x80/1961062.jpg" class="lazy" border="0" alt="php curl 抓網頁數據問題,聽說內地神人很多,求神人解" ></td>
    <td>
<span class="label">Pitcher:</span><span class="name"><b>M. Mariot</b> |  # 48 RP</span>
        <br>
        <a href="#" class="statOpt" data-playerid="1" data-position="pitcher">Game Stats</a>
        <div class="game-stats">0.1 IP</div>
        <div class="season-stats">0-0, 5.73 ERA, 11.0 IP, 9 K's, 6 BB</div>
    </td>
</tr>
</code>
Copier après la connexion
Copier après la connexion

不管是另存新档的网页或是curl 抓出来的结果为

<ul class="nav">
    <li class="active ingame" data-filter="current"><a href="#">Current Situation</a></li>
    <li data-filter="hitchart"><a href="#">Hitting Charts</a></li>
    <li data-filter="pitchchart"><a href="#">Pitching Charts</a></li>
</ul>
<div class="currentSituation ingame">
    <div class="batter-pitcher fLeft">
        <table>
            <tr id="current-pitcher">
                <td><img  src="/static/imghw/default1.png" data-src="http://sports.cbsimg.net/images/baseball/mlb/players/60x80/no-photo-available.jpg" class="lazy" border="0" alt="php curl 抓網頁數據問題,聽說內地神人很多,求神人解" ></td>
                <td>
<span class="label">Pitcher:</span><span class="name">    </span>
                    <br>
                    <a href="#" class="statOpt" data-playerid="1" data-position="pitcher">Game Stats</a>
                    <div class="game-stats">


<p>上面蓝色代表没有显示出来的,</p>

<p>目前我试过的方式,送cookie!模拟浏览器 ,还是没效,<br>
不知道各位内地的神人有没有解?请给小弟一个方向吧(跪求)</p>

                            
                        


                                                                                                                        
                     <h2 id="回复内容">回复内容:</h2>
                      
                                                            
<p>因工作需求,需要抓取别人网站的数据,使用php + curl 但是遇到问题无解</p>

<p>听说内地的神人很多,请各位神人帮帮小弟,来自台湾的小弟已经爬文爬文三天了。</p>

<hr>
<p>网址:http://www.cbssports.com/mlb/scoreboard</p>

<p>然后,选择下方正在比赛中的赛事,点选GAMETRACKER 就可以看到直播</p>

<p>问题来了</p>

<p>以这个网址为例:(当各位大大看到时,也许赛事已经结束了)</p>

<p>ttp://www.cbssports.com/mlb/gametracker/live/MLB_20140527_TB@TOR</p>

<p>小弟写的程序如下:</p>

<div class="code" style="position:relative; padding:0px; margin:0px;"><pre class="brush:php;toolbar:false">&lt;code&gt;$game=array();
$ch = curl_init(); 
$search1=$_GET['searcharg']; 
$url =&quot;http://www.cbssports.com/mlb/gametracker/live/MLB_20140527_TB@TOR&quot;; 


$ch = curl_init(); 
curl_setopt($ch, CURLOPT_URL, $url); 
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); 
curl_setopt($ch, CURLOPT_USERAGENT, &quot;Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11&quot;);
$data = curl_exec($ch);

curl_close($ch);
preg_match_all('/&lt;span class=&quot;teamLocation&quot;&gt;(.*?)/is',$data,$teamCity);
&lt;/span&gt;&lt;/code&gt;</pre><div class="contentsignin">Copier après la connexion</div></div>

<p>….(进行字符串解析)</p>

<p>目前已知问题:<br>
不管是 「另存新檔」save as ,还是 检视原始档  ,一些该出现的html都没有出现,例如:<br>
原网站为:</p>

<div class="code" style="position:relative; padding:0px; margin:0px;"><div class="code" style="position:relative; padding:0px; margin:0px;"><pre class="brush:php;toolbar:false">&lt;code&gt;&lt;tr id=&quot;current-pitcher&quot;&gt;
    &lt;td&gt;&lt;img  src=&quot;/static/imghw/default1.png&quot; data-src=&quot;http://sports.cbsimg.net/images/baseball/mlb/players/60x80/1961062.jpg&quot; class=&quot;lazy&quot; border=&quot;0&quot; alt=&quot;php curl 抓網頁數據問題,聽說內地神人很多,求神人解&quot; &gt;&lt;/td&gt;
    &lt;td&gt;
&lt;span class=&quot;label&quot;&gt;Pitcher:&lt;/span&gt;&lt;span class=&quot;name&quot;&gt;&lt;b&gt;M. Mariot&lt;/b&gt; |  # 48 RP&lt;/span&gt;
        &lt;br&gt;
        &lt;a href=&quot;#&quot; class=&quot;statOpt&quot; data-playerid=&quot;1&quot; data-position=&quot;pitcher&quot;&gt;Game Stats&lt;/a&gt;
        &lt;div class=&quot;game-stats&quot;&gt;0.1 IP&lt;/div&gt;
        &lt;div class=&quot;season-stats&quot;&gt;0-0, 5.73 ERA, 11.0 IP, 9 K's, 6 BB&lt;/div&gt;
    &lt;/td&gt;
&lt;/tr&gt;
&lt;/code&gt;</pre><div class="contentsignin">Copier après la connexion</div></div><div class="contentsignin">Copier après la connexion</div></div>

<p>不管是另存新档的网页或是curl 抓出来的结果为</p>

<div class="code" style="position:relative; padding:0px; margin:0px;"><pre class="brush:php;toolbar:false">&lt;code&gt;&lt;ul class=&quot;nav&quot;&gt;
    &lt;li class=&quot;active ingame&quot; data-filter=&quot;current&quot;&gt;&lt;a href=&quot;#&quot;&gt;Current Situation&lt;/a&gt;&lt;/li&gt;
    &lt;li data-filter=&quot;hitchart&quot;&gt;&lt;a href=&quot;#&quot;&gt;Hitting Charts&lt;/a&gt;&lt;/li&gt;
    &lt;li data-filter=&quot;pitchchart&quot;&gt;&lt;a href=&quot;#&quot;&gt;Pitching Charts&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;div class=&quot;currentSituation ingame&quot;&gt;
    &lt;div class=&quot;batter-pitcher fLeft&quot;&gt;
        &lt;table&gt;
            &lt;tr id=&quot;current-pitcher&quot;&gt;
                &lt;td&gt;&lt;img  src=&quot;/static/imghw/default1.png&quot; data-src=&quot;http://sports.cbsimg.net/images/baseball/mlb/players/60x80/no-photo-available.jpg&quot; class=&quot;lazy&quot; border=&quot;0&quot; alt=&quot;php curl 抓網頁數據問題,聽說內地神人很多,求神人解&quot; &gt;&lt;/td&gt;
                &lt;td&gt;
&lt;span class=&quot;label&quot;&gt;Pitcher:&lt;/span&gt;&lt;span class=&quot;name&quot;&gt;    &lt;/span&gt;
                    &lt;br&gt;
                    &lt;a href=&quot;#&quot; class=&quot;statOpt&quot; data-playerid=&quot;1&quot; data-position=&quot;pitcher&quot;&gt;Game Stats&lt;/a&gt;
                    &lt;div class=&quot;game-stats&quot;&gt;


&lt;p&gt;上面蓝色代表没有显示出来的,&lt;/p&gt;

&lt;p&gt;目前我试过的方式,送cookie!模拟浏览器 ,还是没效,&lt;br&gt;
不知道各位内地的神人有没有解?请给小弟一个方向吧(跪求)&lt;/p&gt;

                            
                        
            &lt;p class=&quot;answer fmt&quot; data-id=&quot;1020000000522290&quot;&gt;
                                    
&lt;/p&gt;
&lt;p&gt;额,不知道你碰到了什么问题,不过我看了下就是简单的抓取,完全没问题啊。另外,解析HTML请不要在用正则了,推荐你用一下 phpQuery 这个库,PHP抓取利器。以你给的网址为例:&lt;/p&gt;

&lt;pre class='brush:php;toolbar:false;'&gt;include &quot;phpQuery.php&quot;;
phpQuery::newDocumentFile(&quot;http://www.cbssports.com/mlb/gametracker/live/MLB_20140527_TB@TOR&quot;);
echo pq(&quot;#current-pitcher&quot;)-&gt;html();
</pre><div class="contentsignin">Copier après la connexion</div></div>

<p><img  src="/static/imghw/default1.png" data-src="http://segmentfault.com/img/bVcl2b" class="lazy" data- alt="php curl 抓網頁數據問題,聽說內地神人很多,求神人解" ></p>

                            
            <p class="answer fmt" data-id="1020000000522314">
                                    
</p>
<p>我遇到的问题 其实说穿了就是</p>

<p>...我用firbug 或 chrome debug时,所追踪的html 跟我 「检视原始档」和「另存新档」时所看到的资料不同:</p>

<p>目前有赛事  http://www.cbssports.com/mlb/gametracker/live/MLB_20140527_DET@OAK</p>

<p>神人求解</p>

                            
            <p class="answer fmt" data-id="1020000000522593">
                                    
</p>
<p>你想要抓去的html内容,是由javascript生成的,抓包工具都不会解析执行javascript的。<br>
解决方法就是用phantomjs,可以跑一个受脚本控制的,无界面的webkit。</p>

                            </div>
</td>
</tr>
</table>
</div>
</div>
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Comment réparer l'audio si vous n'entendez personne
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Où trouver la courte de la grue à atomide atomique
1 Il y a quelques semaines By DDD

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Configuration du projet CakePHP Configuration du projet CakePHP Sep 10, 2024 pm 05:25 PM

Dans ce chapitre, nous comprendrons les variables d'environnement, la configuration générale, la configuration de la base de données et la configuration de la messagerie dans CakePHP.

Guide d'installation et de mise à niveau de PHP 8.4 pour Ubuntu et Debian Guide d'installation et de mise à niveau de PHP 8.4 pour Ubuntu et Debian Dec 24, 2024 pm 04:42 PM

PHP 8.4 apporte plusieurs nouvelles fonctionnalités, améliorations de sécurité et de performances avec une bonne quantité de dépréciations et de suppressions de fonctionnalités. Ce guide explique comment installer PHP 8.4 ou mettre à niveau vers PHP 8.4 sur Ubuntu, Debian ou leurs dérivés. Bien qu'il soit possible de compiler PHP à partir des sources, son installation à partir d'un référentiel APT comme expliqué ci-dessous est souvent plus rapide et plus sécurisée car ces référentiels fourniront les dernières corrections de bogues et mises à jour de sécurité à l'avenir.

CakePHP travaillant avec la base de données CakePHP travaillant avec la base de données Sep 10, 2024 pm 05:25 PM

Travailler avec la base de données dans CakePHP est très simple. Nous comprendrons les opérations CRUD (Créer, Lire, Mettre à jour, Supprimer) dans ce chapitre.

Date et heure de CakePHP Date et heure de CakePHP Sep 10, 2024 pm 05:27 PM

Pour travailler avec la date et l'heure dans cakephp4, nous allons utiliser la classe FrozenTime disponible.

Téléchargement de fichiers CakePHP Téléchargement de fichiers CakePHP Sep 10, 2024 pm 05:27 PM

Pour travailler sur le téléchargement de fichiers, nous allons utiliser l'assistant de formulaire. Voici un exemple de téléchargement de fichiers.

Routage CakePHP Routage CakePHP Sep 10, 2024 pm 05:25 PM

Dans ce chapitre, nous allons apprendre les sujets suivants liés au routage ?

Discuter de CakePHP Discuter de CakePHP Sep 10, 2024 pm 05:28 PM

CakePHP est un framework open source pour PHP. Il vise à faciliter grandement le développement, le déploiement et la maintenance d'applications. CakePHP est basé sur une architecture de type MVC à la fois puissante et facile à appréhender. Modèles, vues et contrôleurs gu

CakePHP créant des validateurs CakePHP créant des validateurs Sep 10, 2024 pm 05:26 PM

Le validateur peut être créé en ajoutant les deux lignes suivantes dans le contrôleur.

See all articles