<code><div
class
=
"gcTeamStats"
lineup><table
class
=
"data condensed stacked"
width=
"100%"
>
<p>里面会有一个 </p>
<tr
class
=
"”row1"
>
<p>或是</p>
<p>
</p>
<p>div
class
=”batter-pitcher fleft”></p>
<p>
</p>
<p>table>里面的 </p>
</tr>
<tr>的资料都抓不出来
<p>重点在于,部份的数据,不管你用什么浏览器的「另存新檔」 save
as
或是 「检视原始码」,都看不到上列的这数据。 而 div
class
=”batter-pitcher fleft” 这部份的资料目前已知是 JS 的 batter_ingame_stats
function
是跑「进行比赛中的」</p>
<p>而另一个
function
function
() { CBSi.app.BaseRunners =
function
(args 则是跑 「谁在垒上」右下角那个 「球场的图标」的数据 ,目前只剩这几个部份抓不出。</p>
<p>很多神人大大说,「就抓js呀」,但是,就问不到要如何抓。</p>
<p>跪求各位大大给个方向。</p>
<p>这一个话题的 讨论在:http:
<p>目前直播赛事:http:
</tr>
<h2>回复内容:</h2>
<p>小弟昨天有发文请教,有很多的神人给我小弟很大的帮忙,目前只剩下一小块的数据未抓到。</p>
<p>有大大说用 phantomjs来抓取html<br>
目前的js如<br>
var
page =
require
(
'webpage'
).create();<br>
var
url =
'http://www.cbssports.com/mlb/gametracker/live/MLB_20140528_CLE@CHW'
;</p>
<div
class
=
"code"
style=
"position:relative; padding:0px; margin:0px;"
><pre
class
=
"brush:php;toolbar:false"
><code>page.open(url,
function
(status) {
var
js = page.evaluate(
function
() {
return
document;
});
console.log(js.all[0].outerHTML);
phantom.
exit
();
});
</code></pre><div
class
=
"contentsignin"
>Copier après la connexion</div></div>
<p>误错,显示不出正确的hmtl<br>
另 phontomjs是一个执行档,我要怎么每秒让他自动执行,用 php ? 因为在php 里我目前只能用<br>
exec
(
"start d:\phantomjs script.js "
)<br>
让它自动产生本文档,然后针对本文档作解析,但一直没有办法执行,求神人解</p>
<p>2014 05 23 更新</p>
<p>之前在网站上有提出,有抓到几个数据。<br>
先看一下我的程序如下:<br>
$url
=
"http://www.cbssports.com/mlb/gametracker/live/MLB_20140529_SF@STL"
;<br>
$ch
= curl_init();<br>
curl_setopt(
$ch
, CURLOPT_HEADER, 0);<br>
curl_setopt(
$ch
, CURLOPT_URL,
$url
);<br>
curl_setopt(
$ch
, CURLOPT_RETURNTRANSFER, 1);<br>
curl_setopt(
$ch
, CURLOPT_USERAGENT,
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.22 (KHTML, like Gecko) Chrome/25.0.1364.172 Safari/537.22"
);<br>
curl_setopt(
$ch
, CURLOPT_FOLLOWLOCATION ,1);<br>
curl_setopt(
$ch
, CURLOPT_CONNECTTIMEOUT, 0);<br>
$data
= curl_exec(
$ch
);<br>
preg_match_all(
'/<span class="teamLocation">(.<em>?)/is'
,
$data
,
$teamCity
);<br>
preg_match_all(
'/<span class="teamNickname">(.</span></em>?)/is'
,
$data
,
$teamName
);…….以下为正规化</span></p>
<p>未抓出的资料部份如下:(红字为抓不出来的)(以下只是部份)</p>
<div
class
=
"code"
style=
"position:relative; padding:0px; margin:0px;"
><pre
class
=
"brush:php;toolbar:false"
><code><div
class
="gcTeamStats" lineup><table
class
="data condensed stacked" width="100%">
<p>里面会有一个 </p>
<tr
class
="”row1">
<p>或是</p>
<p>
</p>
<p>div
class
=”batter-pitcher fleft”></p>
<p>
</p>
<p>table>里面的 </p>
</tr>
<tr>的资料都抓不出来
<p>重点在于,部份的数据,不管你用什么浏览器的「另存新檔」 save
as
或是 「检视原始码」,都看不到上列的这数据。 而 div
class
=”batter-pitcher fleft” 这部份的资料目前已知是 JS 的 batter_ingame_stats
function
是跑「进行比赛中的」</p>
<p>而另一个
function
function
() { CBSi.app.BaseRunners =
function
(args 则是跑 「谁在垒上」右下角那个 「球场的图标」的数据 ,目前只剩这几个部份抓不出。</p>
<p>很多神人大大说,「就抓js呀」,但是,就问不到要如何抓。</p>
<p>跪求各位大大给个方向。</p>
<p>这一个话题的 讨论在:http:
<p>目前直播赛事:http:
</tr>
<p
class
="answer fmt" data-id="1020000000523721">
</p>
<p>这么写</p>
<pre
class
="brush:php;toolbar:false"><code>
var
page =
require
(
'webpage'
).create();
page.open(
'http://segmentfault.com/'
,
function
(status) {
var
ua = page.evaluate(
function
() {
return
document.body.outerHTML;
});
console.log(ua);
phantom.
exit
();
});
</code></pre><div
class
=
"contentsignin"
>Copier après la connexion</div></div>
</table></div></code>