Maison > développement back-end > tutoriel php > 利用curl抓取网页数据,phantomjs..请神人解

利用curl抓取网页数据,phantomjs..请神人解

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB
Libérer: 2016-06-06 20:45:23
original
1403 Les gens l'ont consulté

小弟昨天有发文请教,有很多的神人给我小弟很大的帮忙,目前只剩下一小块的数据未抓到。

有大大说用 phantomjs来抓取html
目前的js如
var page = require('webpage').create();
var url = 'http://www.cbssports.com/mlb/gametracker/live/MLB_20140528_CLE@CHW';

1

2

3

4

5

6

7

8

<code>page.open(url, function (status) {

var js = page.evaluate(function () {

return document;

});

console.log(js.all[0].outerHTML);

phantom.exit();

});

</code>

Copier après la connexion

误错,显示不出正确的hmtl
另 phontomjs是一个执行档,我要怎么每秒让他自动执行,用 php ? 因为在php 里我目前只能用
exec("start d:\phantomjs script.js ")
让它自动产生本文档,然后针对本文档作解析,但一直没有办法执行,求神人解

2014 05 23 更新

之前在网站上有提出,有抓到几个数据。
先看一下我的程序如下:
$url ="http://www.cbssports.com/mlb/gametracker/live/MLB_20140529_SF@STL";
$ch = curl_init();
curl_setopt($ch, CURLOPT_HEADER, 0);
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.22 (KHTML, like Gecko) Chrome/25.0.1364.172 Safari/537.22");
curl_setopt($ch, CURLOPT_FOLLOWLOCATION ,1);
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 0);
$data = curl_exec($ch);
preg_match_all('/(.?)/is',$data,$teamCity);
preg_match_all('/(.
?)/is',$data,$teamName);…….以下为正规化

未抓出的资料部份如下:(红字为抓不出来的)(以下只是部份)

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

61

62

63

64

65

66

67

68

69

70

71

72

73

74

75

76

77

78

79

80

81

82

83

84

85

86

87

88

89

90

91

92

93

94

95

96

97

98

99

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

<code><div class="gcTeamStats" lineup><table class="data condensed stacked" width="100%">

 

 

<p>里面会有一个 </p>

<tr class="”row1">

<p>或是</p>

 

<p>

 

</p>

<p>div class=”batter-pitcher fleft”></p>

 

<p>

 

</p>

<p>table>里面的 </p>

</tr>

<tr>的资料都抓不出来

 

<p>重点在于,部份的数据,不管你用什么浏览器的「另存新檔」 save as 或是 「检视原始码」,都看不到上列的这数据。 而 div class=”batter-pitcher fleft” 这部份的资料目前已知是 JS  的 batter_ingame_stats function是跑「进行比赛中的」</p>

 

<p>而另一个function  function() { CBSi.app.BaseRunners = function(args  则是跑 「谁在垒上」右下角那个 「球场的图标」的数据 ,目前只剩这几个部份抓不出。</p>

 

<p>很多神人大大说,「就抓js呀」,但是,就问不到要如何抓。</p>

 

<p>跪求各位大大给个方向。</p>

 

<p>这一个话题的 讨论在:http://segmentfault.com/q/1010000000522277</p>

 

<p>目前直播赛事:http://www.cbssports.com/mlb/gametracker/live/MLB_20140529_SF@STL</p>

</tr>

 

                             

                         

 

 

                                                                                                                         

                     <h2>回复内容:</h2>

                       

                                                             

<p>小弟昨天有发文请教,有很多的神人给我小弟很大的帮忙,目前只剩下一小块的数据未抓到。</p>

 

<p>有大大说用 phantomjs来抓取html<br>

目前的js如<br>

    var page = require('webpage').create();<br>

    var url = 'http://www.cbssports.com/mlb/gametracker/live/MLB_20140528_CLE@CHW';</p>

 

<div class="code" style="position:relative; padding:0px; margin:0px;"><pre class="brush:php;toolbar:false">&lt;code&gt;page.open(url, function (status) {

var js = page.evaluate(function () {

return document;

});

console.log(js.all[0].outerHTML);

phantom.exit();

});

&lt;/code&gt;</pre><div class="contentsignin">Copier après la connexion</div></div>

 

<p>误错,显示不出正确的hmtl<br>

另 phontomjs是一个执行档,我要怎么每秒让他自动执行,用 php ? 因为在php 里我目前只能用<br>

    exec("start d:\phantomjs script.js ")<br>

让它自动产生本文档,然后针对本文档作解析,但一直没有办法执行,求神人解</p>

 

<p>2014 05 23 更新</p>

 

<p>之前在网站上有提出,有抓到几个数据。<br>

先看一下我的程序如下:<br>

    $url ="http://www.cbssports.com/mlb/gametracker/live/MLB_20140529_SF@STL";<br>

    $ch = curl_init();<br>

    curl_setopt($ch, CURLOPT_HEADER, 0);<br>

    curl_setopt($ch, CURLOPT_URL, $url);<br>

    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);<br>

    curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.22 (KHTML, like Gecko) Chrome/25.0.1364.172 Safari/537.22");<br>

    curl_setopt($ch, CURLOPT_FOLLOWLOCATION ,1);<br>

    curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 0);<br>

    $data = curl_exec($ch);<br>

    preg_match_all('/<span class="teamLocation">(.<em>?)/is',$data,$teamCity);<br>

    preg_match_all('/<span class="teamNickname">(.</span></em>?)/is',$data,$teamName);…….以下为正规化</span></p>

 

<p>未抓出的资料部份如下:(红字为抓不出来的)(以下只是部份)</p>

 

<div class="code" style="position:relative; padding:0px; margin:0px;"><pre class="brush:php;toolbar:false">&lt;code&gt;&lt;div class=&quot;gcTeamStats&quot; lineup&gt;&lt;table class=&quot;data condensed stacked&quot; width=&quot;100%&quot;&gt;

 

 

&lt;p&gt;里面会有一个 &lt;/p&gt;

&lt;tr class=&quot;”row1&quot;&gt;

&lt;p&gt;或是&lt;/p&gt;

 

&lt;p&gt;

 

&lt;/p&gt;

&lt;p&gt;div class=”batter-pitcher fleft”&gt;&lt;/p&gt;

 

&lt;p&gt;

 

&lt;/p&gt;

&lt;p&gt;table&gt;里面的 &lt;/p&gt;

&lt;/tr&gt;

&lt;tr&gt;的资料都抓不出来

 

&lt;p&gt;重点在于,部份的数据,不管你用什么浏览器的「另存新檔」 save as 或是 「检视原始码」,都看不到上列的这数据。 而 div class=”batter-pitcher fleft” 这部份的资料目前已知是 JS  的 batter_ingame_stats function是跑「进行比赛中的」&lt;/p&gt;

 

&lt;p&gt;而另一个function  function() { CBSi.app.BaseRunners = function(args  则是跑 「谁在垒上」右下角那个 「球场的图标」的数据 ,目前只剩这几个部份抓不出。&lt;/p&gt;

 

&lt;p&gt;很多神人大大说,「就抓js呀」,但是,就问不到要如何抓。&lt;/p&gt;

 

&lt;p&gt;跪求各位大大给个方向。&lt;/p&gt;

 

&lt;p&gt;这一个话题的 讨论在:http://segmentfault.com/q/1010000000522277&lt;/p&gt;

 

&lt;p&gt;目前直播赛事:http://www.cbssports.com/mlb/gametracker/live/MLB_20140529_SF@STL&lt;/p&gt;

&lt;/tr&gt;

 

                             

                         

            &lt;p class=&quot;answer fmt&quot; data-id=&quot;1020000000523721&quot;&gt;

                                     

&lt;/p&gt;

&lt;p&gt;这么写&lt;/p&gt;

 

&lt;pre class=&quot;brush:php;toolbar:false&quot;&gt;&lt;code&gt;var page = require('webpage').create();

page.open('http://segmentfault.com/', function(status) {

  var ua = page.evaluate(function() {

    return document.body.outerHTML;

  });

  console.log(ua);

  phantom.exit();

});

&lt;/code&gt;</pre><div class="contentsignin">Copier après la connexion</div></div>

 

                            </table></div></code>

Étiquettes associées:
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Recommandations populaires
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal