首页 后端开发 php教程 PHP抓取和分析_PHP

PHP抓取和分析_PHP

Jun 01, 2016 pm 12:32 PM
head li url 分析 我们

抓取和分析一个文件是非常简单的事。这个教程将通过一个例子带领你一步一步地去实现它。让我们开始吧! 

  首先,我首必须决定我们将抓取的URL地址。可以通过在脚本中设定或通过$QUERY_STRING传递。为了简单起见,让我们将变量直接设在脚本中。 

 
$url = 'http://www.php.net'; 
?> 

  第二步,我们抓取指定文件,并且通过file()函数将它存在一个数组里。 

 
$url = 'http://www.php.net'; 
$lines_array = file($url); 
?> 

  好了,现在在数组里已经有了文件了。但是,我们想分析的文本可能不全在一行里面。为了解这个文件,我们可以简单地将数组$lines_array转化成一个字符串。我们可以使用implode(x,y)函数来实现它。如果在后面你想用explode(将字符串变量数组),将x设成"|"或"!"或其它类似的分隔符可能会更好。但是出于我们的目的,最好将x设成空格。y是另一个必要的参数,因为它是你想用implode()处理的数组。 

 
$url = 'http://www.php.net'; 
$lines_array = file($url); 
$lines_string = implode('', $lines_array); 
?> 

  现在,抓取工作就做完了,下面该进行分析了。出于这个例子的目的,我们想得到在到 之间的所有东西。为了分析出字符串,我们还需要叫做正规表达式的东西。 

 
$url = 'http://www.php.net'; 
$lines_array = file($url); 
$lines_string = implode('', $lines_array); 
eregi("(.*)", $lines_string, $head); 
?> 

  让我们看一下代码。正如你所见,eregi()函数按下面的格式执行: 

eregi("(.*)", $lines_string, $head); 

  "(.*)"表示所有东西,可以解释为,"分析在和间的所以东西"。$lines_string是我们正在分析的字符串,$head是分析后的结果存放的数组。 

  最后,我们可以输数据。因为仅在和间存在一个实例,我们可以安全的假设数组中仅存在着一个元素,而且就是我们想要的。让我们把它打印出来吧。 

 
$url = 'http://www.php.net'; 
$lines_array = file($url); 
$lines_string = implode('', $lines_array); 
eregi("(.*)", $lines_string, $head); 
echo $head[0]; 
?> 

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门文章

仓库:如何复兴队友
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island冒险:如何获得巨型种子
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.能量晶体解释及其做什么(黄色晶体)
1 周前 By 尊渡假赌尊渡假赌尊渡假赌

热门文章

仓库:如何复兴队友
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island冒险:如何获得巨型种子
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.能量晶体解释及其做什么(黄色晶体)
1 周前 By 尊渡假赌尊渡假赌尊渡假赌

热门文章标签

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

为什么NameResolutionError(self.host, self, e) from e,怎么解决 为什么NameResolutionError(self.host, self, e) from e,怎么解决 Mar 01, 2024 pm 01:20 PM

为什么NameResolutionError(self.host, self, e) from e,怎么解决

如何在uniapp中实现数据统计和分析 如何在uniapp中实现数据统计和分析 Oct 24, 2023 pm 12:37 PM

如何在uniapp中实现数据统计和分析

html和url的区别是什么 html和url的区别是什么 Mar 06, 2024 pm 03:06 PM

html和url的区别是什么

li是什么元素 li是什么元素 Aug 03, 2023 am 11:19 AM

li是什么元素

织梦CMS二级目录打不开的原因分析 织梦CMS二级目录打不开的原因分析 Mar 13, 2024 pm 06:24 PM

织梦CMS二级目录打不开的原因分析

ThinkPHP6代码性能分析:定位性能瓶颈 ThinkPHP6代码性能分析:定位性能瓶颈 Aug 27, 2023 pm 01:36 PM

ThinkPHP6代码性能分析:定位性能瓶颈

TP6 Think-Swoole RPC服务的性能分析与优化策略 TP6 Think-Swoole RPC服务的性能分析与优化策略 Oct 12, 2023 am 10:34 AM

TP6 Think-Swoole RPC服务的性能分析与优化策略

url是啥意思 url是啥意思 Aug 04, 2023 am 11:43 AM

url是啥意思

See all articles