网络爬虫脚本
最近需要写个脚本程序抓取一些网络数据,于是就有了常见的php脚本;测试代码如下: #!/usr/local/bin/php -q?php/** * Created by PhpStorm. * User: jackqqxu * Date: 14-9-12 * Time: 上午12:34 * 解析一个目录下面的文件,分析所有的静态资源然后下载下来
最近需要写个脚本程序抓取一些网络数据,于是就有了常见的php脚本;测试代码如下:
#!/usr/local/bin/php -q <?php /** * Created by PhpStorm. * User: jackqqxu * Date: 14-9-12 * Time: 上午12:34 * 解析一个目录下面的文件,分析所有的静态资源然后下载下来; */ //echo "请输入需要提取的文件路径:\n"; //$path = fread(STDIN, 100); //echo "程序即将读取 $path 路径下面的文件\n"; //echo "请输入需要提取的文件类型:\n"; //$type = fread(STDIN, 100); // Open a known directory, and proceed to read its contents //$path = '/Users/jackqqxu/Desktop/task/game/a_grain_of_truth_files/css/'; $destPath = '/Users/jackqqxu/task/aliyunsvn/health/grain/views/locations/'; //静态文件html $sourcePath = '/Users/jackqqxu/task/aliyunsvn/health/grain/js/'; //静态文件html //$baseUrl = 'http://www.zamolski.com/agot/resources/stylesheets/'; $netSourceUrl = 'http://www.zamolski.com/agot/views/locations/'; //现在获取位置信息 //$type = '.css'; $type = '.js'; //很多需要获取定位的位置信息; $typeLen = strlen($type); //echo 'r=' . realpath('/Users/jackqqxu/Desktop/task/game/a_grain_of_truth_files/css/../images/ui/frame_h.png') . "\n\n"; //echo "the programe will read the $type from the $path\n"; //if (!is_dir($destPath)) { // exec('mkdir -p ' . $destPath); //} if ($dh = opendir($sourcePath)) { while (($file = readdir($dh)) !== false) { $fileType = filetype($sourcePath . $file); if ($fileType != 'file') { continue; } // echo 'f=' . $file . substr($file, strlen($file)-$typeLen) . "\n"; if (substr($file, strlen($file)-$typeLen) == $type) { //类型相同 // echo "filename: $file : filetype: " . filetype($path . $file) . "\n"; echo '$sourcePath . $file=' . $sourcePath . $file . "\n"; $fileContentArr = file($sourcePath . $file); foreach($fileContentArr as $fileLine) { // if ($fileLine =~ /url\((.*?)\)/){ // if (preg_match_all("/url\((.*?)\)/", $fileLine, $matches)) { //css中通过url获取其他图片; if (preg_match_all("/gotoLocation\(\"(.*?)\"\)/", $fileLine, $matches)) { //中通过关键词获取其他文件; // print_r($matches);exit; // foreach($matches[1] as $matchImgUrl) { foreach($matches[1] as $matchUrl) { $sourceUrl = $netSourceUrl . $matchUrl . '.html'; echo 'n='.$sourceUrl."\n";//exit; $descFile = $destPath . $matchUrl . '.html'; // echo 'fs=' . function_exists('realpath'); // echo 'ni=' . $newImgFile."\n";//exit; // echo 'mkdir -p=' . dirname($newImgFile); // exec('mkdir -p ' . dirname($newImgFile)); $ret = file_put_contents($descFile, file_get_contents($sourceUrl)); if ($ret) { echo "文件$descFile 写入成功\n"; // exit; } // exit; } } } } } closedir($dh); } ?>

Del.icio.us![]() |
Facebook![]() |
TweetThis![]() |
Digg![]() |
StumbleUpon![]() |
Comments: 0 (Zero), Be the first to leave a reply!
You might be interested in this:
-
Ubuntu 安装JRE7的快捷方法(验证有效)
-
BigPipe的技术实现【转】
-
'insertCell' called on an object that does not implement interface HTMLTableRowElement.
-
javascript性能优化-repaint和reflow
-
Fiddler工作原理
Copyright © web代码网 [网络爬虫脚本], All Right Reserved. 2014.

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

iPhone上的默认地图是Apple专有的地理位置提供商“地图”。尽管地图越来越好,但它在美国以外的地区运行不佳。与谷歌地图相比,它没有什么可提供的。在本文中,我们讨论了使用Google地图成为iPhone上的默认地图的可行性步骤。如何在iPhone中使Google地图成为默认地图将Google地图设置为手机上的默认地图应用程序比您想象的要容易。请按照以下步骤操作–先决条件步骤–您必须在手机上安装Gmail。步骤1–打开AppStore。步骤2–搜索“Gmail”。步骤3–点击Gmail应用旁
![WLAN扩展模块已停止[修复]](https://img.php.cn/upload/article/000/465/014/170832352052603.gif?x-oss-process=image/resize,m_fill,h_207,w_330)
如果您的Windows计算机上的WLAN扩展模块出现问题,可能会导致您与互联网断开连接。这种情况常常让人感到困扰,但幸运的是,本文提供了一些简单的建议,可以帮助您解决这个问题,让您的无线连接重新正常运行。修复WLAN扩展模块已停止如果您的Windows计算机上的WLAN可扩展性模块已停止工作,请按照以下建议进行修复:运行网络和Internet故障排除程序禁用并重新启用无线网络连接重新启动WLAN自动配置服务修改电源选项修改高级电源设置重新安装网络适配器驱动程序运行一些网络命令现在,让我们来详细看

我们在连接网络时需要使用正确的dns才可以上网。同理,如果我们使用了错误的dns设置就会提示dns服务器错误了,这时候我们可以尝试在网络设置中选择自动获取dns来解决,下面就一起来看下具体解决方法吧。win11网络dns服务器错误怎么办方法一:重新设置DNS1、首先,点击任务栏中的开始进入,在其中找到并点开“设置”图标按钮。2、然后点击左侧栏中的“网络&Internet”选项命令。3、然后在右侧找到“以太网”选项,点击进入。4、之后,点击DNS服务器分配中的“编辑”,最后将DNS设置为“自动(D

这篇文章将介绍Win10系统网络显示地球标志但无法上网的解决方法。文章将提供详细的操作步骤,帮助读者解决Win10网络显示地球无法上网的问题。方法一:直接重启先检查一下网线是否没插好,宽带是否欠费,路由器或光猫可能会卡死,这时需重启路由器或光猫。假如当前电脑没有重要的事宜在操作,能直接重启电脑,大部分的小问题能通过重启电脑来快速解决。假如确定宽带没有欠费,网络正常,那便是另一回事。方法二:1、按【Win】键,或点击左下角的【开始菜单】,在打开的菜单项中,点击电源按钮上方的齿轮状图标,这个就是【设

剪映是一款视频编辑工具,带有全面的剪辑功能,支持变速,有多样滤镜和美颜的效果,还有丰富的曲库资源。在这款软件中,可以直接对视频进行剪辑,也可以创建剪辑脚本,但是应该怎么操作呢?本篇教程小编就来介绍一下剪映制作脚本的方法。 制作方法 1、在电脑中点击打开剪映软件,然后找到“创作脚本”选项,点击打开。 2、在创作脚本页面中,输入“脚本标题”,然后在大纲中输入拍摄内容的简介。 3、如何在大纲中就能看到“分镜描述”选项,在框内可以

如何在Linux系统中执行.sh文件?在Linux系统中,.sh文件是一种被称为Shell脚本的文件,用于执行一系列的命令。执行.sh文件是非常常见的操作,本文将介绍如何在Linux系统中执行.sh文件,并提供具体的代码示例。方法一:使用绝对路径执行.sh文件要在Linux系统中执行一个.sh文件,可以使用绝对路径来指定该文件的位置。以下是具体的步骤:打开终

LOL无法连接服务器请检查网络近年来,网络游戏已经成为了很多人的日常娱乐活动。其中,英雄联盟(LOL)作为一款非常受欢迎的多人在线游戏,吸引了亿万玩家的参与和爱好。然而,有时候我们在玩LOL的时候会遇到“无法连接服务器请检查网络”的错误提示,这无疑给玩家们带来了一些困扰。接下来,我们将探讨一下该错误的出现原因和解决方法。首先,LOL无法连接服务器的问题可能是

1、检查wifi密码:确保自己输入的wifi密码是正确的,注意区分大小写。2、确认wifi是否正常工作:检查wifi路由器是否正常运行,可将其他设备连接至同一路由器,以确定问题是否出在设备上。3、重启设备和路由器:有时候,设备或路由器出现故障或网络问题,重启设备和路由器可能会解决问题。4、检查设备设置:确保设备无线功能处于开启状态,并且未将wifi功能禁用。
