采集 初级的用php写的采集程序
可以先用这个采集然后在用帝国处理
####################################################################################
#作者:9elong
#网站:个人小站不值一提
#时间:2007-01-01
#声明:仅用于学习php之用。
#功能:采集单页面图片。
#说明:3个示范表单已经写好正则用来示范。没有任何功能说明,一切都在源代码里。附加论坛图片采集正则示范
####################################################################################
//把图片从信息页抓取下来的函数
function getimg($url,$n,$key,$imgqian,$imgbiao,$titlekey)
{
//$key图片地址正则
//$titlekey图片标题正则
//$imgqian图片地址前缀
//$imgbiao图片地址特殊标识
global $n;
global $msg;
global $result;
global $imgadd;
global $title;
$msg=file_get_contents($url);
$key=str_replace("{图片地址}","(.+)",$key);
$key="|".$key."|isU";
preg_match_all($key,$msg,$result);
$c=count($result[0]);
for($i=0;$i {
$img=$result[0][$i]."
";
if(ereg("^.*".$imgbiao.".*$",$img))
{
$img=str_replace($imgbiao,$imgqian.$imgbiao,$img);
preg_match("|http://(.+)jpg|isU",$img,$img);
$imgadd[$n]=$img[0];
//echo "
";
$n++;
}
elseif(ereg("^.*jpg.*$",$img))
{
preg_match("|http://(.+)jpg|isU",$img,$img);
$imgadd[$n]=$img[0];
if($img[0]!="")
$n++;
}
unset($img);
}
$titlekey=str_replace("{图片标题}","(.+)",$titlekey);
$titlekey="|".$titlekey."|isU";
preg_match($titlekey,$msg,$title);
//echo $title[0];
return $title;
return $msg;
return $result;
return $n;
return $imgadd;
}
####################################################################################
#不支持file_get_contents()函数可以使用下面的替换
#$i=0;
#$handle=@fopen($url,"rb");
#while (!@feof($handle))
#{
# $buffer[$i]= @fgets($handle, 4096);
# $i++;
#}
#fclose($handle);
#$msg=join("",$buffer);
####################################################################################
if($_GET['act']=="getimgadd"&&$_POST['url']!="")
{
$url=$_POST['url'];
getimg($url,"0",$_POST['key'],$_POST['imgqian'],$_POST['imgbiao'],$_POST['titlekey']);
####################################################################################
//获取分页
if($_POST['getpage']=="是")
{
$_POST['page']=str_replace("{分页地址}","(.+)",$_POST['page']);
$page="|".$_POST['page']."|isU";
//echo $page;
preg_match_all($page,$msg,$presult);
if($_POST['pc']==""||$_POST['pc']=="全部")
$pc=count($presult[0]);
else
$pc=$_POST['pc'];
if($_POST['pc']>count($presult[0]))
$pc=count($presult[0]);
for($i=1;$i {
$pageurl=$presult[0][$i];
//echo $pageurl."
";
if(ereg("^.*[1-9].*$",$pageurl))
{
$pageurl=str_replace(" $pagekey=str_replace("{关键地址}","(.+)",$_POST['pagekey']);
$pagekey="|".$pagekey."|isU";
preg_match($pagekey,$pageurl,$N3[$i]);
//echo ($N3[$i][0])."
";
getimg($N3[$i][0],$n,$_POST['key'],$_POST['imgqian'],$_POST['imgbiao'],$_POST['titlekey']);
}
}
}
####################################################################################
echo "图片集〖".$title[1]."〗".$n."张图片被抓取
返回首页
";
while(list($num,$var)=each($imgadd))
{
if($_POST['showtype']=="图片")
{
echo "
";
}
else
echo $var."
";
}
####################################################################################
//exit();
}
?>
实例1(信息页有分页,使用了简单的分页正则):
实例2(信息页没有分页,所以分页正则为空):
实例3(信息页没有分页,所以分页正则为空,图片为绝对地址,所以图片地址前缀为空):
华声论坛图片为附件http://bbs.hnol.net/dispbbs2.asp?boardID=50&ID=336436
图片地址正则:upload=jpg{图片地址}upload
图片地址标识:bbs
图片标题正则:帖子主题:{图片标题}
华声论坛图片为外链http://bbs.hnol.net/dispbbs2.asp?boardID=50&ID=336253
图片地址正则:img]{图片地址}/img
图片地址标识:jpg
图片标题正则:帖子主题:{图片标题}
以上就介绍了采集 初级的用php写的采集程序,包括了采集方面的内容,希望对PHP教程有兴趣的朋友有所帮助。

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

每当您下载某些文件或空投某些内容时,您的iPhone是否显示“iCloud存储空间已满”?iCloud储存空间的免费套餐限制为仅5GB。因此,您应该检查的第一件事是手机上iCloud的当前存储情况。如果仍有足够的存储空间,并且您收到通知,则这些解决方案将帮助您进行故障排除。修复1–删除iCloud备份从手机设置中移除现有版本的iCloud备份。步骤1–打开设置。步骤2–您将在“设置”面板的顶部找到您的AppleID。点击它以打开它。步骤3–打开“iCloud”以打开iCloud设置。步骤4–向下

随着物联网技术的不断发展,实时数据采集已经成为了数字化时代不可或缺的一部分。而在各种编程语言中,Go语言以其高效的并发性能和简洁的语法,成为了实时数据采集的一种理想选择。本文将介绍如何使用Go语言进行实时数据采集。一、数据采集框架的选择在使用Go语言进行实时数据采集之前,我们需要选择一个适合我们的数据采集框架。目前市面上比较流行的数据采集框架包括

您的iPhone是否卡在“请勿打扰”模式下?如果您无法切换“请勿打扰”模式,可能会很麻烦。您根本不会收到任何警报。在iPhone上修复此免打扰问题不会花费太多精力。因此,无需再浪费时间,只需遵循这些简单的解决方案即可解决问题。修复1–删除免打扰计划如果您的手机上有任何“请勿打扰”时间表,它可能会强制设备自动进入免打扰状态。步骤1–转到iPhone的“设置”。步骤2–接下来,打开“焦点”模式。步骤3–您会在图表顶部找到“请勿打扰”。第4步–打开它。步骤5–在下一页上,如果您进入“时间表”选项卡,您

每次打开特定应用程序时,您的iPhone屏幕是否一直返回主屏幕?这是一种异常行为,您返回主屏幕的原因是应用程序由于某种原因而崩溃。如果按照这些说明集进行故障排除,则可以更轻松地进行故障排除。修复1–更改点击行为iPhone上的后退手势之一可让您最小化当前应用程序。禁用点击行为应该可以解决此问题。步骤1–打开设置。步骤2–稍后,访问“辅助功能”设置以将其打开。步骤3–转到“物理和电机”功能,然后打开“触摸”设置。步骤4–一直向下滑动到“BackTap”设置。打开它。步骤5–在“后退点击”页面中,选

在iPhone上检查更新时,您是否收到此错误消息“无法检查更新”消息?通常,当您在手机脱机时手动搜索更新时,会出现此消息。因此,我们建议您启用Wi-Fi/蜂窝数据并再次执行相同的操作。如果您仍然遇到该问题,请按照其余的故障排除提示进行操作。修复1–启用Wi-Fi/蜂窝数据启用Wi-Fi或蜂窝移动网络数据,然后重试检查更新。步骤1–只需向下滑动即可访问控制中心。步骤2–在手机上启用Wi-Fi或蜂窝网络。现在,在启用网络连接后再次尝试更新过程。修复2–强制重启iPhone如果尽管启用了Wi-Fi/蜂

Python实现无头浏览器采集应用的页面自动登录与会话管理功能剖析引言:随着互联网的快速发展,我们的生活越来越离不开网络应用。而对于很多网页类型的应用,我们需要手动进行登录才能获取更多的信息或操作某些功能。为了提高效率,我们可以通过自动化脚本实现页面自动登录与会话管理的功能。无头浏览器:在实现页面自动登录与会话管理功能之前,我们首先需要了解什么是无头浏览器。

Python实现无头浏览器采集应用的基本功能介绍及使用方法随着互联网的发展,爬虫技术在数据采集和信息挖掘方面扮演着重要的角色。无头浏览器是一种无界面的浏览器,它可以在后台模拟用户的操作,访问网页并抓取所需的数据。Python提供了多种库和工具来实现无头浏览器的功能,本文将介绍如何使用Python实现无头浏览器的基本功能,并提供相应的代码示例。一、无头浏览器的

Python实现无头浏览器采集应用的页面数据同步与更新功能详解随着互联网的快速发展,越来越多的应用程序需要和网页进行数据交互。而在实现这样的功能时,一种常见的方式是使用无头浏览器来模拟用户操作,以便获取网页上的数据。本文将详细介绍如何利用Python和无头浏览器实现应用的页面数据同步与更新功能,并提供相应的代码示例。环境准备首先,我们需要安装Python的相
