PHP小偷程序是采集的前身,有了小偷原理才会写采集。这是bkJia创恩IT教育培训给大家上课时候给大家留的作业。随手写了几行大概思路和功能,细节要求采集到里面的邮箱,作者,标题,内容过滤,图片自动下载,入库分类等功能,也供大家参考下:
index.php
$con = file_get_contents("http://it.sohu.com/s2010/5651/s274087241/index.shtml");
$preg="/·(.*)/U";
preg_match_all($preg,$con,$arr);
foreach($arr[1] as $id=>$v){
echo "".$arr[2][$id]."
";
}
?>
view.php
$con = file_get_contents($_GET[url]);
$preg="/
?>