PHP批量采集下载美女图片的实现代码_PHP教程-PHP 튜토리얼-php.cn

집

백엔드 개발

PHP 튜토리얼

PHP批量采集下载美女图片的实现代码_PHP教程

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jul 21, 2016 pm 03:09 PM

php 다운로드 암호 그림 성취하다 아이디어 일괄 ~의 웹페이지 설계 수집

设计思路

考虑到单纯的采集一个网页的图片，太麻烦，所以直接采集他的列表页，获取列表的url然后在一一采集，但是用php匹配列表页的url太麻烦，第一列表页有很多无效url这对我这个正则小菜鸟实在是个问题，看了一下列表页的结构，果断采用jquery获取url，jquery的万能选择器又再次强大起来了。

jquery获取url，然后ajax传递url—>对应PHP文件，遍历url参数—->单页面采集保存图片

jquery程序

复制代码代码如下:

 
 
<script> <BR>$(document).ready(function(){ <BR>var hrefs =''; <BR>$('.f_folder>a').each(function(i){ <BR>var href = $('.f_folder:eq('+i+')>a:eq(0)').attr('href'); <BR>if(href!='undefined'){ <BR>hrefs +=href+','; <BR>} <BR>}) <BR>$.getJSON("http://www.****.com/365/getimg.php?hrefs="+hrefs+"&callback=?", function(data){ <BR>//alert(data.info); <BR>}); <BR>}); <BR></script> 

这里把url拼接成‘，'分割的字符串传递url，使用getjson是为了跨域需要，关于getjson常见的几个问题可以参看

PHP采集程序

复制代码代码如下:

 
// 抓起365图片 
error_reporting(E_ALL ^ E_NOTICE); 
set_time_limit(0);//设置PHP超时时间 
/** 
* 得到当前时间 
*/ 
function getMicrotime() { 

list ($usec, $sec) = explode(" ", microtime()); 
return ((float) $usec + (float) $sec); 
} 
$stime = getMicrotime(); 

$callback = $_GET['callback']; 
$hrefs = $_GET['hrefs']; 
$urlarray = explode(',',$hrefs); 

//获取指定url的所有图片 
function getimgs($url){ 
$dirname = basename($url,".php"); 
if(!file_exists($dirname)){ 
mkdir('365/'.$dirname.''); 
} 
clearstatcache(); 
$data = file_get_contents($url); 
preg_match_all("/(href|src)=(["|']?)([^ "'>]+.(jpg|png|PNG|JPG|gif))\2/i", $data, $matches); 
//$matches[3] = array_unique($matches[3]); 
unset($data); 
$i=0; 

if(count($matches[3])>0){ 
foreach($matches[3] as $k=>$v){ 
//简单判断是否是标准url，而不是相对路径 
if(substr($v,0,4)=='http'){ 

$ext = pathinfo($v,PATHINFO_EXTENSION);//图片扩展 

if(!file_exists('365/'.$dirname.'/'.$k.'.'.$ext)){ 
file_put_contents('365/'.$dirname.'/'.$k.'.'.$ext,file_get_contents($v)); 
$i++; 
}else{ 
unset($v); 
} 
clearstatcache(); 
}else{ 
unset($v); 
} 
} 
unset($matches); 
return $i; 
} 
} 

foreach($urlarray as $k=>$v){ 
if($v!=''){ 
$j +=getimgs($v); 
} 
} 
$etime = getMicrotime(); 
echo "合计采集了".$j."张图片"; 
echo "用时".($etime-$stime)."秒"; 

考虑到性能问题：在getimgs方法中所用的变量都是使用后便注销（unset）了，以便释放内存。

设计到的几个知识点

判断是否是标准有效图片url
if(substr($v,0,4)=='http')这个只是简单的判断一下匹配到的图片url是否是标准的url，因为采集的图片可能是相对路径的，这里我直接放弃这种图片的采集，当然你也可以把这种图片还原成标准图片路径，还有一个问题就是即使是标准url格式，这样的图片也未必可以采集，因为你不知道这个图片是否还有，也许这个图片url已经无效了，如果你想更严格的判断这个图片url是否真实有效可以推荐看我之前的《PHP判断远程url是否有效的几种方法》有三种方法可以验证是否是有效url。

获取图片格式

$ext = pathinfo($v,PATHINFO_EXTENSION);//图片扩展

这里使用了pathinfo的方法，总结有7种方法可以获取到文件的格式，推荐文章：《PHP判断图片格式的七种方法》

下载保存到本地

file_put_contents('365/'.$dirname.'/'.$k.'.'.$ext,file_get_contents($v));
file_put_contents() 函数把一个字符串写入文件中。
与依次调用 fopen()，fwrite() 以及 fclose() 功能一样。
file_get_contents() 函数把整个文件读入一个字符串中。

因为服务器支持file_get_contents，如果服务器把这个函数禁用了，可以使用curl，这个工具要比file_get_contents更加强大，推荐学习《CURL的学习和应用(附多线程)》，可以使用curl的多线程下载存储，效果更牛逼

清除文件操作缓存

clearstatcache() 函数清除文件状态缓存。clearstatcache() 函数会缓存某些函数的返回信息，以便提供更高的性能。但是有时候，比如在一个脚本中多次检查同一个文件，而该文件在此脚本执行期间有被删除或修改的危险时，你需要清除文件状态缓存，以便获得正确的结果。要做到这一点，就需要使用 clearstatcache() 函数。官方手册：

程序执行时间计算

复制代码代码如下:

 
/** 

* 得到当前时间 

*/ 

function getMicrotime() { 
list ($usec, $sec) = explode(" ", microtime()); 
return ((float) $usec + (float) $sec); 
} 

可以参考本博客文章；《获取php页面执行时间，数据库读写次数，函数调用次数等【THINKPHP】》

最后看一下效果；

PHP批量采集下载美女图片的实现代码_PHP教程

409秒采集了214张图片，大概2秒下载保存了一张图片，图片总大小约62M，这样看来：

一个小时60*60可以大约下载1800张美女图片。

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7476

Cakephp 튜토리얼

1377

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

Related knowledge

Ubuntu 및 Debian용 PHP 8.4 설치 및 업그레이드 가이드 Dec 24, 2024 pm 04:42 PM

PHP 8.4는 상당한 양의 기능 중단 및 제거를 통해 몇 가지 새로운 기능, 보안 개선 및 성능 개선을 제공합니다. 이 가이드에서는 Ubuntu, Debian 또는 해당 파생 제품에서 PHP 8.4를 설치하거나 PHP 8.4로 업그레이드하는 방법을 설명합니다.

CakePHP 날짜 및 시간 Sep 10, 2024 pm 05:27 PM

cakephp4에서 날짜와 시간을 다루기 위해 사용 가능한 FrozenTime 클래스를 활용하겠습니다.

CakePHP 토론 Sep 10, 2024 pm 05:28 PM

CakePHP는 PHP용 오픈 소스 프레임워크입니다. 이는 애플리케이션을 훨씬 쉽게 개발, 배포 및 유지 관리할 수 있도록 하기 위한 것입니다. CakePHP는 강력하고 이해하기 쉬운 MVC와 유사한 아키텍처를 기반으로 합니다. 모델, 뷰 및 컨트롤러 gu

CakePHP 파일 업로드 Sep 10, 2024 pm 05:27 PM

파일 업로드 작업을 위해 양식 도우미를 사용할 것입니다. 다음은 파일 업로드의 예입니다.

CakePHP 유효성 검사기 만들기 Sep 10, 2024 pm 05:26 PM

컨트롤러에 다음 두 줄을 추가하면 유효성 검사기를 만들 수 있습니다.

CakePHP 로깅 Sep 10, 2024 pm 05:26 PM

CakePHP에 로그인하는 것은 매우 쉬운 작업입니다. 한 가지 기능만 사용하면 됩니다. cronjob과 같은 백그라운드 프로세스에 대해 오류, 예외, 사용자 활동, 사용자가 취한 조치를 기록할 수 있습니다. CakePHP에 데이터를 기록하는 것은 쉽습니다. log() 함수는 다음과 같습니다.