목차
'.$capture_url . "共找到 " . $photo_num . " 张图片
백엔드 개발 PHP 튜토리얼 php远路抓取网站图片并保存

php远路抓取网站图片并保存

Jun 13, 2016 pm 12:30 PM
CAPTURE download gt img url

php远程抓取网站图片并保存

以前看到网上别人说写程序抓取网页图片的,感觉挺神奇,心想什么时候我自己也写一个抓取图片的方法!

?

刚好这两天没什么事,就参考了网上一个php抓取图片代码,重点借鉴了 匹配img标签和其src属性正则的写法,

封装了一个php远程抓取图片的类,测试了一下,速度还凑合, 两分钟从 艾妮 ini.iteye.com 抓取了 110多张图片

?

代码如下:

<?php /**
 * 一个用于抓取图片的类
 *
 * @package default
 * @author  WuJunwei
*  keleyi.com
 */
class download_image 
{
    
    public $save_path;                  //抓取图片的保存地址

    //抓取图片的大小限制(单位:字节) 只抓比size比这个限制大的图片
    public $img_size=0; 

    //定义一个静态数组,用于记录曾经抓取过的的超链接地址,避免重复抓取       
    public static $a_url_arr=array();   
    
    /**
     * @param String $save_path    抓取图片的保存地址
     * @param Int    $img_size     抓取图片的保存地址
     */
    public function __construct($save_path,$img_size)
    {
        $this->save_path=$save_path;
        $this->img_size=$img_size;
    }
    
    
    /**
     * 递归下载抓取首页及其子页面图片的方法  ( recursive 递归)
     *
     * @param   String  $capture_url  用于抓取图片的网址
     * 
     */
    public function recursive_download_images($capture_url)
    {
        if (!in_array($capture_url,self::$a_url_arr))   //没抓取过
        {                         
            self::$a_url_arr[]=$capture_url;   //计入静态数组
        } else   //抓取过,直接退出函数
        {
            return;
        }        
        
        $this->download_current_page_images($capture_url);  //下载当前页面的所有图片
        
        //用@屏蔽掉因为抓取地址无法读取导致的warning错误
        $content=@file_get_contents($capture_url); 
        
        //匹配a标签href属性中?之前部分的正则
        $a_pattern = "|<a>]+href=['\" ]?([^ '\"?]+)['\" >]|U";   
        preg_match_all($a_pattern, $content, $a_out, PREG_SET_ORDER);
        
        $tmp_arr=array();  //定义一个数组,用于存放当前循环下抓取图片的超链接地址
        foreach ($a_out as $k => $v) 
        {
            /**
             * 去除超链接中的 空'','#','/'和重复值  
             * 1: 超链接地址的值 不能等于当前抓取页面的url, 否则会陷入死循环
             * 2: 超链接为''或'#','/'也是本页面,这样也会陷入死循环,  
             * 3: 有时一个超连接地址在一个网页中会重复出现多次,如果不去除,会对一个子页面进行重复下载)
             */
            if ( $v[1] && !in_array($v[1],self::$a_url_arr) &&!in_array($v[1],array('#','/',$capture_url) ) ) 
            {
                $tmp_arr[]=$v[1];
            }
        }
  
        foreach ($tmp_arr as $k => $v) 
        {            
            //超链接路径地址
            if ( strpos($v, 'http://')!==false ) //如果url包含http://,可以直接访问
            {
                $a_url = $v;
            }else   //否则证明是相对地址, 需要重新拼凑超链接的访问地址
            {
                $domain_url = substr($capture_url, 0,strpos($capture_url, '/',8)+1);
                $a_url=$domain_url.$v;
            }

            $this->recursive_download_images($a_url);

        }
        
    }  
    
      
    /**
     * 下载当前网页下的所有图片 
     *
     * @param   String  $capture_url  用于抓取图片的网页地址
     * @return  Array   当前网页上所有图片img标签url地址的一个数组
     */
    public function download_current_page_images($capture_url)
    {
        $content=@file_get_contents($capture_url);   //屏蔽warning错误

		//匹配img标签src属性中?之前部分的正则
		$img_pattern = "|<img  alt=" php远路抓取网站图片并保存 " >]+src=['\" ]?([^ '\"?]+)['\" >]|U";   
        preg_match_all($img_pattern, $content, $img_out, PREG_SET_ORDER);

		$photo_num = count($img_out);
        //匹配到的图片数量
        echo '<h1 id="capture-url-共找到-photo-num-张图片">'.$capture_url . "共找到 " . $photo_num . " 张图片</h1>";
        foreach ($img_out as $k => $v) 
        {
            $this->save_one_img($capture_url,$v[1]);
        }
    }


    /**
     * 保存单个图片的方法 
     *
     * @param String $capture_url   用于抓取图片的网页地址
     * @param String $img_url       需要保存的图片的url
     * 
     */
    public function save_one_img($capture_url,$img_url)
    {        
        //图片路径地址
        if ( strpos($img_url, 'http://')!==false ) 
        {
            // $img_url = $img_url;
        }else   
        {
            $domain_url = substr($capture_url, 0,strpos($capture_url, '/',8)+1);
            $img_url=$domain_url.$img_url;
        }           
        $pathinfo = pathinfo($img_url);    //获取图片路径信息        
        $pic_name=$pathinfo['basename'];   //获取图片的名字
        if (file_exists($this->save_path.$pic_name))  //如果图片存在,证明已经被抓取过,退出函数
        {
            echo $img_url . '<span style="color:red;margin-left:80px">该图片已经抓取过!</span><br>'; 
            return;
        }                
        //将图片内容读入一个字符串
        $img_data = @file_get_contents($img_url);   //屏蔽掉因为图片地址无法读取导致的warning错误
        if ( strlen($img_data) > $this->img_size )   //下载size比限制大的图片
        {
            $img_size = file_put_contents($this->save_path . $pic_name, $img_data);
            if ($img_size)
            {
                echo $img_url . '<span style="color:green;margin-left:80px">图片保存成功!</span><br>';
            } else
            {
                echo $img_url . '<span style="color:red;margin-left:80px">图片保存失败!</span><br>';
            }
        } else
        {
            echo $img_url . '<span style="color:red;margin-left:80px">图片读取失败!</span><br>';
        } 
    } 
} // END

set_time_limit(120);     //设置脚本的最大执行时间  根据情况设置 
$download_img=new download_image('E:/images/',0);   //实例化下载图片对象
$download_img->recursive_download_images('http://ini.iteye.com/');      //递归抓取图片方法
//$download_img->download_current_page_images($_POST['capture_url']);     //只抓取当前页面图片方法

?></a>
로그인 후 복사

?

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

img 파일을 여는 방법 img 파일을 여는 방법 Sep 18, 2023 am 09:40 AM

img 파일을 여는 방법에는 가상 광학 드라이브 소프트웨어 사용, 압축 소프트웨어 사용 및 특수 도구 사용이 포함됩니다. 자세한 소개: 1. 가상 광학 드라이브 소프트웨어를 사용하여 가상 광학 드라이브 소프트웨어를 열고, 다운로드하고, img 파일을 마우스 오른쪽 버튼으로 클릭하고, "다음 프로그램으로 열기" 또는 "관련 프로그램"을 선택하고, 팝업에서 설치된 가상 광학 드라이브 소프트웨어를 선택합니다. -up 대화 상자, 가상 광학 드라이브 소프트웨어는 img 파일을 자동으로 로드하고 가상 광학 드라이브에서 디스크 이미지로 사용합니다. 가상 광학 드라이브에서 디스크 아이콘을 두 번 클릭하면 img 파일을 열고 해당 콘텐츠에 액세스할 수 있습니다. 등.

화웨이 GT3 Pro와 GT4의 차이점은 무엇입니까? 화웨이 GT3 Pro와 GT4의 차이점은 무엇입니까? Dec 29, 2023 pm 02:27 PM

많은 사용자들이 스마트 시계를 선택할 때 Huawei 브랜드를 선택하게 됩니다. 그 중 Huawei GT3pro와 GT4가 가장 인기 있는 선택입니다. 두 제품의 차이점을 궁금해하는 사용자가 많습니다. Huawei GT3pro와 GT4의 차이점은 무엇입니까? 1. 외관 GT4: 46mm와 41mm, 재질은 유리 거울 + 스테인레스 스틸 본체 + 고해상도 섬유 후면 쉘입니다. GT3pro: 46.6mm 및 42.9mm, 재질은 사파이어 유리 + 티타늄 본체/세라믹 본체 + 세라믹 백 쉘입니다. 2. 건강한 GT4: 최신 Huawei Truseen5.5+ 알고리즘을 사용하면 결과가 더 정확해집니다. GT3pro: ECG 심전도, 혈관 및 안전성 추가

Jul 25, 2023 am 09:05 AM

PHP 기능 소개 - get_headers(): URL의 응답 헤더 정보 얻기 개요: PHP 개발에서는 웹 페이지나 원격 리소스의 응답 헤더 정보를 얻어야 하는 경우가 많습니다. PHP 함수 get_headers()를 사용하면 대상 URL의 응답 헤더 정보를 쉽게 얻고 이를 배열 형식으로 반환할 수 있습니다. 이 기사에서는 get_headers() 함수의 사용법을 소개하고 관련 코드 예제를 제공합니다. get_headers() 함수 사용법: get_header

img 파일을 여는 방법 img 파일을 여는 방법 Jul 06, 2023 pm 04:17 PM

img 파일을 여는 방법: 1. img 파일 경로를 확인합니다. 2. img 파일 오프너를 사용합니다. 3. 열기 방법을 선택합니다. 4. 사진을 봅니다. img 파일은 일반적으로 사진 데이터를 저장하는 데 사용되는 일반적으로 사용되는 이미지 파일 형식입니다.

몇 단계만으로 Steam ID를 얻는 방법은 무엇입니까? 몇 단계만으로 Steam ID를 얻는 방법은 무엇입니까? May 08, 2023 pm 11:43 PM

요즘에는 게임을 좋아하는 많은 Windows 사용자들이 Steam 클라이언트에 접속하여 좋은 게임을 검색하고 다운로드하여 플레이할 수 있습니다. 그러나 많은 사용자의 프로필이 정확히 동일한 이름을 가질 수 있으므로 프로필을 찾거나 Steam 프로필을 다른 제3자 계정에 연결하거나 Steam 포럼에 가입하여 콘텐츠를 공유하기가 어렵습니다. 프로필에는 고유한 17자리 ID가 할당되며, 이는 동일하게 유지되며 사용자가 언제든지 변경할 수 없는 반면, 사용자 이름이나 맞춤 URL은 변경할 수 있습니다. 그럼에도 불구하고 일부 사용자는 자신의 Steamid를 모르므로 이를 아는 것이 중요합니다. 계정의 Steamid를 찾는 방법을 모르더라도 당황하지 마세요. 이 기사에서는

e의 NameResolutionError(self.host, self, e) 이유와 해결 방법 e의 NameResolutionError(self.host, self, e) 이유와 해결 방법 Mar 01, 2024 pm 01:20 PM

오류의 원인은 urllib3 라이브러리의 예외 유형인 NameResolutionError(self.host,self,e)frome입니다. 이 오류의 원인은 DNS 확인에 실패했기 때문입니다. 해결을 찾을 수 없습니다. 이는 입력한 URL 주소가 정확하지 않거나 DNS 서버를 일시적으로 사용할 수 없기 때문에 발생할 수 있습니다. 이 오류를 해결하는 방법 이 오류를 해결하는 방법은 여러 가지가 있습니다. 입력한 URL 주소가 올바른지 확인하고 액세스할 수 있는지 확인하십시오. DNS 서버를 사용할 수 있는지 확인하십시오. 명령줄에서 "ping" 명령을 사용해 볼 수 있습니다. DNS 서버를 사용할 수 있는지 테스트하려면 프록시 뒤에 있는 경우 호스트 이름 대신 IP 주소를 사용하여 웹사이트에 액세스해 보세요.

Java에서 URL 인코딩 및 디코딩을 사용하는 방법 Java에서 URL 인코딩 및 디코딩을 사용하는 방법 May 08, 2023 pm 05:46 PM

url을 사용하여 java.net.URLDecoder.decode(url, 디코딩 형식) 클래스 decoder.decoding 인코딩 및 디코딩 방법을 인코딩 및 디코딩합니다. 일반 문자열로 변환하는 URLEncoder.decode(url, 인코딩 형식)는 일반 문자열을 지정된 형식의 문자열로 변환합니다. packagecom.zixue.springbootmybatis.test;importjava.io.UnsupportedEncodingException;importjava.net.URLDecoder;importjava.net. URL인코더

수정: Windows 11에서 캡처 도구가 작동하지 않음 수정: Windows 11에서 캡처 도구가 작동하지 않음 Aug 24, 2023 am 09:48 AM

Windows 11에서 캡처 도구가 작동하지 않는 이유 문제의 근본 원인을 이해하면 올바른 솔루션을 찾는 데 도움이 될 수 있습니다. 캡처 도구가 제대로 작동하지 않는 주요 이유는 다음과 같습니다. 초점 도우미가 켜져 있습니다. 이렇게 하면 캡처 도구가 열리지 않습니다. 손상된 응용 프로그램: 캡처 도구가 실행 시 충돌하는 경우 응용 프로그램이 손상되었을 수 있습니다. 오래된 그래픽 드라이버: 호환되지 않는 드라이버가 캡처 도구를 방해할 수 있습니다. 다른 응용 프로그램의 간섭: 실행 중인 다른 응용 프로그램이 캡처 도구와 충돌할 수 있습니다. 인증서가 만료되었습니다. 업그레이드 프로세스 중 오류로 인해 이 문제가 발생할 수 있습니다. 이 문제는 대부분의 사용자에게 적합하며 특별한 기술 지식이 필요하지 않습니다. 1. Windows 및 Microsoft Store 앱 업데이트

See all articles