Table des matières
'.$capture_url . "共找到 " . $photo_num . " 张图片
Maison php教程 php手册 php采集网页替换图片

php采集网页替换图片

Jun 06, 2016 pm 07:32 PM
php 图片 替换 网页 采集

php采集网页替换图片 无 /** * 获取替换文章中的图片路径 * @param string $xstr 内容 * @param string $keyword 创建照片的文件名 * @param string $oriweb 网址 * @return string * */function replaceimg ($xstr, $keyword, $oriweb){ // 保存路径 $d = da

php采集网页替换图片
/**
 * 获取替换文章中的图片路径
 * @param string $xstr 内容
 * @param string $keyword 创建照片的文件名
 * @param string $oriweb 网址
 * @return string
 * 
 */
function replaceimg ($xstr, $keyword, $oriweb)
{ 
    // 保存路径
    $d = date('Ymd', time());
    //$dirslsitss = '/var/www/weblist/uploads/' . $keyword . '/' . $d; //分类是否存在
    $dirslsitss = './uploads'; 
    if (!is_dir($dirslsitss))
    {
        @mkdir($dirslsitss, 0777);
    } 
    // 匹配图片的src
    preg_match_all('#<img  src="/static/imghw/default1.png"  data-src="([^"  class="lazy" .*?]*)"[^ alt="php采集网页替换图片" >]*>#i', $xstr, $match);

    foreach($match[1] as $imgurl)
    {
        $imgurl = $imgurl;

        if (is_int(strpos($imgurl, 'http')))
        {
            $arcurl = $imgurl;
        } 
        else
        {
            $arcurl = $oriweb . $imgurl;
        } 
        $img = file_get_contents($arcurl);

        if (!empty($img))
        { 
            // 保存图片到服务器
            $fileimgname = time() . "-" . rand(1000, 9999) . ".jpg";
            $filecachs = $dirslsitss . "/" . $fileimgname;
            $fanhuistr = file_put_contents($filecachs, $img);
            //$saveimgfile = "/uploads/$keyword" . "/" . $d . "/" . $fileimgname;
            $saveimgfile = "/uploads/" . $fileimgname;

            $xstr = str_replace($imgurl, $saveimgfile, $xstr);
        } 
    } 
    return $xstr;
} 
Copier après la connexion
<?php

/**
 * 一个用于抓取图片的类
 */
class download_image 
{
    
    public $save_path;                  //抓取图片的保存地址

    //抓取图片的大小限制(单位:字节) 只抓比size比这个限制大的图片
    public $img_size=0; 

    //定义一个静态数组,用于记录曾经抓取过的的超链接地址,避免重复抓取       
    public static $a_url_arr=array();   
    
    /**
     * @param String $save_path    抓取图片的保存地址
     * @param Int    $img_size     抓取图片的保存地址
     */
    public function __construct($save_path,$img_size)
    {
        $this->save_path=$save_path;
        $this->img_size=$img_size;
    }
    
    
    /**
     * 递归下载抓取首页及其子页面图片的方法  ( recursive 递归)
     *
     * @param   String  $capture_url  用于抓取图片的网址
     * 
     */
    public function recursive_download_images($capture_url)
    {
        if (!in_array($capture_url,self::$a_url_arr))   //没抓取过
        {                         
            self::$a_url_arr[]=$capture_url;   //计入静态数组
        } else   //抓取过,直接退出函数
        {
            return;
        }        
        
        $this->download_current_page_images($capture_url);  //下载当前页面的所有图片
        
        //用@屏蔽掉因为抓取地址无法读取导致的warning错误
        $content=@file_get_contents($capture_url); 
        
        //匹配a标签href属性中?之前部分的正则
        $a_pattern = "|<a[^>]+href=['\" ]?([^ '\"?]+)['\" >]|U";   
        preg_match_all($a_pattern, $content, $a_out, PREG_SET_ORDER);
        
        $tmp_arr=array();  //定义一个数组,用于存放当前循环下抓取图片的超链接地址
        foreach ($a_out as $k => $v) 
        {
            /**
             * 去除超链接中的 空'','#','/'和重复值  
             * 1: 超链接地址的值 不能等于当前抓取页面的url, 否则会陷入死循环
             * 2: 超链接为''或'#','/'也是本页面,这样也会陷入死循环,  
             * 3: 有时一个超连接地址在一个网页中会重复出现多次,如果不去除,会对一个子页面进行重复下载)
             */
            if ( $v[1] && !in_array($v[1],self::$a_url_arr) &&!in_array($v[1],array('#','/',$capture_url) ) ) 
            {
                $tmp_arr[]=$v[1];
            }
        }
  
        foreach ($tmp_arr as $k => $v) 
        {            
            //超链接路径地址
            if ( strpos($v, 'http://')!==false ) //如果url包含http://,可以直接访问
            {
                $a_url = $v;
            }else   //否则证明是相对地址, 需要重新拼凑超链接的访问地址
            {
                $domain_url = substr($capture_url, 0,strpos($capture_url, '/',8)+1);
                $a_url=$domain_url.$v;
            }

            $this->recursive_download_images($a_url);

        }
        
    }  
    
      
    /**
     * 下载当前网页下的所有图片 
     *
     * @param   String  $capture_url  用于抓取图片的网页地址
     * @return  Array   当前网页上所有图片img标签url地址的一个数组
     */
    public function download_current_page_images($capture_url)
    {
        $content=@file_get_contents($capture_url);   //屏蔽warning错误

        //匹配img标签src属性中?之前部分的正则
        $img_pattern = "|<img [^ alt="php采集网页替换图片" >]+src=['\" ]?([^ '\"?]+)['\" >]|U";   
        preg_match_all($img_pattern, $content, $img_out, PREG_SET_ORDER);

        $photo_num = count($img_out);
        //匹配到的图片数量
        echo '<h1 id="capture-url-共找到-photo-num-张图片">'.$capture_url . "共找到 " . $photo_num . " 张图片</h1>";
        foreach ($img_out as $k => $v) 
        {
            $this->save_one_img($capture_url,$v[1]);
        }
    }


    /**
     * 保存单个图片的方法 
     *
     * @param String $capture_url   用于抓取图片的网页地址
     * @param String $img_url       需要保存的图片的url
     * 
     */
    public function save_one_img($capture_url,$img_url)
    {        
        //图片路径地址
        if ( strpos($img_url, 'http://')!==false ) 
        {
            // $img_url = $img_url;
        }else   
        {
            $domain_url = substr($capture_url, 0,strpos($capture_url, '/',8)+1);
            $img_url=$domain_url.$img_url;
        }           
        $pathinfo = pathinfo($img_url);    //获取图片路径信息        
        $pic_name=$pathinfo['basename'];   //获取图片的名字
        if (file_exists($this->save_path.$pic_name))  //如果图片存在,证明已经被抓取过,退出函数
        {
            echo $img_url . '<span style="color:red;margin-left:80px">该图片已经抓取过!</span><br/>'; 
            return;
        }                
        //将图片内容读入一个字符串
        $img_data = @file_get_contents($img_url);   //屏蔽掉因为图片地址无法读取导致的warning错误
        if ( strlen($img_data) > $this->img_size )   //下载size比限制大的图片
        {
            $img_size = file_put_contents($this->save_path . $pic_name, $img_data);
            if ($img_size)
            {
                echo $img_url . '<span style="color:green;margin-left:80px">图片保存成功!</span><br/>';
            } else
            {
                echo $img_url . '<span style="color:red;margin-left:80px">图片保存失败!</span><br/>';
            }
        } else
        {
            echo $img_url . '<span style="color:red;margin-left:80px">图片读取失败!</span><br/>';
        } 
    } 
} // END

set_time_limit(120);     //设置脚本的最大执行时间  根据情况设置 
$download_img=new download_image('pkg/',0);   //实例化下载图片对象
$download_img->recursive_download_images('http://weibo.com/p/');      //递归抓取图片方法
//$download_img->download_current_page_images($_POST['capture_url']);     //只抓取当前页面图片方法

?>
Copier après la connexion
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

Repo: Comment relancer ses coéquipiers
1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
2 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Comment obtenir des graines géantes
1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌
Combien de temps faut-il pour battre Split Fiction?
4 Il y a quelques semaines By DDD

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Configuration du projet CakePHP Configuration du projet CakePHP Sep 10, 2024 pm 05:25 PM

Dans ce chapitre, nous comprendrons les variables d'environnement, la configuration générale, la configuration de la base de données et la configuration de la messagerie dans CakePHP.

Guide d'installation et de mise à niveau de PHP 8.4 pour Ubuntu et Debian Guide d'installation et de mise à niveau de PHP 8.4 pour Ubuntu et Debian Dec 24, 2024 pm 04:42 PM

PHP 8.4 apporte plusieurs nouvelles fonctionnalités, améliorations de sécurité et de performances avec une bonne quantité de dépréciations et de suppressions de fonctionnalités. Ce guide explique comment installer PHP 8.4 ou mettre à niveau vers PHP 8.4 sur Ubuntu, Debian ou leurs dérivés. Bien qu'il soit possible de compiler PHP à partir des sources, son installation à partir d'un référentiel APT comme expliqué ci-dessous est souvent plus rapide et plus sécurisée car ces référentiels fourniront les dernières corrections de bogues et mises à jour de sécurité à l'avenir.

Date et heure de CakePHP Date et heure de CakePHP Sep 10, 2024 pm 05:27 PM

Pour travailler avec la date et l'heure dans cakephp4, nous allons utiliser la classe FrozenTime disponible.

Téléchargement de fichiers CakePHP Téléchargement de fichiers CakePHP Sep 10, 2024 pm 05:27 PM

Pour travailler sur le téléchargement de fichiers, nous allons utiliser l'assistant de formulaire. Voici un exemple de téléchargement de fichiers.

Routage CakePHP Routage CakePHP Sep 10, 2024 pm 05:25 PM

Dans ce chapitre, nous allons apprendre les sujets suivants liés au routage ?

Discuter de CakePHP Discuter de CakePHP Sep 10, 2024 pm 05:28 PM

CakePHP est un framework open source pour PHP. Il vise à faciliter grandement le développement, le déploiement et la maintenance d'applications. CakePHP est basé sur une architecture de type MVC à la fois puissante et facile à appréhender. Modèles, vues et contrôleurs gu

CakePHP créant des validateurs CakePHP créant des validateurs Sep 10, 2024 pm 05:26 PM

Le validateur peut être créé en ajoutant les deux lignes suivantes dans le contrôleur.

Comment configurer Visual Studio Code (VS Code) pour le développement PHP Comment configurer Visual Studio Code (VS Code) pour le développement PHP Dec 20, 2024 am 11:31 AM

Visual Studio Code, également connu sous le nom de VS Code, est un éditeur de code source gratuit – ou environnement de développement intégré (IDE) – disponible pour tous les principaux systèmes d'exploitation. Avec une large collection d'extensions pour de nombreux langages de programmation, VS Code peut être c

See all articles