首页 后端开发 php教程 超囧的图片链接批量获取和下载_PHP教程

超囧的图片链接批量获取和下载_PHP教程

Jul 13, 2016 pm 05:48 PM
windows 下载 图片 壁纸 批量 网站 获取 链接

以前在windows下经常去一些壁纸网站,或者是美女的QQ相册,又或者是一个激情美女图片网站下载图片,经常需要点击右键然后“另存为”,要是遇见经典套图,这种重复的操作肯定会让你失去下载的动力。后来用了Firefox有个插件好像是DownloadThemAll(记得不清除了,反正就是批量下载网页链接的,可以筛选格式下载图片),结合迅雷使用可以极大的提高图片下载的效率(但是如果页面小图片过多,下完之后也需要很长时间来筛选删除废文件)。现在用了ubuntu,没有windows和迅雷,也不用firefox很多年了。我们如何来批量下载网页中的美图?在chrome下我一直想找这样一款插件,可惜只找到IMG inspector这个插件,这个插件的工作方式是定义一个基准URL,利用占位符,定义好的步长和循环范围来重新生成链接并预览。不得不说这样的功能是在太弱了,即使是套图的URL也不一定是有规律可循的,所以这种方法并不可取也不实用。
  于是后来琢磨着学学Chrome插件开发,自己来做一个 可惜一直没有什么动力。而且我也不清楚chrome插件能不能解决图片下载的问题:是调用客户端下载软件还是调用原生浏览器下载,而且这样一来,还得好好学习chrome的API的一些高级方法,开发成本顿增。遂放弃之。于是转换思路继续琢磨。然后把几个难点问题一一分拆开来分析(环境:UBUNTU+CHROME/FIREFOX):

  1)如何获取当前页面的图片地址?

  这个最简单的莫过于在chrome的控制台或者firebug中执行脚本程序了,我也想过利用网页爬虫工具比如SimpleHtmlDom这个强大的开源框架(如果你熟悉jquery这个框架让你在服务器端使用jquery获取标签,十分方便),不过这样可能执行的效率上差了一截。复杂性也增加了一些。

  2)如何确定当前页面的图片大小是否符合我的“胃口”?

  这个问题得分两种情况考虑:网页图片一般分为缩略图和原图。缩略图一般都附带原图链接。也就是用a标签包裹img标签,我们需要获取a标签的href值而不是img标签的src值;原图一般只是一个img标签,这样你可以利用Image对象的width和height来筛选这些图片。对于缩略图筛选可以new一个Image对象设置src的值以后对其高度和宽度进行筛选。不过对于缩略图我一般不筛选,这样的图片一般都是很大的,相反你最可能要筛选的是a标签里面的img对象,因为很多logo和button的图片都是链接包裹的小图片。

  3)如何下载图片?

   上面两步都是使用控制台的脚本程序来完成的,整个代码不超过10行(包含jquery相机加载的代码)。最后你可以不废吹灰之力得到当前页面筛选之后的图片的地址。可惜就在这一步了,得到了地址没有用,真正废操作的步骤在如何一次性的把这些图片下载到本地的机器。如果我会chrome插件开发,知道chrome如何调用系统的方法(其实我也不确定chrome是否可以,如果浏览器的安全限制足够严格那么这肯定是行不通的),然后熟悉下wget这个强悍无比的下载命令。这就迎刃而解了。遗憾的是,前两个我都不熟悉,不过没关系天无绝人之路,条条大道通罗马,一定会有另外一种方法的。

  4)飞越控制台Console

  现在我们的思路被卡在chrome的控制台里了,空有大把图片链接却不知道怎么下载他们(其实也只是当前窗口的图片链接)。对于chrome插件开发我始终抱有一丝幻想,可惜学习动力实在没有,而且自己也始终质疑chrome这么安全严格的浏览器会允许js与客户端交互吗?

  于是我开始退步思考问题了,不下载文件,直接把这些文件存储在本地的任何一个我能日后读取的地方就行。于是思路延续到html5 的本地存储localStorage和本地数据库,也考虑了Google Gears的本地数据库,后来发现要么搞得过于复杂,要么行不通。慢慢的思路开始朝着一个简单的方向漂移--jQuery,没错就是他--$.getJSON()。如果能够跨域将图片地址发到本地的一个网站然后在后台下载不就行了吗?于是马上用Code Igniter制作了一个网站:只在控制器里面加入了一个只有一个方法的php的控制器类文件,代码仍然不超过10行。代码的作用只是将所有的图片链接换行写入一个文本文件(urls.txt)。

  5) 无敌下载器

  到这快要结束了,也许有人问我,你这不还是没有实现下载图片吗?嘿嘿,nb人物要登场了:wget -i -b urls.txt 。在终端里面进入网站目录,执行该命令,自动后台下载文本文件里面的每一行的图片地址。

  PS:前几天对这个命令不熟悉,拿一H网做实验,误用了参数在后台默默的下载了1.1G的黄图,后来发现了强行kill了该进程。总之这个命令下载网站内容那是强悍到不行。 如果你用linux,这个命令很邪恶,想干坏事到了个位哦!

  6) 能不囧吗?

  这个操作流程,真的很囧。

  囧一:a)部署好本地的网站--》b)右键打开chrome控制台或者firebug--》c)复制脚本--》d)粘贴--》e)Enter--f》打开终端--g》wget。这个操作对于一个页面很多图片(缩略图,套图)的网页来说,很便利。但是如果我打开了十个网页,每个页面就都要执行b和d以及e操作,如果这段脚本能够做成chrome插件嵌入到浏览器中那么至少可以省下2步:打开页面手动点一下插件图标或者设置为自动执行脚本。这样易用性就大大提升了。

  囧二:如何省去wget这一步,直接在php后台执行下载。这就需要考虑使用php调用ubuntu系统方法了,不熟,有待研究。

  囧三:如何省去部署网站这一步,需要网站的根本原因是我无法将多个页面的图片地址合并存储在一起,考虑过cookie但是大小限制是个问题,图片地址过百很正常(尤其是包含中文的时候)。而且还要考虑存储后方读取便调用的问题。

   这几个问题还没有考虑好,现在只是在考虑实现囧二。其实这个过程对技术本身没有多大提升,但是后来回想整个流程,发现对面对问题时的思路和方法论上面都有了明显的提高。欢迎大家来讨论!


摘自 Hurry的专栏

www.bkjia.comtruehttp://www.bkjia.com/PHPjc/478448.htmlTechArticle以前在windows下经常去一些壁纸网站,或者是美女的QQ相册,又或者是一个激情美女图片网站下载图片,经常需要点击右键然后另存为,要是...
本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

如何在Node.js环境中解决第三方接口返回403的问题? 如何在Node.js环境中解决第三方接口返回403的问题? Mar 31, 2025 pm 11:27 PM

在Node.js环境中解决第三方接口返回403的问题当我们在使用Node.js调用第三方接口时,有时会遇到接口返回403错误�...

okx交易平台怎么下载 okx交易平台怎么下载 Mar 26, 2025 pm 05:18 PM

OKX交易平台可以通过移动设备(Android和iOS)和电脑端(Windows和macOS)进行下载。1. Android用户可从官方网站或Google Play下载,需注意安全设置。2. iOS用户可通过App Store下载,或关注官方公告获取其他方式。3. 电脑用户可从官方网站下载相应系统的客户端。下载时务必确保使用官方渠道,并在安装后进行注册、登录和安全设置。

在Node环境中如何避免第三方接口返回403错误? 在Node环境中如何避免第三方接口返回403错误? Apr 01, 2025 pm 02:03 PM

Node环境下如何避免第三方接口返回403错误在使用Node.js调用第三方网站接口时,有时会遇到返回403错误的问题。�...

Beyond Compare同步Windows和Linux文件时,大小写敏感性失效怎么办? Beyond Compare同步Windows和Linux文件时,大小写敏感性失效怎么办? Apr 01, 2025 am 08:06 AM

BeyondCompare文件比较与同步的难题:大小写敏感性失效在使用Beyond...

如何通过Debian日志监控系统性能 如何通过Debian日志监控系统性能 Apr 02, 2025 am 08:00 AM

掌握Debian系统日志监控是高效运维的关键,它能帮助您及时了解系统运行状况,快速定位故障,并优化系统性能。本文将介绍几种常用的监控方法和工具。利用sysstat工具包监控系统资源sysstat工具包提供了一系列强大的命令行工具,用于收集、分析和报告各种系统资源指标,包括CPU负载、内存使用、磁盘I/O、网络吞吐量等。主要工具包括:sar:全面的系统资源统计工具,涵盖CPU、内存、磁盘、网络等。iostat:磁盘和CPU统计信息。mpstat:多核CPU的统计信息。pidsta

为什么我的代码无法获取API返回的数据?如何解决这个问题? 为什么我的代码无法获取API返回的数据?如何解决这个问题? Apr 01, 2025 pm 08:09 PM

为什么我的代码无法获取API返回的数据?在编程中,我们常常会遇到API调用时返回空值的问题,这不仅让人困惑...

c语言多线程的四种实现方式 c语言多线程的四种实现方式 Apr 03, 2025 pm 03:00 PM

语言多线程可以大大提升程序效率,C 语言中多线程的实现方式主要有四种:创建独立进程:创建多个独立运行的进程,每个进程拥有自己的内存空间。伪多线程:在一个进程中创建多个执行流,这些执行流共享同一内存空间,并交替执行。多线程库:使用pthreads等多线程库创建和管理线程,提供了丰富的线程操作函数。协程:一种轻量级的多线程实现,将任务划分成小的子任务,轮流执行。

如何高效读取Windows系统日志并只获取最近几天的信息? 如何高效读取Windows系统日志并只获取最近几天的信息? Apr 01, 2025 pm 11:21 PM

高效读取Windows系统日志:反向遍历Evtx文件在使用Python处理Windows系统日志文件(.evtx)时,直接读取会从最早的�...

See all articles