Inhaltsverzeichnis
配置环境
准备工作
爬虫程序
执行程序
Heim Web-Frontend HTML-Tutorial 教女朋友爬虫是一种什么样的体验_html/css_WEB-ITnose

教女朋友爬虫是一种什么样的体验_html/css_WEB-ITnose

Jun 21, 2016 am 09:00 AM

作者:Gutierrez地址:http://www.jianshu.com/p/04459ab36b56
Nach dem Login kopieren

我有个马上要混IT圈的女朋友,可她连大学C语言都是睡过的。我就是个操心的命,担忧她适应不了与周遭程序猿怎么交流。

虽然我一有机会便灌输编程的快乐,科技的魅力,但收效甚微。所以这次,我准备耐心给妹纸写个教程,教她爬虫,感受编程的成就感,也掌握个得瑟利器。

好勒,我们开始之前,我得确保她此时情绪稳定,因为这需要点耐心。真诚的给大家意见,如果她眉头紧锁,赶快收起笔记本本带她去吃好吃的,和谐最要紧。

配置环境

首先,我们需要台电脑,幸亏妹子有Mac,省了不少事。最适合爬虫的程序语言当属Python,Mac已经内置了Python,但我们需要补充一个爬虫需要的库requests。

电脑是个笨蛋,只能听懂计算机语言,所以我们需要把我们的想法用计算机语言告诉他,让他乖乖的执行。库是大神们已经写好的程序,我们导入库,就可以利用他们的成果了。
Nach dem Login kopieren

下载文件

https://bootstrap.pypa.io/get-pip.py
Nach dem Login kopieren

保存在根目录(打开Finder就是)下,找到终端,打开后输入下面的代码,你不需要懂这是什么意思,总之,做完之后我们就配置好了所需的环境。心中默默祈祷,愿一切顺利。

python get-pip.pypip install requests
Nach dem Login kopieren

准备工作

在进行爬虫之前,我们需要去需要爬虫的地方去踩踩点。我和女友都喜欢好奇心日报,那就去爬些好奇心日报的图片下来。

在chrome中打开所需爬虫的网址,在网页空白处右键单击,在弹出的菜单中选择审查元素,在弹出的底栏中就可以看到网页的源代码了,图片的地址就藏在这些乱如麻的代码中。不过,好在我们可以点击底栏左上角的放大镜,然后在选择网页中的图片就可以快速在代码中定位图片地址了。

多选择几张图片,仔细观察会发现规律,格式是一样的。

img class="pic" alt="可口可乐弧线瓶诞生 100 年了,它是如何改变了我们所处的世界? | 好奇心商业史"
Nach dem Login kopieren

看到这里,我们需要总结下爬虫。我们浏览的网页绝大部分是通过一种编码(HTML)将文字图片视频等内容编程一堆复杂的代码,如我们上面所见,浏览器会将这些代码解释成我们看到的样子,换言之,我们在浏览器中看到的都能在网页源码中找到。爬虫是一种通过分析网页源码获取我们信息的程序,在这里,我们利用爬虫找到网页源码中的图片并将其下载到本地。

爬虫程序

在编写代码之前,我们需要准备个代码编辑器,这里推荐微软的良心大作VS code,献上下载地址。

https://www.visualstudio.com
Nach dem Login kopieren

打开VScode,将其保存在我们之前所说的根目录下,保存成picdownloader.py,然后我们开始敲代码。

#-*-coding:utf8-*-import reimport requestshtml = requests.get('http://www.qdaily.com/categories/17').textpic_url = re.findall('"pic" src="(.*?)"',html,re.S)i = 0 for each in pic_url:    url = 'http://www.qdaily.com' + each    print('now downloading:' + url)    pic = requests.get(url)    fp = open('pic//' + str(i) + '.jpg','wb')    fp.write(pic.content)    fp.close()i += 1
Nach dem Login kopieren

下面我们一条一条说。

#-*-coding:utf8-*-的意思上字符编码是utf-8。妹子只需要知道写上这条总没错,不写有可能出错
Nach dem Login kopieren

import re import requests的意思上导入re 和requests库,告诉电脑,我们下面要用这两个库中的程序了。

下面这条代码的目的是获取网页的源代码,保存在html中,当然你可以换成别的网页。

html = requests.get('http://www.qdaily.com/categories/17').text
Nach dem Login kopieren

下面这条代码是最核心的代码,实现的功能是从上面的到的源代码中,查找所有的图片地址,将其保存在pic_url中。’”pic” src=”(.*?)”‘表示我们查找的图片地址在代码中前面是”pic” src=”,后面是”。html就是上面我们取得的源代码。

pic_url = re.findall('"pic" src="(.*?)"',html,re.S)
Nach dem Login kopieren

最后,我们只需要按照得到的图片地址下载图片到指定文件夹。代码稍显复杂,但别担心,下面的代码已经不重要了,因为爬虫最核心的任务我们已经完成。你可以拷贝下面的代码添加到你的代码后面,不过我还是会讲解代码的含义,但这里不懂也没关系。

for each in pic_url:中,for语句表示循环遍历pic_url,因为pic_url中保存着所有的图片地址,所以下面的代码会执行多次,每次会处理一张图片。each在下面的代码中就代表每次执行的图片地址。

url = ‘ http://www.qdaily.com ‘ + each我们得到的地址不完整,需要与好奇心日报的主页合并,python中将两个字符串合并,只需要+起来即可。

print(‘now downloading:’ + url)的功能是向终端打印括号中的内容,我们把它当作进度条,执行时观察终端窗口,也许你会恍然大悟。

pic = requests.get(url)的功能是从url图片地址下载到pic中。

最后所做的就是将下载得到的pic图片内容写到文件中,并将其保存在pic文件夹中。

fp = open('pic//' + str(i) + '.jpg','wb')fp.write(pic.content)fp.close()
Nach dem Login kopieren

完整的代码点此下载

http://pan.baidu.com/s/1i3LPgTB
Nach dem Login kopieren

执行程序

千万不要忘记在根目录新建个文件夹来保存图片,我们这里的文件夹是pic,还记得终端么,打开它,写下如下代码,回车即可

python picdownloader.py
Nach dem Login kopieren

到这里,我们完成图片爬虫程序,是不是很简单。女王,我已尽力,如果你没懂,看来还得我手把手教,约么?

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
2 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
Repo: Wie man Teamkollegen wiederbelebt
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Abenteuer: Wie man riesige Samen bekommt
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Schwierigkeiten bei der Aktualisierung der Zwischenspeicherung offizieller Konto -Webseiten: Wie vermeiden Sie den alten Cache, der sich auf die Benutzererfahrung nach der Versionsaktualisierung auswirkt? Schwierigkeiten bei der Aktualisierung der Zwischenspeicherung offizieller Konto -Webseiten: Wie vermeiden Sie den alten Cache, der sich auf die Benutzererfahrung nach der Versionsaktualisierung auswirkt? Mar 04, 2025 pm 12:32 PM

Das offizielle Konto -Webseite aktualisiert Cache, dieses Ding ist einfach und einfach und es ist kompliziert genug, um einen Topf davon zu trinken. Sie haben hart gearbeitet, um den offiziellen Account -Artikel zu aktualisieren, aber der Benutzer hat die alte Version immer noch geöffnet. Schauen wir uns in diesem Artikel die Wendungen und Wendungen und wie man dieses Problem anmutig ansehen. Nach dem Lesen können Sie sich leicht mit verschiedenen Caching -Problemen befassen, sodass Ihre Benutzer immer den frischesten Inhalt erleben können. Sprechen wir zuerst über die Grundlagen. Um es unverblümt auszudrücken, speichert der Browser oder Server einige statische Ressourcen (wie Bilder, CSS, JS) oder Seiteninhalte, um die Zugriffsgeschwindigkeit zu verbessern. Wenn Sie das nächste Mal darauf zugreifen, können Sie ihn direkt aus dem Cache abrufen, ohne ihn erneut herunterzuladen, und es ist natürlich schnell. Aber dieses Ding ist auch ein zweischneidiges Schwert. Die neue Version ist online,

Wie verwende ich HTML5 -Formularvalidierungsattribute, um die Benutzereingabe zu validieren? Wie verwende ich HTML5 -Formularvalidierungsattribute, um die Benutzereingabe zu validieren? Mar 17, 2025 pm 12:27 PM

In dem Artikel werden unter Verwendung von HTML5 -Formularvalidierungsattributen wie Erforderlich, Muster, Min, MAX und Längengrenzen erörtert, um die Benutzereingabe direkt im Browser zu validieren.

Wie füge ich PNG -Bildern auf Webseiten effizient Schlaganfalleffekte hinzu? Wie füge ich PNG -Bildern auf Webseiten effizient Schlaganfalleffekte hinzu? Mar 04, 2025 pm 02:39 PM

Dieser Artikel zeigt einen effizienten PNG -Grenzzusatz zu Webseiten mithilfe von CSS. Es wird argumentiert, dass CSS im Vergleich zu JavaScript oder Bibliotheken eine überlegene Leistung bietet, um zu beschreiben, wie die Randbreite, Stil und Farbe für subtile oder herausragende Effekte angepasst werden können

Was sind die besten Praktiken für die Kompatibilität des Cross-Browsers in HTML5? Was sind die besten Praktiken für die Kompatibilität des Cross-Browsers in HTML5? Mar 17, 2025 pm 12:20 PM

In Artikel werden Best Practices zur Gewährleistung der HTML5-Cross-Browser-Kompatibilität erörtert und sich auf die Erkennung von Merkmalen, die progressive Verbesserung und die Testmethoden konzentriert.

Was ist der Zweck des & lt; datalist & gt; Element? Was ist der Zweck des & lt; datalist & gt; Element? Mar 21, 2025 pm 12:33 PM

Der Artikel erörtert den HTML & lt; Datalist & gt; Element, das die Formulare verbessert, indem automatische Vorschläge bereitgestellt, die Benutzererfahrung verbessert und Fehler reduziert werden.Character Count: 159

Was ist der Zweck des & lt; Fortschritts & gt; Element? Was ist der Zweck des & lt; Fortschritts & gt; Element? Mar 21, 2025 pm 12:34 PM

Der Artikel erörtert den HTML & lt; Progress & gt; Element, Absicht, Styling und Unterschiede vom & lt; Meter & gt; Element. Das Hauptaugenmerk liegt auf der Verwendung & lt; Fortschritt & gt; Für Aufgabenabschluss und & lt; Meter & gt; für stati

Wie benutze ich die HTML5 & lt; Zeit & gt; Element, um Daten und Zeiten semantisch darzustellen? Wie benutze ich die HTML5 & lt; Zeit & gt; Element, um Daten und Zeiten semantisch darzustellen? Mar 12, 2025 pm 04:05 PM

Dieser Artikel erklärt den HTML5 & lt; Time & gt; Element für semantische Datum/Uhrzeit. Es betont die Wichtigkeit des DateTime-Attributs für die Maschinenlesbarkeit (ISO 8601-Format) neben menschenlesbarem Text, das Zubehör steigert

Was ist der Zweck des & lt; Meter & gt; Element? Was ist der Zweck des & lt; Meter & gt; Element? Mar 21, 2025 pm 12:35 PM

Der Artikel erörtert das HTML & lt; Meter & gt; Element, verwendet zur Anzeige von Skalar- oder Bruchwerten innerhalb eines Bereichs und seine gemeinsamen Anwendungen in der Webentwicklung. Es differenziert & lt; Meter & gt; von & lt; Fortschritt & gt; und Ex

See all articles