Beispiel für die Implementierung einer einfachen Crawler-Funktion in Python-Python-Tutorial-php.cn

Heim

Backend-Entwicklung

Python-Tutorial

Beispiel für die Implementierung einer einfachen Crawler-Funktion in Python

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Dec 05, 2016 pm 01:27 PM

python

Wenn wir jeden Tag im Internet surfen, sehen wir oft einige gut aussehende Bilder und wir möchten diese Bilder speichern und herunterladen oder sie als Desktop-Hintergrundbilder oder als Designmaterialien verwenden.

Unsere häufigste Methode besteht darin, mit der rechten Maustaste zu klicken und „Speichern unter“ auszuwählen. Für einige Bilder gibt es jedoch keine Option zum Speichern unter, wenn Sie mit der rechten Maustaste klicken. Eine andere Möglichkeit besteht darin, sie mit einem Screenshot-Tool aufzunehmen, was jedoch die Klarheit des Bildes verringert. Okay~! Tatsächlich sind Sie sehr gut. Klicken Sie mit der rechten Maustaste, um den Quellcode der Seite anzuzeigen.

Wir können Python verwenden, um eine so einfache Crawler-Funktion zu implementieren und den gewünschten Code lokal zu crawlen. Schauen wir uns an, wie man mit Python eine solche Funktion implementiert.

1. Holen Sie sich die gesamten Seitendaten

Zuerst können wir die gesamten Seiteninformationen des herunterzuladenden Bildes abrufen.
getjpg.py

#coding=utf-8
import urllib
def getHtml(url):
  page = urllib.urlopen(url)
  html = page.read()
  return html

html = getHtml("http://tieba.baidu.com/p/2738151262")
print html

Nach dem Login kopieren

Das Urllib-Modul bietet eine Schnittstelle zum Lesen von Webseitendaten. Wir können Daten auf www und ftp genauso lesen wie lokale Dateien. Zuerst definieren wir eine getHtml()-Funktion:

Die Methode urllib.urlopen() wird zum Öffnen einer URL-Adresse verwendet.

Die Methode read() wird verwendet, um die Daten auf der URL zu lesen, eine URL an die Funktion getHtml() zu übergeben und die gesamte Seite herunterzuladen. Beim Ausführen des Programms wird die gesamte Webseite ausgedruckt.

2. Filtern Sie die gewünschten Daten auf der Seite
Python bietet sehr leistungsstarke reguläre Ausdrücke. Zuerst müssen wir ein wenig über reguläre Python-Ausdrücke wissen.

Angenommen, wir finden ein paar schöne Hintergrundbilder in Baidu Tieba und gehen zum vorherigen Abschnitt, um die Tools anzuzeigen. Die Adresse des Bildes wurde gefunden, z. B.: src=“http://imgsrc.baidu.com/forum...jpg“ pic_ext=“jpeg“

Ändern Sie den Code wie folgt:

import re
import urllib

def getHtml(url):
  page = urllib.urlopen(url)
  html = page.read()
  return html

def getImg(html):
  reg = r'src="(.+&#63;\.jpg)" pic_ext'
  imgre = re.compile(reg)
  imglist = re.findall(imgre,html)
  return imglist   
  
html = getHtml("http://tieba.baidu.com/p/2460150866")
print getImg(html)

Nach dem Login kopieren

Wir haben die Funktion getImg() erstellt, um die erforderlichen Bildlinks auf der gesamten erhaltenen Seite zu filtern. Das re-Modul enthält hauptsächlich reguläre Ausdrücke:

re.compile() kann einen regulären Ausdruck in ein reguläres Ausdrucksobjekt kompilieren.

Die re.findall()-Methode liest Daten, die imgre (regulären Ausdruck) in HTML enthalten.

Durch Ausführen des Skripts wird die URL-Adresse des Bildes abgerufen, das auf der gesamten Seite enthalten ist.

3. Speichern Sie die seitengefilterten Daten lokal

Durchlaufen Sie die gefilterten Bildadressen durch eine for-Schleife und speichern Sie sie lokal. Der Code lautet wie folgt:

#coding=utf-8
import urllib
import re

def getHtml(url):
  page = urllib.urlopen(url)
  html = page.read()
  return html

def getImg(html):
  reg = r'src="(.+&#63;\.jpg)" pic_ext'
  imgre = re.compile(reg)
  imglist = re.findall(imgre,html)
  x = 0
  for imgurl in imglist:
    urllib.urlretrieve(imgurl,'%s.jpg' % x)
    x+=1


html = getHtml("http://tieba.baidu.com/p/2460150866")

print getImg(html)

Nach dem Login kopieren

Der Kern hier besteht darin, die Methode urllib.urlretrieve() zu verwenden, um Remote-Daten direkt auf den lokalen Server herunterzuladen.

Durchlaufen Sie die erhaltene Bildverbindung durch eine for-Schleife. Um den Bilddateinamen standardisierter zu gestalten, benennen Sie ihn um. Die Benennungsregel besteht darin, 1 zur x-Variablen hinzuzufügen. Der Speicherort ist standardmäßig das Speicherverzeichnis des Programms.

Nachdem das Programm ausgeführt wurde, sehen Sie die in das lokale Verzeichnis heruntergeladenen Dateien.

Vielen Dank fürs Lesen, ich hoffe, es kann Ihnen helfen, vielen Dank für Ihre Unterstützung dieser Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Assassin's Creed Shadows: Seashell Riddle -Lösung

4 Wochen vor By DDD

Was ist neu in Windows 11 KB5054979 und wie Sie Update -Probleme beheben

3 Wochen vor By DDD

Wo kann man die Kransteuerungsschlüsselkarten in Atomfall finden

4 Wochen vor By DDD

<🎜>: Dead Rails - wie man jede Herausforderung abschließt

1 Monate vor By DDD

Wie kann ich KB5055523 in Windows 11 nicht installieren?

2 Wochen vor By DDD

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7722

Java-Tutorial

1642

CakePHP-Tutorial

1396

Laravel-Tutorial

1289

PHP-Tutorial

1233

Related knowledge

PHP und Python: Verschiedene Paradigmen erklärt Apr 18, 2025 am 12:26 AM

PHP ist hauptsächlich prozedurale Programmierung, unterstützt aber auch die objektorientierte Programmierung (OOP). Python unterstützt eine Vielzahl von Paradigmen, einschließlich OOP, funktionaler und prozeduraler Programmierung. PHP ist für die Webentwicklung geeignet, und Python eignet sich für eine Vielzahl von Anwendungen wie Datenanalyse und maschinelles Lernen.

Python vs. JavaScript: Die Lernkurve und Benutzerfreundlichkeit Apr 16, 2025 am 12:12 AM

Python eignet sich besser für Anfänger mit einer reibungslosen Lernkurve und einer kurzen Syntax. JavaScript ist für die Front-End-Entwicklung mit einer steilen Lernkurve und einer flexiblen Syntax geeignet. 1. Python-Syntax ist intuitiv und für die Entwicklung von Datenwissenschaften und Back-End-Entwicklung geeignet. 2. JavaScript ist flexibel und in Front-End- und serverseitiger Programmierung weit verbreitet.

Wählen Sie zwischen PHP und Python: Ein Leitfaden Apr 18, 2025 am 12:24 AM

PHP eignet sich für Webentwicklung und schnelles Prototyping, und Python eignet sich für Datenwissenschaft und maschinelles Lernen. 1.PHP wird für die dynamische Webentwicklung verwendet, mit einfacher Syntax und für schnelle Entwicklung geeignet. 2. Python hat eine kurze Syntax, ist für mehrere Felder geeignet und ein starkes Bibliotheksökosystem.

Kann gegen Code in Windows 8 ausgeführt werden Apr 15, 2025 pm 07:24 PM

VS -Code kann unter Windows 8 ausgeführt werden, aber die Erfahrung ist möglicherweise nicht großartig. Stellen Sie zunächst sicher, dass das System auf den neuesten Patch aktualisiert wurde, und laden Sie dann das VS -Code -Installationspaket herunter, das der Systemarchitektur entspricht und sie wie aufgefordert installiert. Beachten Sie nach der Installation, dass einige Erweiterungen möglicherweise mit Windows 8 nicht kompatibel sind und nach alternativen Erweiterungen suchen oder neuere Windows -Systeme in einer virtuellen Maschine verwenden müssen. Installieren Sie die erforderlichen Erweiterungen, um zu überprüfen, ob sie ordnungsgemäß funktionieren. Obwohl VS -Code unter Windows 8 möglich ist, wird empfohlen, auf ein neueres Windows -System zu upgraden, um eine bessere Entwicklungserfahrung und Sicherheit zu erzielen.

Kann Visual Studio -Code in Python verwendet werden Apr 15, 2025 pm 08:18 PM

VS -Code kann zum Schreiben von Python verwendet werden und bietet viele Funktionen, die es zu einem idealen Werkzeug für die Entwicklung von Python -Anwendungen machen. Sie ermöglichen es Benutzern: Installation von Python -Erweiterungen, um Funktionen wie Code -Abschluss, Syntax -Hervorhebung und Debugging zu erhalten. Verwenden Sie den Debugger, um Code Schritt für Schritt zu verfolgen, Fehler zu finden und zu beheben. Integrieren Sie Git für die Versionskontrolle. Verwenden Sie Tools für die Codeformatierung, um die Codekonsistenz aufrechtzuerhalten. Verwenden Sie das Lining -Tool, um potenzielle Probleme im Voraus zu erkennen.

PHP und Python: Ein tiefes Eintauchen in ihre Geschichte Apr 18, 2025 am 12:25 AM

PHP entstand 1994 und wurde von Rasmuslerdorf entwickelt. Es wurde ursprünglich verwendet, um Website-Besucher zu verfolgen und sich nach und nach zu einer serverseitigen Skriptsprache entwickelt und in der Webentwicklung häufig verwendet. Python wurde Ende der 1980er Jahre von Guidovan Rossum entwickelt und erstmals 1991 veröffentlicht. Es betont die Lesbarkeit und Einfachheit der Code und ist für wissenschaftliche Computer, Datenanalysen und andere Bereiche geeignet.

So führen Sie Programme in der terminalen VSCODE aus Apr 15, 2025 pm 06:42 PM

Im VS -Code können Sie das Programm im Terminal in den folgenden Schritten ausführen: Erstellen Sie den Code und öffnen Sie das integrierte Terminal, um sicherzustellen, dass das Codeverzeichnis mit dem Terminal Working -Verzeichnis übereinstimmt. Wählen Sie den Befehl aus, den Befehl ausführen, gemäß der Programmiersprache (z. B. Pythons Python your_file_name.py), um zu überprüfen, ob er erfolgreich ausgeführt wird, und Fehler auflösen. Verwenden Sie den Debugger, um die Debugging -Effizienz zu verbessern.

Ist die VSCODE -Erweiterung bösartig? Apr 15, 2025 pm 07:57 PM

VS -Code -Erweiterungen stellen böswillige Risiken dar, wie das Verstecken von böswilligem Code, das Ausbeutetieren von Schwachstellen und das Masturbieren als legitime Erweiterungen. Zu den Methoden zur Identifizierung böswilliger Erweiterungen gehören: Überprüfung von Verlegern, Lesen von Kommentaren, Überprüfung von Code und Installation mit Vorsicht. Zu den Sicherheitsmaßnahmen gehören auch: Sicherheitsbewusstsein, gute Gewohnheiten, regelmäßige Updates und Antivirensoftware.

See all articles