Beispielcode-Analyse zur Einführung in die Python-Crawler-Technologie-Python-Tutorial-php.cn

Inhaltsverzeichnis

Grundlegende Konzepte der Crawler-Technologie

Anfragen und Antworten

HTML-Analyse und Datenextraktion

Praktischer Kampf: Crawlen Sie die Artikelinformationen auf der Homepage der Jianshu-Website.

Daten speichern

Testen und Optimieren

1. Wenn Sie auf Anti-Crawler-Strategien stoßen, können Sie User-Agent verwenden, um sich als Browser auszugeben.

2. Verwenden Sie die Funktion time.sleep(), um die Anforderungshäufigkeit zu steuern.

3. Fehlerbehandlung und Ausnahmeerkennung.

Vollständiger Code für Website-Crawler:

Ergänzung

Heim

Backend-Entwicklung

Python-Tutorial

Beispielcode-Analyse zur Einführung in die Python-Crawler-Technologie

王林

Apr 22, 2023 pm 01:04 PM

python

Grundlegende Konzepte der Crawler-Technologie

Crawler: ein Programm, das automatisch Netzwerkdaten abruft.
Webseitenstruktur: HTML, CSS, JavaScript usw.
HTTP-Anfrage: Wie der Client Daten vom Server anfordert.
HTTP-Antwort: Vom Server an den Client zurückgegebene Daten.

Anfragen und Antworten

Verwenden Sie die Anforderungsbibliothek von Python, um HTTP-Anfragen zu senden.

import requests
 
url = "https://www.example.com"
response = requests.get(url)

Nach dem Login kopieren

Antwortinhalte erhalten

html_content = response.text

Nach dem Login kopieren

HTML-Analyse und Datenextraktion

Verwenden Sie die BeautifulSoup-Bibliothek, um HTML-Inhalte zu analysieren.

from bs4 import BeautifulSoup
 
soup = BeautifulSoup(html_content, "html.parser")

Nach dem Login kopieren

Verwenden Sie CSS-Selektoren oder andere Methoden, um Daten zu extrahieren.

title = soup.title.string

Nach dem Login kopieren

Praktischer Kampf: Crawlen Sie die Artikelinformationen auf der Homepage der Jianshu-Website.

Senden Sie eine Anfrage, um den HTML-Inhalt der Homepage der Jianshu-Website zu erhalten.

import requests
from bs4 import BeautifulSoup
 
url = "https://www.jianshu.com"
response = requests.get(url)
html_content = response.text

Nach dem Login kopieren

Daten speichern

Daten im JSON-Format speichern.

import json
 
with open("jianshu_articles.json", "w", encoding="utf-8") as f:
    json.dump(article_info_list, f, ensure_ascii=False, indent=4)

Nach dem Login kopieren

Testen und Optimieren

1. Wenn Sie auf Anti-Crawler-Strategien stoßen, können Sie User-Agent verwenden, um sich als Browser auszugeben.

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"}
response = requests.get(url, headers=headers)

Nach dem Login kopieren

2. Verwenden Sie die Funktion time.sleep(), um die Anforderungshäufigkeit zu steuern.

import time
 
time.sleep(10)

Nach dem Login kopieren

3. Fehlerbehandlung und Ausnahmeerkennung.

try:
    response = requests.get(url, headers=headers, timeout=5)
    response.raise_for_status()
except requests.exceptions.RequestException as e:
    print(f"Error: {e}")

Nach dem Login kopieren

Vollständiger Code für Website-Crawler:

import requests
from bs4 import BeautifulSoup
import json
import time
 
def fetch_jianshu_articles():
    url = "https://www.jianshu.com"
    headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"}
 
    try:
        response = requests.get(url, headers=headers, timeout=5)
        response.raise_for_status()
    except requests.exceptions.RequestException as e:
        print(f"Error: {e}")
        return
 
    html_content = response.text
    soup = BeautifulSoup(html_content, "html.parser")
    articles = soup.find_all("div", class_="content")
    article_info_list = []
 
    for article in articles:
        title = article.h3.text.strip()
        author = article.find("span", class_="name").text.strip()
        link = url + article.h3.a["href"]
 
        article_info = {"title": title, "author": author, "link": link}
        article_info_list.append(article_info)
 
    return article_info_list
 
def save_to_json(article_info_list, filename):
    with open(filename, "w", encoding="utf-8") as f:
        json.dump(article_info_list, f, ensure_ascii=False, indent=4)
 
if __name__ == "__main__":
    article_info_list = fetch_jianshu_articles()
    if article_info_list:
        save_to_json(article_info_list, "jianshu_articles.json")
        print("Jianshu articles saved to &#39;jianshu_articles.json&#39;.")
    else:
        print("Failed to fetch Jianshu articles.")

Nach dem Login kopieren

Ergänzung

Um dieses praktische Projekt besser zu verstehen, müssen wir einige grundlegende Konzepte und Prinzipien verstehen, die uns dabei helfen, die Netzwerkprogrammierung und Crawler-Technologie von Python zu beherrschen. Hier sind einige grundlegende Web-Crawling-Konzepte:

HTTP-Protokoll: Hypertext Transfer Protocol (HTTP) ist ein Protokoll auf Anwendungsebene, das zur Übertragung von Hypermedia-Dokumenten wie HTML verwendet wird. Das HTTP-Protokoll wird verwendet, um Daten von einem Webserver an einen Webbrowser oder einen anderen Client zu übertragen oder zu veröffentlichen.
HTML, CSS und JavaScript: HTML ist eine Sprache zur Beschreibung von Webseiten. CSS ist ein Stil, der verwendet wird, um die Struktur von HTML auszudrücken. JavaScript ist eine Skriptsprache für die Webprogrammierung, die hauptsächlich dazu verwendet wird, dynamische Effekte auf Webseiten zu erzielen und mit Benutzern zu interagieren.
DOM: Das Document Object Model (DOM) ist eine plattformübergreifende Programmierschnittstelle zur Verarbeitung von HTML- und XML-Dokumenten. DOM behandelt ein Dokument als Baumstruktur, in der jeder Knoten einen Teil darstellt (z. B. ein Element, ein Attribut oder einen Text).
URL: Ein Uniform Resource Locator (URL) ist eine Zeichenfolge, die zur Angabe des Standorts einer Internetressource verwendet wird.
Anforderungsheader: In HTTP-Anfragen enthalten Anforderungsheader Informationen über die Umgebung, den Browser usw. des Clients. Zu den gängigen Anforderungsheaderfeldern gehören: User-Agent, Accept, Referer usw.
Antwortheader: In der HTTP-Antwort enthält der Antwortheader Informationen über den Server, den Antwortstatuscode und andere Informationen. Zu den gängigen Antwort-Header-Feldern gehören: Inhaltstyp, Inhaltslänge, Server usw.
Web-Crawler-Strategien: Einige Websites wenden bestimmte Strategien an, um zu verhindern, dass Crawler Daten crawlen, z. B. IP-Adresse blockieren, Zugriffsgeschwindigkeit begrenzen, JavaScript zum dynamischen Laden von Daten verwenden usw. In praktischen Anwendungen müssen wir auf der Grundlage dieser Strategien entsprechende Gegenmaßnahmen ergreifen, z. B. die Verwendung von Proxy-IP, die Begrenzung der Crawler-Crawling-Geschwindigkeit, die Verwendung von Browsersimulationsbibliotheken (wie Selenium) usw.

Das obige ist der detaillierte Inhalt vonBeispielcode-Analyse zur Einführung in die Python-Crawler-Technologie. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Assassin's Creed Shadows: Seashell Riddle -Lösung

3 Wochen vor By DDD

Was ist neu in Windows 11 KB5054979 und wie Sie Update -Probleme beheben

2 Wochen vor By DDD

Wo kann man die Kransteuerungsschlüsselkarten in Atomfall finden

3 Wochen vor By DDD

Ersparnis in R.E.P.O. Erklärt (und speichern Dateien)

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

Assassins Creed Shadows - So finden Sie den Schmied und entsperren Sie die Waffen- und Rüstungsanpassung

4 Wochen vor By DDD

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7569

CakePHP-Tutorial

1386

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

106

Related knowledge

PHP und Python: Code Beispiele und Vergleich Apr 15, 2025 am 12:07 AM

PHP und Python haben ihre eigenen Vor- und Nachteile, und die Wahl hängt von den Projektbedürfnissen und persönlichen Vorlieben ab. 1.PHP eignet sich für eine schnelle Entwicklung und Wartung großer Webanwendungen. 2. Python dominiert das Gebiet der Datenwissenschaft und des maschinellen Lernens.

Python gegen JavaScript: Community, Bibliotheken und Ressourcen Apr 15, 2025 am 12:16 AM

Python und JavaScript haben ihre eigenen Vor- und Nachteile in Bezug auf Gemeinschaft, Bibliotheken und Ressourcen. 1) Die Python-Community ist freundlich und für Anfänger geeignet, aber die Front-End-Entwicklungsressourcen sind nicht so reich wie JavaScript. 2) Python ist leistungsstark in Bibliotheken für Datenwissenschaft und maschinelles Lernen, während JavaScript in Bibliotheken und Front-End-Entwicklungsbibliotheken und Frameworks besser ist. 3) Beide haben reichhaltige Lernressourcen, aber Python eignet sich zum Beginn der offiziellen Dokumente, während JavaScript mit Mdnwebdocs besser ist. Die Wahl sollte auf Projektbedürfnissen und persönlichen Interessen beruhen.

Detaillierte Erklärung des Docker -Prinzips Apr 14, 2025 pm 11:57 PM

Docker verwendet Linux -Kernel -Funktionen, um eine effiziente und isolierte Anwendungsumgebung zu bieten. Sein Arbeitsprinzip lautet wie folgt: 1. Der Spiegel wird als schreibgeschützte Vorlage verwendet, die alles enthält, was Sie für die Ausführung der Anwendung benötigen. 2. Das Union File System (UnionFS) stapelt mehrere Dateisysteme, speichert nur die Unterschiede, speichert Platz und beschleunigt. 3. Der Daemon verwaltet die Spiegel und Container, und der Kunde verwendet sie für die Interaktion. 4. Namespaces und CGroups implementieren Container -Isolation und Ressourcenbeschränkungen; 5. Mehrere Netzwerkmodi unterstützen die Containerverbindung. Nur wenn Sie diese Kernkonzepte verstehen, können Sie Docker besser nutzen.

Kann Visual Studio -Code in Python verwendet werden Apr 15, 2025 pm 08:18 PM

VS -Code kann zum Schreiben von Python verwendet werden und bietet viele Funktionen, die es zu einem idealen Werkzeug für die Entwicklung von Python -Anwendungen machen. Sie ermöglichen es Benutzern: Installation von Python -Erweiterungen, um Funktionen wie Code -Abschluss, Syntax -Hervorhebung und Debugging zu erhalten. Verwenden Sie den Debugger, um Code Schritt für Schritt zu verfolgen, Fehler zu finden und zu beheben. Integrieren Sie Git für die Versionskontrolle. Verwenden Sie Tools für die Codeformatierung, um die Codekonsistenz aufrechtzuerhalten. Verwenden Sie das Lining -Tool, um potenzielle Probleme im Voraus zu erkennen.

So führen Sie Programme in der terminalen VSCODE aus Apr 15, 2025 pm 06:42 PM

Im VS -Code können Sie das Programm im Terminal in den folgenden Schritten ausführen: Erstellen Sie den Code und öffnen Sie das integrierte Terminal, um sicherzustellen, dass das Codeverzeichnis mit dem Terminal Working -Verzeichnis übereinstimmt. Wählen Sie den Befehl aus, den Befehl ausführen, gemäß der Programmiersprache (z. B. Pythons Python your_file_name.py), um zu überprüfen, ob er erfolgreich ausgeführt wird, und Fehler auflösen. Verwenden Sie den Debugger, um die Debugging -Effizienz zu verbessern.

Kann gegen Code in Windows 8 ausgeführt werden Apr 15, 2025 pm 07:24 PM

VS -Code kann unter Windows 8 ausgeführt werden, aber die Erfahrung ist möglicherweise nicht großartig. Stellen Sie zunächst sicher, dass das System auf den neuesten Patch aktualisiert wurde, und laden Sie dann das VS -Code -Installationspaket herunter, das der Systemarchitektur entspricht und sie wie aufgefordert installiert. Beachten Sie nach der Installation, dass einige Erweiterungen möglicherweise mit Windows 8 nicht kompatibel sind und nach alternativen Erweiterungen suchen oder neuere Windows -Systeme in einer virtuellen Maschine verwenden müssen. Installieren Sie die erforderlichen Erweiterungen, um zu überprüfen, ob sie ordnungsgemäß funktionieren. Obwohl VS -Code unter Windows 8 möglich ist, wird empfohlen, auf ein neueres Windows -System zu upgraden, um eine bessere Entwicklungserfahrung und Sicherheit zu erzielen.

Ist die VSCODE -Erweiterung bösartig? Apr 15, 2025 pm 07:57 PM

VS -Code -Erweiterungen stellen böswillige Risiken dar, wie das Verstecken von böswilligem Code, das Ausbeutetieren von Schwachstellen und das Masturbieren als legitime Erweiterungen. Zu den Methoden zur Identifizierung böswilliger Erweiterungen gehören: Überprüfung von Verlegern, Lesen von Kommentaren, Überprüfung von Code und Installation mit Vorsicht. Zu den Sicherheitsmaßnahmen gehören auch: Sicherheitsbewusstsein, gute Gewohnheiten, regelmäßige Updates und Antivirensoftware.

Python: Automatisierung, Skript- und Aufgabenverwaltung Apr 16, 2025 am 12:14 AM

Python zeichnet sich in Automatisierung, Skript und Aufgabenverwaltung aus. 1) Automatisierung: Die Sicherungssicherung wird durch Standardbibliotheken wie OS und Shutil realisiert. 2) Skriptschreiben: Verwenden Sie die PSUTIL -Bibliothek, um die Systemressourcen zu überwachen. 3) Aufgabenverwaltung: Verwenden Sie die Zeitplanbibliothek, um Aufgaben zu planen. Die Benutzerfreundlichkeit von Python und die Unterstützung der reichhaltigen Bibliothek machen es zum bevorzugten Werkzeug in diesen Bereichen.

See all articles