Crawler: ein Programm, das automatisch Netzwerkdaten abruft.
Webseitenstruktur: HTML, CSS, JavaScript usw.
HTTP-Anfrage: Wie der Client Daten vom Server anfordert.
HTTP-Antwort: Vom Server an den Client zurückgegebene Daten.
Verwenden Sie die Anforderungsbibliothek von Python, um HTTP-Anfragen zu senden.
import requests url = "https://www.example.com" response = requests.get(url)
Antwortinhalte erhalten
html_content = response.text
Verwenden Sie die BeautifulSoup-Bibliothek, um HTML-Inhalte zu analysieren.
from bs4 import BeautifulSoup soup = BeautifulSoup(html_content, "html.parser")
Verwenden Sie CSS-Selektoren oder andere Methoden, um Daten zu extrahieren.
title = soup.title.string
Senden Sie eine Anfrage, um den HTML-Inhalt der Homepage der Jianshu-Website zu erhalten.
import requests from bs4 import BeautifulSoup url = "https://www.jianshu.com" response = requests.get(url) html_content = response.text
Daten im JSON-Format speichern.
import json with open("jianshu_articles.json", "w", encoding="utf-8") as f: json.dump(article_info_list, f, ensure_ascii=False, indent=4)
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"} response = requests.get(url, headers=headers)
import time time.sleep(10)
try: response = requests.get(url, headers=headers, timeout=5) response.raise_for_status() except requests.exceptions.RequestException as e: print(f"Error: {e}")
import requests from bs4 import BeautifulSoup import json import time def fetch_jianshu_articles(): url = "https://www.jianshu.com" headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"} try: response = requests.get(url, headers=headers, timeout=5) response.raise_for_status() except requests.exceptions.RequestException as e: print(f"Error: {e}") return html_content = response.text soup = BeautifulSoup(html_content, "html.parser") articles = soup.find_all("div", class_="content") article_info_list = [] for article in articles: title = article.h3.text.strip() author = article.find("span", class_="name").text.strip() link = url + article.h3.a["href"] article_info = {"title": title, "author": author, "link": link} article_info_list.append(article_info) return article_info_list def save_to_json(article_info_list, filename): with open(filename, "w", encoding="utf-8") as f: json.dump(article_info_list, f, ensure_ascii=False, indent=4) if __name__ == "__main__": article_info_list = fetch_jianshu_articles() if article_info_list: save_to_json(article_info_list, "jianshu_articles.json") print("Jianshu articles saved to 'jianshu_articles.json'.") else: print("Failed to fetch Jianshu articles.")
Um dieses praktische Projekt besser zu verstehen, müssen wir einige grundlegende Konzepte und Prinzipien verstehen, die uns dabei helfen, die Netzwerkprogrammierung und Crawler-Technologie von Python zu beherrschen. Hier sind einige grundlegende Web-Crawling-Konzepte:
HTTP-Protokoll: Hypertext Transfer Protocol (HTTP) ist ein Protokoll auf Anwendungsebene, das zur Übertragung von Hypermedia-Dokumenten wie HTML verwendet wird. Das HTTP-Protokoll wird verwendet, um Daten von einem Webserver an einen Webbrowser oder einen anderen Client zu übertragen oder zu veröffentlichen.
HTML, CSS und JavaScript: HTML ist eine Sprache zur Beschreibung von Webseiten. CSS ist ein Stil, der verwendet wird, um die Struktur von HTML auszudrücken. JavaScript ist eine Skriptsprache für die Webprogrammierung, die hauptsächlich dazu verwendet wird, dynamische Effekte auf Webseiten zu erzielen und mit Benutzern zu interagieren.
DOM: Das Document Object Model (DOM) ist eine plattformübergreifende Programmierschnittstelle zur Verarbeitung von HTML- und XML-Dokumenten. DOM behandelt ein Dokument als Baumstruktur, in der jeder Knoten einen Teil darstellt (z. B. ein Element, ein Attribut oder einen Text).
URL: Ein Uniform Resource Locator (URL) ist eine Zeichenfolge, die zur Angabe des Standorts einer Internetressource verwendet wird.
Anforderungsheader: In HTTP-Anfragen enthalten Anforderungsheader Informationen über die Umgebung, den Browser usw. des Clients. Zu den gängigen Anforderungsheaderfeldern gehören: User-Agent, Accept, Referer usw.
Antwortheader: In der HTTP-Antwort enthält der Antwortheader Informationen über den Server, den Antwortstatuscode und andere Informationen. Zu den gängigen Antwort-Header-Feldern gehören: Inhaltstyp, Inhaltslänge, Server usw.
Web-Crawler-Strategien: Einige Websites wenden bestimmte Strategien an, um zu verhindern, dass Crawler Daten crawlen, z. B. IP-Adresse blockieren, Zugriffsgeschwindigkeit begrenzen, JavaScript zum dynamischen Laden von Daten verwenden usw. In praktischen Anwendungen müssen wir auf der Grundlage dieser Strategien entsprechende Gegenmaßnahmen ergreifen, z. B. die Verwendung von Proxy-IP, die Begrenzung der Crawler-Crawling-Geschwindigkeit, die Verwendung von Browsersimulationsbibliotheken (wie Selenium) usw.
Das obige ist der detaillierte Inhalt vonBeispielcode-Analyse zur Einführung in die Python-Crawler-Technologie. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!