Beispielcode-Analyse zur Einführung in die Python-Crawler-Technologie

王林
Freigeben: 2023-04-22 13:04:07
nach vorne
1243 Leute haben es durchsucht

Grundlegende Konzepte der Crawler-Technologie

  1. Crawler: ein Programm, das automatisch Netzwerkdaten abruft.

  2. Webseitenstruktur: HTML, CSS, JavaScript usw.

  3. HTTP-Anfrage: Wie der Client Daten vom Server anfordert.

  4. HTTP-Antwort: Vom Server an den Client zurückgegebene Daten.

Anfragen und Antworten

Verwenden Sie die Anforderungsbibliothek von Python, um HTTP-Anfragen zu senden.

import requests
 
url = "https://www.example.com"
response = requests.get(url)
Nach dem Login kopieren

Antwortinhalte erhalten

html_content = response.text
Nach dem Login kopieren

HTML-Analyse und Datenextraktion

Verwenden Sie die BeautifulSoup-Bibliothek, um HTML-Inhalte zu analysieren.

from bs4 import BeautifulSoup
 
soup = BeautifulSoup(html_content, "html.parser")
Nach dem Login kopieren

Verwenden Sie CSS-Selektoren oder andere Methoden, um Daten zu extrahieren.

title = soup.title.string
Nach dem Login kopieren

Praktischer Kampf: Crawlen Sie die Artikelinformationen auf der Homepage der Jianshu-Website.

Senden Sie eine Anfrage, um den HTML-Inhalt der Homepage der Jianshu-Website zu erhalten.

import requests
from bs4 import BeautifulSoup
 
url = "https://www.jianshu.com"
response = requests.get(url)
html_content = response.text
Nach dem Login kopieren

Daten speichern

Daten im JSON-Format speichern.

import json
 
with open("jianshu_articles.json", "w", encoding="utf-8") as f:
    json.dump(article_info_list, f, ensure_ascii=False, indent=4)
Nach dem Login kopieren

Testen und Optimieren

1. Wenn Sie auf Anti-Crawler-Strategien stoßen, können Sie User-Agent verwenden, um sich als Browser auszugeben.

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"}
response = requests.get(url, headers=headers)
Nach dem Login kopieren

2. Verwenden Sie die Funktion time.sleep(), um die Anforderungshäufigkeit zu steuern.

import time
 
time.sleep(10)
Nach dem Login kopieren

3. Fehlerbehandlung und Ausnahmeerkennung.

try:
    response = requests.get(url, headers=headers, timeout=5)
    response.raise_for_status()
except requests.exceptions.RequestException as e:
    print(f"Error: {e}")
Nach dem Login kopieren

Vollständiger Code für Website-Crawler:

import requests
from bs4 import BeautifulSoup
import json
import time
 
def fetch_jianshu_articles():
    url = "https://www.jianshu.com"
    headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"}
 
    try:
        response = requests.get(url, headers=headers, timeout=5)
        response.raise_for_status()
    except requests.exceptions.RequestException as e:
        print(f"Error: {e}")
        return
 
    html_content = response.text
    soup = BeautifulSoup(html_content, "html.parser")
    articles = soup.find_all("div", class_="content")
    article_info_list = []
 
    for article in articles:
        title = article.h3.text.strip()
        author = article.find("span", class_="name").text.strip()
        link = url + article.h3.a["href"]
 
        article_info = {"title": title, "author": author, "link": link}
        article_info_list.append(article_info)
 
    return article_info_list
 
def save_to_json(article_info_list, filename):
    with open(filename, "w", encoding="utf-8") as f:
        json.dump(article_info_list, f, ensure_ascii=False, indent=4)
 
if __name__ == "__main__":
    article_info_list = fetch_jianshu_articles()
    if article_info_list:
        save_to_json(article_info_list, "jianshu_articles.json")
        print("Jianshu articles saved to 'jianshu_articles.json'.")
    else:
        print("Failed to fetch Jianshu articles.")
Nach dem Login kopieren

Ergänzung

Um dieses praktische Projekt besser zu verstehen, müssen wir einige grundlegende Konzepte und Prinzipien verstehen, die uns dabei helfen, die Netzwerkprogrammierung und Crawler-Technologie von Python zu beherrschen. Hier sind einige grundlegende Web-Crawling-Konzepte:

  1. HTTP-Protokoll: Hypertext Transfer Protocol (HTTP) ist ein Protokoll auf Anwendungsebene, das zur Übertragung von Hypermedia-Dokumenten wie HTML verwendet wird. Das HTTP-Protokoll wird verwendet, um Daten von einem Webserver an einen Webbrowser oder einen anderen Client zu übertragen oder zu veröffentlichen.

  2. HTML, CSS und JavaScript: HTML ist eine Sprache zur Beschreibung von Webseiten. CSS ist ein Stil, der verwendet wird, um die Struktur von HTML auszudrücken. JavaScript ist eine Skriptsprache für die Webprogrammierung, die hauptsächlich dazu verwendet wird, dynamische Effekte auf Webseiten zu erzielen und mit Benutzern zu interagieren.

  3. DOM: Das Document Object Model (DOM) ist eine plattformübergreifende Programmierschnittstelle zur Verarbeitung von HTML- und XML-Dokumenten. DOM behandelt ein Dokument als Baumstruktur, in der jeder Knoten einen Teil darstellt (z. B. ein Element, ein Attribut oder einen Text).

  4. URL: Ein Uniform Resource Locator (URL) ist eine Zeichenfolge, die zur Angabe des Standorts einer Internetressource verwendet wird.

  5. Anforderungsheader: In HTTP-Anfragen enthalten Anforderungsheader Informationen über die Umgebung, den Browser usw. des Clients. Zu den gängigen Anforderungsheaderfeldern gehören: User-Agent, Accept, Referer usw.

  6. Antwortheader: In der HTTP-Antwort enthält der Antwortheader Informationen über den Server, den Antwortstatuscode und andere Informationen. Zu den gängigen Antwort-Header-Feldern gehören: Inhaltstyp, Inhaltslänge, Server usw.

  7. Web-Crawler-Strategien: Einige Websites wenden bestimmte Strategien an, um zu verhindern, dass Crawler Daten crawlen, z. B. IP-Adresse blockieren, Zugriffsgeschwindigkeit begrenzen, JavaScript zum dynamischen Laden von Daten verwenden usw. In praktischen Anwendungen müssen wir auf der Grundlage dieser Strategien entsprechende Gegenmaßnahmen ergreifen, z. B. die Verwendung von Proxy-IP, die Begrenzung der Crawler-Crawling-Geschwindigkeit, die Verwendung von Browsersimulationsbibliotheken (wie Selenium) usw.

Das obige ist der detaillierte Inhalt vonBeispielcode-Analyse zur Einführung in die Python-Crawler-Technologie. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:yisu.com
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage