Inhaltsverzeichnis
Greifen Sie auf den vollständigen Code auf Google Colab zu
Warum Crawl4AI und Pydantic wählen?
Warum Tokopedia ins Visier nehmen?
Was zeichnet diesen Ansatz aus?
Einrichten Ihrer Entwicklungsumgebung
Datenmodelle mit Pydantic definieren
Der Schabeprozess
1. Crawlen von Produktlisten
2. Produktdetails abrufen
Kombination der Stufen
Den Scraper ausführen
Profi-Tipps
Nächste Schritte
Fazit
Wichtige Links:
Crawl4AI
Pydantisch
Hinweis: Der vollständige Code ist im Colab-Notizbuch verfügbar. Probieren Sie es einfach aus und passen Sie es an Ihre spezifischen Bedürfnisse an.
Heim Backend-Entwicklung Python-Tutorial Erstellen eines asynchronen E-Commerce-Web-Scrapers mit Pydantic, Crawl & Gemini

Erstellen eines asynchronen E-Commerce-Web-Scrapers mit Pydantic, Crawl & Gemini

Jan 12, 2025 am 06:25 AM

Building an Async E-Commerce Web Scraper with Pydantic, Crawl & Gemini

Kurz gesagt: Dieser Leitfaden zeigt den Aufbau eines E-Commerce-Scrapers mithilfe der KI-gestützten Extraktion und der Pydantic-Datenmodelle von crawl4ai. Der Scraper ruft asynchron sowohl Produktlisten (Namen, Preise) als auch detaillierte Produktinformationen (Spezifikationen, Bewertungen) ab.

Greifen Sie auf den vollständigen Code auf Google Colab zu


Müden Sie die Komplexität des traditionellen Web-Scrapings zur E-Commerce-Datenanalyse? Dieses Tutorial vereinfacht den Prozess mithilfe moderner Python-Tools. Wir nutzen crawl4ai für die intelligente Datenextraktion und Pydantic für eine robuste Datenmodellierung und -validierung.

Warum Crawl4AI und Pydantic wählen?

  • crawl4ai: Optimiert Web-Crawling und Scraping mithilfe KI-gesteuerter Extraktionsmethoden.
  • Pydantic: Bietet Datenvalidierung und Schemaverwaltung und sorgt so für strukturierte und genaue Scraping-Daten.

Warum Tokopedia ins Visier nehmen?

Tokopedia, eine große indonesische E-Commerce-Plattform, dient uns als Beispiel. (Hinweis: Der Autor ist Indonesier und Nutzer der Plattform, aber nicht mit ihr verbunden.) Die Grundsätze gelten auch für andere E-Commerce-Websites. Dieser Scraping-Ansatz ist für Entwickler von Vorteil, die sich für E-Commerce-Analysen, Marktforschung oder automatisierte Datenerfassung interessieren.

Was zeichnet diesen Ansatz aus?

Anstatt uns auf komplexe CSS-Selektoren oder XPath zu verlassen, nutzen wir die LLM-basierte Extraktion von crawl4ai. Das bietet:

  • Verbesserte Widerstandsfähigkeit gegenüber Änderungen der Website-Struktur.
  • Sauberere, strukturiertere Datenausgabe.
  • Reduzierter Wartungsaufwand.

Einrichten Ihrer Entwicklungsumgebung

Beginnen Sie mit der Installation der erforderlichen Pakete:

%pip install -U crawl4ai
%pip install nest_asyncio
%pip install pydantic
Nach dem Login kopieren
Nach dem Login kopieren

Für die asynchrone Codeausführung in Notebooks verwenden wir auch nest_asyncio:

import crawl4ai
import asyncio
import nest_asyncio
nest_asyncio.apply()
Nach dem Login kopieren

Datenmodelle mit Pydantic definieren

Wir verwenden Pydantic, um die erwartete Datenstruktur zu definieren. Hier sind die Modelle:

from pydantic import BaseModel, Field
from typing import List, Optional

class TokopediaListingItem(BaseModel):
    product_name: str = Field(..., description="Product name from listing.")
    product_url: str = Field(..., description="URL to product detail page.")
    price: str = Field(None, description="Price displayed in listing.")
    store_name: str = Field(None, description="Store name from listing.")
    rating: str = Field(None, description="Rating (1-5 scale) from listing.")
    image_url: str = Field(None, description="Primary image URL from listing.")

class TokopediaProductDetail(BaseModel):
    product_name: str = Field(..., description="Product name from detail page.")
    all_images: List[str] = Field(default_factory=list, description="List of all product image URLs.")
    specs: str = Field(None, description="Technical specifications or short info.")
    description: str = Field(None, description="Long product description.")
    variants: List[str] = Field(default_factory=list, description="List of variants or color options.")
    satisfaction_percentage: Optional[str] = Field(None, description="Customer satisfaction percentage.")
    total_ratings: Optional[str] = Field(None, description="Total number of ratings.")
    total_reviews: Optional[str] = Field(None, description="Total number of reviews.")
    stock: Optional[str] = Field(None, description="Stock availability.")
Nach dem Login kopieren

Diese Modelle dienen als Vorlagen, stellen die Datenvalidierung sicher und sorgen für eine klare Dokumentation.

Der Schabeprozess

Der Schaber arbeitet in zwei Phasen:

1. Crawlen von Produktlisten

Zuerst rufen wir Suchergebnisseiten ab:

async def crawl_tokopedia_listings(query: str = "mouse-wireless", max_pages: int = 1):
    # ... (Code remains the same) ...
Nach dem Login kopieren

2. Produktdetails abrufen

Als nächstes rufen wir für jede Produkt-URL detaillierte Informationen ab:

async def crawl_tokopedia_detail(product_url: str):
    # ... (Code remains the same) ...
Nach dem Login kopieren

Kombination der Stufen

Schließlich integrieren wir beide Phasen:

async def run_full_scrape(query="mouse-wireless", max_pages=2, limit=15):
    # ... (Code remains the same) ...
Nach dem Login kopieren

Den Scraper ausführen

So führen Sie den Schaber aus:

%pip install -U crawl4ai
%pip install nest_asyncio
%pip install pydantic
Nach dem Login kopieren
Nach dem Login kopieren

Profi-Tipps

  1. Ratenbegrenzung: Respektieren Sie die Server von Tokopedia; Verzögerungen zwischen Anfragen für groß angelegtes Scraping einführen.
  2. Caching: Aktivieren Sie das Caching von crawl4ai während der Entwicklung (cache_mode=CacheMode.ENABLED).
  3. Fehlerbehandlung: Implementieren Sie umfassende Fehlerbehandlungs- und Wiederholungsmechanismen für den Produktionseinsatz.
  4. API-Schlüssel:Speichern Sie Gemini-API-Schlüssel sicher in Umgebungsvariablen, nicht direkt im Code.

Nächste Schritte

Dieser Schaber kann erweitert werden auf:

  • Daten in einer Datenbank speichern.
  • Überwachen Sie Preisänderungen im Laufe der Zeit.
  • Produkttrends und -muster analysieren.
  • Vergleichen Sie die Preise in mehreren Geschäften.

Fazit

Die LLM-basierte Extraktion von crawl4ai verbessert die Wartbarkeit des Web Scraping im Vergleich zu herkömmlichen Methoden erheblich. Die Integration mit Pydantic gewährleistet Datengenauigkeit und -struktur.

Halten Sie sich vor dem Scrapen immer an die robots.txt und Nutzungsbedingungen einer Website.


Crawl4AI

Pydantisch


Hinweis: Der vollständige Code ist im Colab-Notizbuch verfügbar. Probieren Sie es einfach aus und passen Sie es an Ihre spezifischen Bedürfnisse an.

Das obige ist der detaillierte Inhalt vonErstellen eines asynchronen E-Commerce-Web-Scrapers mit Pydantic, Crawl & Gemini. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Wie löste ich das Problem der Berechtigungen beim Betrachten der Python -Version in Linux Terminal? Wie löste ich das Problem der Berechtigungen beim Betrachten der Python -Version in Linux Terminal? Apr 01, 2025 pm 05:09 PM

Lösung für Erlaubnisprobleme beim Betrachten der Python -Version in Linux Terminal Wenn Sie versuchen, die Python -Version in Linux Terminal anzuzeigen, geben Sie Python ein ...

Wie kann man vom Browser vermeiden, wenn man überall Fiddler für das Lesen des Menschen in der Mitte verwendet? Wie kann man vom Browser vermeiden, wenn man überall Fiddler für das Lesen des Menschen in der Mitte verwendet? Apr 02, 2025 am 07:15 AM

Wie kann man nicht erkannt werden, wenn Sie Fiddlereverywhere für Man-in-the-Middle-Lesungen verwenden, wenn Sie FiddLereverywhere verwenden ...

Wie lehre ich innerhalb von 10 Stunden die Grundlagen für Computer-Anfänger-Programmierbasis in Projekt- und problemorientierten Methoden? Wie lehre ich innerhalb von 10 Stunden die Grundlagen für Computer-Anfänger-Programmierbasis in Projekt- und problemorientierten Methoden? Apr 02, 2025 am 07:18 AM

Wie lehre ich innerhalb von 10 Stunden die Grundlagen für Computer -Anfänger für Programmierungen? Wenn Sie nur 10 Stunden Zeit haben, um Computer -Anfänger zu unterrichten, was Sie mit Programmierkenntnissen unterrichten möchten, was würden Sie dann beibringen ...

Wie kann ich die gesamte Spalte eines Datenrahmens effizient in einen anderen Datenrahmen mit verschiedenen Strukturen in Python kopieren? Wie kann ich die gesamte Spalte eines Datenrahmens effizient in einen anderen Datenrahmen mit verschiedenen Strukturen in Python kopieren? Apr 01, 2025 pm 11:15 PM

Bei der Verwendung von Pythons Pandas -Bibliothek ist das Kopieren von ganzen Spalten zwischen zwei Datenrahmen mit unterschiedlichen Strukturen ein häufiges Problem. Angenommen, wir haben zwei Daten ...

Wie hört Uvicorn kontinuierlich auf HTTP -Anfragen ohne Serving_forver () an? Wie hört Uvicorn kontinuierlich auf HTTP -Anfragen ohne Serving_forver () an? Apr 01, 2025 pm 10:51 PM

Wie hört Uvicorn kontinuierlich auf HTTP -Anfragen an? Uvicorn ist ein leichter Webserver, der auf ASGI basiert. Eine seiner Kernfunktionen ist es, auf HTTP -Anfragen zu hören und weiterzumachen ...

Wie löste ich Berechtigungsprobleme bei der Verwendung von Python -Verssionsbefehl im Linux Terminal? Wie löste ich Berechtigungsprobleme bei der Verwendung von Python -Verssionsbefehl im Linux Terminal? Apr 02, 2025 am 06:36 AM

Verwenden Sie Python im Linux -Terminal ...

Wie bekomme ich Nachrichtendaten, die den Anti-Crawler-Mechanismus von Investing.com umgehen? Wie bekomme ich Nachrichtendaten, die den Anti-Crawler-Mechanismus von Investing.com umgehen? Apr 02, 2025 am 07:03 AM

Verständnis der Anti-Crawling-Strategie von Investing.com Viele Menschen versuchen oft, Nachrichten von Investing.com (https://cn.investing.com/news/latest-news) zu kriechen ...

See all articles