Wie man mit Python unendlich scrollende Webseiten durchsucht
Hallo, Crawlee-Entwickler, und willkommen zurück zu einem weiteren Tutorial im Crawlee-Blog. In diesem Tutorial erfahren Sie, wie Sie mit Crawlee für Python unendlich scrollende Websites durchsuchen.
Für den Kontext sind unendlich scrollbare Seiten eine moderne Alternative zur klassischen Paginierung. Wenn Benutzer zum Ende der Webseite scrollen, anstatt die nächste Seite auszuwählen, lädt die Seite automatisch mehr Daten und Benutzer können weiter scrollen.
Als großer Sneakerhead nehme ich die unendlich scrollende Nike-Schuhe-Website als Beispiel und wir werden Tausende von Sneakers daraus herauskratzen.
Crawlee für Python verfügt über einige erstaunliche Anfangsfunktionen, wie z. B. eine einheitliche Schnittstelle für HTTP und Headless-Browser-Crawling, automatische Wiederholungsversuche und vieles mehr.
Voraussetzungen und Bootstrapping des Projekts
Beginnen wir das Tutorial mit der Installation von Crawlee für Python mit diesem Befehl:
pipx run crawlee create nike-crawler
Nach dem Login kopieren
Bevor Sie diesen Blog lesen, würden wir uns sehr freuen, wenn Sie Crawlee für Python einen Stern auf GitHub geben würden!
apifizieren
/
Crawlee-Python
Crawlee – Eine Web-Scraping- und Browser-Automatisierungsbibliothek für Python zum Erstellen zuverlässiger Crawler. Extrahieren Sie Daten für AI, LLMs, RAG oder GPTs. Laden Sie HTML, PDF, JPG, PNG und andere Dateien von Websites herunter. Funktioniert mit BeautifulSoup, Playwright und rohem HTTP. Sowohl Headful- als auch Headless-Modus. Mit Proxy-Rotation.
Eine Web-Scraping- und Browser-Automatisierungsbibliothek
Crawlee deckt Ihr Krabbeln und Schaben von Anfang bis Ende ab und hilft Ihnen beim Bau zuverlässiger Schaber. Schnell.
? Crawlee für Python steht Early Adopters offen!
Ihre Crawler sehen fast menschenähnlich aus und fliegen selbst mit der Standardkonfiguration unter dem Radar moderner Bot-Schutzmaßnahmen. Crawlee bietet Ihnen die Tools, mit denen Sie das Web nach Links durchsuchen, Daten durchsuchen und dauerhaft in maschinenlesbaren Formaten speichern können, ohne sich um die technischen Details kümmern zu müssen. Und dank umfangreicher Konfigurationsoptionen können Sie fast jeden Aspekt von Crawlee an die Anforderungen Ihres Projekts anpassen, wenn die Standardeinstellungen nicht ausreichen.
? Vollständige Dokumentation, Anleitungen und Beispiele finden Sie auf der Website des Crawlee-Projekts ?
Wir haben auch eine TypeScript-Implementierung von Crawlee, die Sie erkunden und für Ihre Projekte nutzen können. Besuchen Sie unser GitHub-Repository für weitere Informationen zu Crawlee für JS/TS auf GitHub.
Installation
Wir…
Auf GitHub ansehen
We will scrape using headless browsers. Select PlaywrightCrawler in the terminal when Crawlee for Python asks for it.
After installation, Crawlee for Python will create boilerplate code for you. Redirect into the project folder and then run this command for all the dependencies installation:
poetry install
Nach dem Login kopieren
How to scrape infinite scrolling webpages
Handling accept cookie dialog
Adding request of all shoes links
Extract data from product details
Accept Cookies context manager
Handling infinite scroll on the listing page
Exporting data to CSV format
Handling accept cookie dialog
After all the necessary installations, we'll start looking into the files and configuring them accordingly.
When you look into the folder, you'll see many files, but for now, let’s focus on main.py and routes.py.
In __main__.py, let's change the target location to the Nike website. Then, just to see how scraping will happen, we'll add headless = False to the PlaywrightCrawler parameters. Let's also increase the maximum requests per crawl option to 100 to see the power of parallel scraping in Crawlee for Python.
As the cookie dialog is blocking us from crawling more than one page's worth of shoes, let’s get it out of our way.
We can handle the cookie dialog by going to Chrome dev tools and looking at the test_id of the "accept cookies" button, which is dialog-accept-button.
Now, let’s remove the context.push_data call that was left there from the project template and add the code to accept the dialog in routes.py. The updated code will look like this:
from crawlee.router import Router
from crawlee.playwright_crawler import PlaywrightCrawlingContext
router = Router[PlaywrightCrawlingContext]()
@router.default_handler
async def default_handler(context: PlaywrightCrawlingContext) -> None:
# Wait for the popup to be visible to ensure it has loaded on the page.
await context.page.get_by_test_id('dialog-accept-button').click()
Nach dem Login kopieren
Adding request of all shoes links
Now, if you hover over the top bar and see all the sections, i.e., man, woman, and kids, you'll notice the “All shoes” section. As we want to scrape all the sneakers, this section interests us. Let’s use get_by_test_id with the filter of has_text=’All shoes’ and add all the links with the text “All shoes” to the request handler. Let’s add this code to the existing routes.py file:
shoe_listing_links = (
await context.page.get_by_test_id('link').filter(has_text='All shoes').all()
)
await context.add_requests(
[
Request.from_url(url, label='listing')
for link in shoe_listing_links
if (url := await link.get_attribute('href'))
]
)
@router.handler('listing')
async def listing_handler(context: PlaywrightCrawlingContext) -> None:
"""Handler for shoe listings."""
Nach dem Login kopieren
Extract data from product details
Now that we have all the links to the pages with the title “All Shoes,” the next step is to scrape all the products on each page and the information provided on them.
We'll extract each shoe's URL, title, price, and description. Again, let's go to dev tools and extract each parameter's relevant test_id. After scraping each of the parameters, we'll use the context.push_data function to add it to the local storage. Now let's add the following code to the listing_handler and update it in the routes.py file:
Since we're dealing with multiple browser pages with multiple links and we want to do infinite scrolling, we may encounter an accept cookie dialog on each page. This will prevent loading more shoes via infinite scroll.
We'll need to check for cookies on every page, as each one may be opened with a fresh session (no stored cookies) and we'll get the accept cookie dialog even though we already accepted it in another browser window. However, if we don't get the dialog, we want the request handler to work as usual.
To solve this problem, we'll try to deal with the dialog in a parallel task that will run in the background. A context manager is a nice abstraction that will allow us to reuse this logic in all the router handlers. So, let's build a context manager:
from playwright.async_api import TimeoutError as PlaywrightTimeoutError
@asynccontextmanager
async def accept_cookies(page: Page):
task = asyncio.create_task(page.get_by_test_id('dialog-accept-button').click())
try:
yield
finally:
if not task.done():
task.cancel()
with suppress(asyncio.CancelledError, PlaywrightTimeoutError):
await task
Nach dem Login kopieren
This context manager will make sure we're accepting the cookie dialog if it exists before scrolling and scraping the page. Let’s implement it in the routes.py file, and the updated code is here
Handling infinite scroll on the listing page
Now for the last and most interesting part of the tutorial! How to handle the infinite scroll of each shoe listing page and make sure our crawler is scrolling and scraping the data constantly.
To handle infinite scrolling in Crawlee for Python, we just need to make sure the page is loaded, which is done by waiting for the network_idle load state, and then use the infinite_scroll helper function which will keep scrolling to the bottom of the page as long as that makes additional items appear.
Let’s add two lines of code to the listing handler:
As we want to store all the shoe data into a CSV file, we can just add a call to the export_data helper into the __main__.py file just after the crawler run:
await crawler.export_data('shoes.csv')
Nach dem Login kopieren
Working crawler and its code
Now, we have a crawler ready that can scrape all the shoes from the Nike website while handling infinite scrolling and many other problems, like the cookies dialog.
You can find the complete working crawler code here on the GitHub repository.
If you have any doubts regarding this tutorial or using Crawlee for Python, feel free to join our discord community and ask fellow developers or the Crawlee team.
Crawlee & Apify
This is the official developer community of Apify and Crawlee. | 8365 members
discord.com
This tutorial is taken from the webinar held on August 5th where Jan Buchar, Senior Python Engineer at Apify, gave a live demo about this use case. Watch the whole webinar here.
Das obige ist der detaillierte Inhalt vonWie man mit Python unendlich scrollende Webseiten durchsucht. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Python ist leichter zu lernen und zu verwenden, während C leistungsfähiger, aber komplexer ist. 1. Python -Syntax ist prägnant und für Anfänger geeignet. Durch die dynamische Tippen und die automatische Speicherverwaltung können Sie die Verwendung einfach zu verwenden, kann jedoch zur Laufzeitfehler führen. 2.C bietet Steuerung und erweiterte Funktionen auf niedrigem Niveau, geeignet für Hochleistungsanwendungen, hat jedoch einen hohen Lernschwellenwert und erfordert manuellem Speicher und Typensicherheitsmanagement.
Um die Effizienz des Lernens von Python in einer begrenzten Zeit zu maximieren, können Sie Pythons DateTime-, Zeit- und Zeitplanmodule verwenden. 1. Das DateTime -Modul wird verwendet, um die Lernzeit aufzuzeichnen und zu planen. 2. Das Zeitmodul hilft, die Studie zu setzen und Zeit zu ruhen. 3. Das Zeitplanmodul arrangiert automatisch wöchentliche Lernaufgaben.
Python ist in der Entwicklungseffizienz besser als C, aber C ist in der Ausführungsleistung höher. 1. Pythons prägnante Syntax und reiche Bibliotheken verbessern die Entwicklungseffizienz. 2. Die Kompilierungsmerkmale von Compilation und die Hardwarekontrolle verbessern die Ausführungsleistung. Bei einer Auswahl müssen Sie die Entwicklungsgeschwindigkeit und die Ausführungseffizienz basierend auf den Projektanforderungen abwägen.
Ist es genug, um Python für zwei Stunden am Tag zu lernen? Es hängt von Ihren Zielen und Lernmethoden ab. 1) Entwickeln Sie einen klaren Lernplan, 2) Wählen Sie geeignete Lernressourcen und -methoden aus, 3) praktizieren und prüfen und konsolidieren Sie praktische Praxis und Überprüfung und konsolidieren Sie und Sie können die Grundkenntnisse und die erweiterten Funktionen von Python während dieser Zeit nach und nach beherrschen.
Python und C haben jeweils ihre eigenen Vorteile, und die Wahl sollte auf Projektanforderungen beruhen. 1) Python ist aufgrund seiner prägnanten Syntax und der dynamischen Typisierung für die schnelle Entwicklung und Datenverarbeitung geeignet. 2) C ist aufgrund seiner statischen Tipp- und manuellen Speicherverwaltung für hohe Leistung und Systemprogrammierung geeignet.
PythonlistsarePartThestandardlibrary, whilearraysarenot.listarebuilt-in, vielseitig und UNDUSEDFORSPORINGECollections, während dieArrayRay-thearrayModulei und loses und loses und losesaluseduetolimitedFunctionality.
Python zeichnet sich in Automatisierung, Skript und Aufgabenverwaltung aus. 1) Automatisierung: Die Sicherungssicherung wird durch Standardbibliotheken wie OS und Shutil realisiert. 2) Skriptschreiben: Verwenden Sie die PSUTIL -Bibliothek, um die Systemressourcen zu überwachen. 3) Aufgabenverwaltung: Verwenden Sie die Zeitplanbibliothek, um Aufgaben zu planen. Die Benutzerfreundlichkeit von Python und die Unterstützung der reichhaltigen Bibliothek machen es zum bevorzugten Werkzeug in diesen Bereichen.
Zu den wichtigsten Anwendungen von Python in der Webentwicklung gehören die Verwendung von Django- und Flask -Frameworks, API -Entwicklung, Datenanalyse und Visualisierung, maschinelles Lernen und KI sowie Leistungsoptimierung. 1. Django und Flask Framework: Django eignet sich für die schnelle Entwicklung komplexer Anwendungen, und Flask eignet sich für kleine oder hochmobile Projekte. 2. API -Entwicklung: Verwenden Sie Flask oder Djangorestframework, um RESTFUFFUPI zu erstellen. 3. Datenanalyse und Visualisierung: Verwenden Sie Python, um Daten zu verarbeiten und über die Webschnittstelle anzuzeigen. 4. Maschinelles Lernen und KI: Python wird verwendet, um intelligente Webanwendungen zu erstellen. 5. Leistungsoptimierung: optimiert durch asynchrones Programmieren, Caching und Code