Heim Backend-Entwicklung Python-Tutorial Webscraping mit Python: CSV als Datenbank verwenden

Webscraping mit Python: CSV als Datenbank verwenden

Dec 30, 2024 am 09:09 AM

Webscraping com Python: usando CSV como base de dados

Ich hatte dieser Tage eine sehr interessante Nachfrage. Eine Person migrierte Daten mithilfe von CSV von einem Ort zum anderen. Bei den Daten handelt es sich um Buchanmeldungen für ein Leseprojekt. Irgendwann sagte sie zu mir: „Nun, jetzt ist der Rest der Arbeit für den Roboter.“ Ich muss mir die ISBN jedes Titels besorgen.“ Wie sie sagte, ist es die Aufgabe eines Roboters. Warum also nicht einen Roboter das tun lassen?

Sigla para International Standard Book Number. 
Nach dem Login kopieren

Ein Werk kann mehrere ISBNs haben, das liegt daran, dass die Editionen eine eigene ISBN haben. In diesem Fall würde jede ISBN funktionieren, sofern das Medium kompatibel ist. Folgendes wurde in der CSV registriert:
-> E-Book
-> körperlich
-> Audio

Kommen wir zur Logik:
-> Laden Sie die CSV-Datei hoch und öffnen Sie sie.
-> Extrahieren Sie die Spalte mit den Titeln.
-> Extrahieren Sie die Medienspalte.
-> Suchen Sie für jeden Titel bei Google nach der ISBN.
-> Extrahieren Sie den Titel aus der Seite.
-> Extrahieren Sie eine Liste der ISBNs.
-> Extrahieren Sie eine Medienliste.
-> Überprüfen Sie die Registrierungsmedien und suchen Sie nach der nächstgelegenen ISBN. Wenn unsere Kriterien nicht gefunden werden, geben Sie den ersten Eintrag in der Liste zurück.
-> Geben Sie zur späteren Überprüfung an, von welchem ​​Medium wir die ISBN übernommen haben.

Sehen wir uns die notwendigen Bibliotheken an:

import requests # para fazer as requisições
from bs4 import BeautifulSoup # para manipular o html recebido
import pandas as pd # para manipular os arquivos CSV
import time
import random # as duas são para gerarmos intervalos aleatórios de acesso
Nach dem Login kopieren

Diese Bücherliste umfasst mehr als 600 Einträge, und da ich nicht von Google blockiert werden möchte, werden wir wahllos und mit einem menschlicheren Raum darauf zugreifen. Außerdem verwenden wir eine Kopfzeile, um anzugeben, dass wir die Browserversion der Seite haben möchten. Gehen Sie dazu in Ihrem Browser auf „Netzwerk“ und suchen Sie nach „User-Agent“.

Für die Suche bei Google verwenden wir das folgende URL-Muster:

url_base = "https://www.google.com/search?q=isbn" # o que vem depois '=' é a pesquisa
Nach dem Login kopieren

Denken Sie daran, dass URLs keine Leerzeichen enthalten. Daher werden wir Leerzeichen in Titeln durch „ “ ersetzen. In Pandas werden „Tabellenkalkulationen“ als „DataFrame“ bezeichnet und es ist sehr üblich, df als Abkürzung zu verwenden. Schließlich verwenden Sie möglicherweise Windows wie ich. In diesem Fall sind die Systemadressleisten im Vergleich zu Unix investiert. Schreiben wir eine Funktion, die die von uns eingefügte URL in das andere Format umwandelt.

path = r"C:\caminho\livros.csv"

def invert_url_pattern(url):
    return url.replace("\","/")

path = invert_url_pattern(path)

def search_book(path):
    url_base = "https://www.google.com/search?q=isbn"
    headers = {
    "User-Agent":"seu pc"
    }
    
    df = pd.read_csv(path, encoding='utf-8')
    books = df["Name"].tolist()
    media = df["media"].tolist()
    # vamos colocar as pesquisas aqui e depois inserir todas no DataFrame
    title_books = []
    isbn_books = []
    media_books = []  

    for index, book in enumerate(books):
        time.sleep(random.uniform(60, 90))
        
        url = url_base + "+" + book.replace(" ", "+")
        req = requests.get(url, headers=headers)

        site = BeautifulSoup(req.text, "html.parser")
        #usamos as class para buscar o conteúdo
        title = site.find("span", class_="Wkr6U")
        isbns = site.find_all("div", class_="bVj5Zb")
        medias = site.find_all("div", class_="TCYkdd")
        #se algo falhar, retornamos uma string vazia
        if(title.text == None):
            title_books.append("")
            isbn_books.append("")
            media_books.append("")
            continue

        # No loop, o último item acessado será o mais recente, 
        # pois percorremos a lista de cima para baixo. 
        # Por isso, invertendo a lista de ISBNs, garantimos que 
        # o mais novo de cada categoria seja processado por último.

        isbns = isbns[::-1]
        unified_data = {}

        for i in range(len(medias)):
            unified_data[medias[i].text] = isbns[i].text

        match media[index]:
            case "ebook":
                isbn_books.append(unified_data["Livro digital"])
                media_books.append("Livro digital")
            case "fisical":
                isbn_books.append(unified_data["Livro capa dura"])
                media_books.append("Livro capa dura")
            case "audio":
                isbn_books.append(unified_data["Audiolivro"])
                media_books.append("Audiolivro")
            case _:
                isbn_books.append(unified_data[0])
                media_books.append("")

        title_books.append(title.text)

    df["Titulo do Livro"] = title_books
    df["ISBN"] = isbn_books
    df["Tipo de Livro"] = media_books

    return df
Nach dem Login kopieren

Okay, alles bereit für den Test! Ich hinterlasse eine Beispielzeile von dem, was ich erhalten habe, damit Sie es testen können.

Name language media
this other eden ?? english audio
df = search_book(path)

df.to_csv(invert_url_pattern("C:seu\caminho\para\salvar\nome_do_arquivo.csv"), encoding='utf-8', index=False)
Nach dem Login kopieren

Ich hoffe, es war nützlich für Sie und dass Sie etwas in Ihrem täglichen Leben automatisieren können!

Das obige ist der detaillierte Inhalt vonWebscraping mit Python: CSV als Datenbank verwenden. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Wie löste ich das Problem der Berechtigungen beim Betrachten der Python -Version in Linux Terminal? Wie löste ich das Problem der Berechtigungen beim Betrachten der Python -Version in Linux Terminal? Apr 01, 2025 pm 05:09 PM

Lösung für Erlaubnisprobleme beim Betrachten der Python -Version in Linux Terminal Wenn Sie versuchen, die Python -Version in Linux Terminal anzuzeigen, geben Sie Python ein ...

Wie kann man vom Browser vermeiden, wenn man überall Fiddler für das Lesen des Menschen in der Mitte verwendet? Wie kann man vom Browser vermeiden, wenn man überall Fiddler für das Lesen des Menschen in der Mitte verwendet? Apr 02, 2025 am 07:15 AM

Wie kann man nicht erkannt werden, wenn Sie Fiddlereverywhere für Man-in-the-Middle-Lesungen verwenden, wenn Sie FiddLereverywhere verwenden ...

Wie kann ich die gesamte Spalte eines Datenrahmens effizient in einen anderen Datenrahmen mit verschiedenen Strukturen in Python kopieren? Wie kann ich die gesamte Spalte eines Datenrahmens effizient in einen anderen Datenrahmen mit verschiedenen Strukturen in Python kopieren? Apr 01, 2025 pm 11:15 PM

Bei der Verwendung von Pythons Pandas -Bibliothek ist das Kopieren von ganzen Spalten zwischen zwei Datenrahmen mit unterschiedlichen Strukturen ein häufiges Problem. Angenommen, wir haben zwei Daten ...

Wie lehre ich innerhalb von 10 Stunden die Grundlagen für Computer-Anfänger-Programmierbasis in Projekt- und problemorientierten Methoden? Wie lehre ich innerhalb von 10 Stunden die Grundlagen für Computer-Anfänger-Programmierbasis in Projekt- und problemorientierten Methoden? Apr 02, 2025 am 07:18 AM

Wie lehre ich innerhalb von 10 Stunden die Grundlagen für Computer -Anfänger für Programmierungen? Wenn Sie nur 10 Stunden Zeit haben, um Computer -Anfänger zu unterrichten, was Sie mit Programmierkenntnissen unterrichten möchten, was würden Sie dann beibringen ...

Wie hört Uvicorn kontinuierlich auf HTTP -Anfragen ohne Serving_forver () an? Wie hört Uvicorn kontinuierlich auf HTTP -Anfragen ohne Serving_forver () an? Apr 01, 2025 pm 10:51 PM

Wie hört Uvicorn kontinuierlich auf HTTP -Anfragen an? Uvicorn ist ein leichter Webserver, der auf ASGI basiert. Eine seiner Kernfunktionen ist es, auf HTTP -Anfragen zu hören und weiterzumachen ...

Wie löste ich Berechtigungsprobleme bei der Verwendung von Python -Verssionsbefehl im Linux Terminal? Wie löste ich Berechtigungsprobleme bei der Verwendung von Python -Verssionsbefehl im Linux Terminal? Apr 02, 2025 am 06:36 AM

Verwenden Sie Python im Linux -Terminal ...

Wie bekomme ich Nachrichtendaten, die den Anti-Crawler-Mechanismus von Investing.com umgehen? Wie bekomme ich Nachrichtendaten, die den Anti-Crawler-Mechanismus von Investing.com umgehen? Apr 02, 2025 am 07:03 AM

Verständnis der Anti-Crawling-Strategie von Investing.com Viele Menschen versuchen oft, Nachrichten von Investing.com (https://cn.investing.com/news/latest-news) zu kriechen ...

See all articles