使用 Python 进行网页抓取：使用 CSV 作为数据库-Python教程-PHP中文网

首页

后端开发

Python教程

使用 Python 进行网页抓取：使用 CSV 作为数据库

Mary-Kate Olsen

Dec 30, 2024 am 09:09 AM

Webscraping com Python: usando CSV como base de dados

这几天我有一个很有趣的需求。有人使用 CSV 将数据从一个地方迁移到另一个地方。这些数据是阅读项目的图书注册。有一次，她对我说：“好吧，现在剩下的工作就是机器人了。我必须得到每本书的 ISBN。”正如她所说，这是机器人的工作，那为什么不让机器人来做呢？

Sigla para International Standard Book Number.

登录后复制

一部作品可以有多个 ISBN，发生这种情况是因为各个版本都有自己的 ISBN。在这种情况下，只要媒体兼容，任何 ISBN 都可以使用。以下内容已在 CSV 中注册：
->电子书
->物理
->音频

让我们来谈谈逻辑：
->上传并打开 CSV 文件。
->提取带有标题的列。
->提取媒体列。
->对于每个标题，请通过 ISBN 在 Google 上搜索。
->从页面中提取标题。
->提取 ISBN 列表。
->提取媒体列表。
->检查注册媒体并搜索最近的 ISBN。如果未找到我们的条件，请返回列表中的第一项。
->告知我们从哪个媒体获取了 ISBN，以便稍后验证。

让我们看看必要的库：

import requests # para fazer as requisições
from bs4 import BeautifulSoup # para manipular o html recebido
import pandas as pd # para manipular os arquivos CSV
import time
import random # as duas são para gerarmos intervalos aleatórios de acesso

登录后复制

这个书单有超过600个项目，由于我不想被Google屏蔽，所以我们将进行随机访问并提供更人性化的空间。我们还将使用标头来表明我们需要该页面的浏览器版本。为此，请在浏览器中转到“网络”并搜索“用户代理”。

要在 Google 上搜索，我们使用以下 URL 模式：

url_base = "https://www.google.com/search?q=isbn" # o que vem depois '=' é a pesquisa

登录后复制

请记住，URL 中没有空格，因此我们将标题中的空格替换为“ ”。在 pandas 中，“电子表格”被称为 DataFrame，并且很常见使用 df 作为缩写。最后，也许你和我一样使用的是 Windows，在这种情况下，系统地址栏是相对于 Unix 而言的。让我们编写一个函数，获取我们粘贴的 URL 并将其反转为其他格式。

path = r"C:\caminho\livros.csv"

def invert_url_pattern(url):
    return url.replace("\","/")

path = invert_url_pattern(path)

def search_book(path):
    url_base = "https://www.google.com/search?q=isbn"
    headers = {
    "User-Agent":"seu pc"
    }
    
    df = pd.read_csv(path, encoding='utf-8')
    books = df["Name"].tolist()
    media = df["media"].tolist()
    # vamos colocar as pesquisas aqui e depois inserir todas no DataFrame
    title_books = []
    isbn_books = []
    media_books = []  

    for index, book in enumerate(books):
        time.sleep(random.uniform(60, 90))
        
        url = url_base + "+" + book.replace(" ", "+")
        req = requests.get(url, headers=headers)

        site = BeautifulSoup(req.text, "html.parser")
        #usamos as class para buscar o conteúdo
        title = site.find("span", class_="Wkr6U")
        isbns = site.find_all("div", class_="bVj5Zb")
        medias = site.find_all("div", class_="TCYkdd")
        #se algo falhar, retornamos uma string vazia
        if(title.text == None):
            title_books.append("")
            isbn_books.append("")
            media_books.append("")
            continue

        # No loop, o último item acessado será o mais recente, 
        # pois percorremos a lista de cima para baixo. 
        # Por isso, invertendo a lista de ISBNs, garantimos que 
        # o mais novo de cada categoria seja processado por último.

        isbns = isbns[::-1]
        unified_data = {}

        for i in range(len(medias)):
            unified_data[medias[i].text] = isbns[i].text

        match media[index]:
            case "ebook":
                isbn_books.append(unified_data["Livro digital"])
                media_books.append("Livro digital")
            case "fisical":
                isbn_books.append(unified_data["Livro capa dura"])
                media_books.append("Livro capa dura")
            case "audio":
                isbn_books.append(unified_data["Audiolivro"])
                media_books.append("Audiolivro")
            case _:
                isbn_books.append(unified_data[0])
                media_books.append("")

        title_books.append(title.text)

    df["Titulo do Livro"] = title_books
    df["ISBN"] = isbn_books
    df["Tipo de Livro"] = media_books

    return df

登录后复制

好的，一切准备就绪，就等我们测试了！我将留下我收到的示例行，以便您可以测试它。

Name	language	media
this other eden	?? english	audio

df = search_book(path)

df.to_csv(invert_url_pattern("C:seu\caminho\para\salvar\nome_do_arquivo.csv"), encoding='utf-8', index=False)

登录后复制

我希望它对您有用，并且您可以在日常生活中实现一些自动化！

以上是使用 Python 进行网页抓取：使用 CSV 作为数据库的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

gmail邮箱登陆入口在哪里

7884

Java教程

1649

CakePHP 教程

1410

Laravel 教程

1301

PHP教程

1245

显示更多

Related knowledge

如何解决Linux终端中查看Python版本时遇到的权限问题？ Apr 01, 2025 pm 05:09 PM

Linux终端中查看Python版本时遇到权限问题的解决方法当你在Linux终端中尝试查看Python的版本时，输入python...

如何在使用 Fiddler Everywhere 进行中间人读取时避免被浏览器检测到？ Apr 02, 2025 am 07:15 AM

使用FiddlerEverywhere进行中间人读取时如何避免被检测到当你使用FiddlerEverywhere...

在Python中如何高效地将一个DataFrame的整列复制到另一个结构不同的DataFrame中？ Apr 01, 2025 pm 11:15 PM

在使用Python的pandas库时，如何在两个结构不同的DataFrame之间进行整列复制是一个常见的问题。假设我们有两个Dat...

Uvicorn是如何在没有serve_forever()的情况下持续监听HTTP请求的？ Apr 01, 2025 pm 10:51 PM

Uvicorn是如何持续监听HTTP请求的？Uvicorn是一个基于ASGI的轻量级Web服务器，其核心功能之一便是监听HTTP请求并进�...

FastAPI中如何处理逗号分隔的列表查询参数？ Apr 02, 2025 am 06:51 AM

在Linux终端中使用python --version命令时如何解决权限问题？ Apr 02, 2025 am 06:36 AM

Linux终端中使用python...

如何在10小时内通过项目和问题驱动的方式教计算机小白编程基础？ Apr 02, 2025 am 07:18 AM

如何在10小时内教计算机小白编程基础？如果你只有10个小时来教计算机小白一些编程知识，你会选择教些什么�...

如何绕过Investing.com的反爬虫机制获取新闻数据？ Apr 02, 2025 am 07:03 AM

攻克Investing.com的反爬虫策略许多人尝试爬取Investing.com（https://cn.investing.com/news/latest-news）的新闻数据时，常常�...

See all articles

使用 Python 进行网页抓取：使用 CSV 作为数据库

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题