首页 > 后端开发 > Python教程 > 在 Python 中从 HTML 内容中提取文本:使用'HTMLParser”的简单解决方案

在 Python 中从 HTML 内容中提取文本:使用'HTMLParser”的简单解决方案

Patricia Arquette
发布: 2024-12-10 11:04:16
原创
785 人浏览过

Extracting Text from HTML Content in Python: A Simple Solution with `HTMLParser`

介绍

在处理 HTML 数据时,您经常需要清理标签并仅保留纯文本。无论是用于数据分析、自动化,还是只是使内容可读,此任务对于开发人员来说都很常见。

在本文中,我将向您展示如何创建一个简单的 Python 类,以使用内置 Python 模块 HTMLParser 从 HTML 中提取纯文本。


为什么使用 HTMLParser?

HTMLParser 是一个轻量级的内置 Python 模块,可让您解析和操作 HTML 文档。与 BeautifulSoup 等外部库不同,它是轻量级的,非常适合 HTML 标签清理等简单任务。


解决方案:一个简单的 Python 类

第 1 步:创建 HTMLTextExtractor 类

from html.parser import HTMLParser

class HTMLTextExtractor(HTMLParser):
    """Class for extracting plain text from HTML content."""

    def __init__(self):
        super().__init__()
        self.text = []

    def handle_data(self, data):
        self.text.append(data.strip())

    def get_text(self):
        return ''.join(self.text)
登录后复制

这个类主要做了三件事:

  1. 初始化列表 self.text 以存储提取的文本。
  2. 使用handle_data方法捕获HTML标签之间的所有纯文本。
  3. 使用 get_text 方法组合所有文本片段。

第 2 步:使用该类提取文本

以下是如何使用该类来清理 HTML:

raw_description = """
<div>
    <h1>Welcome to our website!</h1>
    <p>We offer <strong>exceptional services</strong> for our customers.</p>
    <p>Contact us at: <a href="mailto:contact@example.com">contact@example.com</a></p>
</div>
"""

extractor = HTMLTextExtractor()
extractor.feed(raw_description)
description = extractor.get_text()

print(description)
登录后复制

输出:

Welcome to our website! We offer exceptional services for our customers.Contact us at: contact@example.com
登录后复制

添加对属性的支持

如果您想捕获其他信息,例如标签中的链接,这里是该类的增强版本:

class HTMLTextExtractor(HTMLParser):
    """Class for extracting plain text and links from HTML content."""

    def __init__(self):
        super().__init__()
        self.text = []

    def handle_data(self, data):
        self.text.append(data.strip())

    def handle_starttag(self, tag, attrs):
        if tag == 'a':
            for attr, value in attrs:
                if attr == 'href':
                    self.text.append(f" (link: {value})")

    def get_text(self):
        return ''.join(self.text)
登录后复制

增强输出:

Welcome to our website!We offer exceptional services for our customers.Contact us at: contact@example.com (link: mailto:contact@example.com)
登录后复制

## Use Cases

- **SEO**: Clean HTML tags to analyze the plain text content of a webpage.
- **Emails**: Transform HTML emails into plain text for basic email clients.
- **Scraping**: Extract important data from web pages for analysis or storage.
- **Automated Reports**: Simplify API responses containing HTML into readable text.
登录后复制

这种方法的优点

  • 轻量级:不需要外部库;它基于 Python 的原生 HTMLParser 构建。
  • 易于使用:将逻辑封装在一个简单且可重用的类中。
  • 可定制:轻松扩展功能以捕获属性或附加标签数据等特定信息。

## Limitations and Alternatives

While `HTMLParser` is simple and efficient, it has some limitations:

- **Complex HTML**: It may struggle with very complex or poorly formatted HTML documents.
- **Limited Features**: It doesn't provide advanced parsing features like CSS selectors or DOM tree manipulation.

### Alternatives

If you need more robust features, consider using these libraries:

- **BeautifulSoup**: Excellent for complex HTML parsing and manipulation.
- **lxml**: Known for its speed and support for both XML and HTML parsing.
登录后复制

结论

使用此解决方案,您只需几行代码即可轻松从 HTML 中提取纯文本。无论您是在处理个人项目还是专业任务,这种方法都非常适合轻量级 HTML 清理和分析。

如果您的用例涉及更复杂或格式错误的 HTML,请考虑使用 BeautifulSouplxml 等库来增强功能。

请随意在您的项目中尝试此代码并分享您的经验。快乐编码! ?

以上是在 Python 中从 HTML 内容中提取文本:使用'HTMLParser”的简单解决方案的详细内容。更多信息请关注PHP中文网其他相关文章!

来源:dev.to
本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
作者最新文章
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板