在 Python 中从 HTML 内容中提取文本：使用'HTMLParser”的简单解决方案-Python教程-PHP中文网

首页

后端开发

Python教程

在 Python 中从 HTML 内容中提取文本：使用'HTMLParser”的简单解决方案

Patricia Arquette

Dec 10, 2024 am 11:04 AM

Extracting Text from HTML Content in Python: A Simple Solution with `HTMLParser`

介绍

在处理 HTML 数据时，您经常需要清理标签并仅保留纯文本。无论是用于数据分析、自动化，还是只是使内容可读，此任务对于开发人员来说都很常见。

在本文中，我将向您展示如何创建一个简单的 Python 类，以使用内置 Python 模块 HTMLParser 从 HTML 中提取纯文本。

为什么使用 HTMLParser？

HTMLParser 是一个轻量级的内置 Python 模块，可让您解析和操作 HTML 文档。与 BeautifulSoup 等外部库不同，它是轻量级的，非常适合 HTML 标签清理等简单任务。

解决方案：一个简单的 Python 类

第 1 步：创建 HTMLTextExtractor 类

from html.parser import HTMLParser

class HTMLTextExtractor(HTMLParser):
    """Class for extracting plain text from HTML content."""

    def __init__(self):
        super().__init__()
        self.text = []

    def handle_data(self, data):
        self.text.append(data.strip())

    def get_text(self):
        return ''.join(self.text)

登录后复制

这个类主要做了三件事：

初始化列表 self.text 以存储提取的文本。
使用handle_data方法捕获HTML标签之间的所有纯文本。
使用 get_text 方法组合所有文本片段。

第 2 步：使用该类提取文本

以下是如何使用该类来清理 HTML：

raw_description = """
<div>
    <h1>Welcome to our website!</h1>
    <p>We offer <strong>exceptional services</strong> for our customers.</p>
    <p>Contact us at: <a href="mailto:contact@example.com">contact@example.com</a></p>
</div>
"""

extractor = HTMLTextExtractor()
extractor.feed(raw_description)
description = extractor.get_text()

print(description)

登录后复制

输出：

Welcome to our website! We offer exceptional services for our customers.Contact us at: contact@example.com

登录后复制

添加对属性的支持

如果您想捕获其他信息，例如标签中的链接，这里是该类的增强版本：

class HTMLTextExtractor(HTMLParser):
    """Class for extracting plain text and links from HTML content."""

    def __init__(self):
        super().__init__()
        self.text = []

    def handle_data(self, data):
        self.text.append(data.strip())

    def handle_starttag(self, tag, attrs):
        if tag == 'a':
            for attr, value in attrs:
                if attr == 'href':
                    self.text.append(f" (link: {value})")

    def get_text(self):
        return ''.join(self.text)

登录后复制

增强输出：

Welcome to our website!We offer exceptional services for our customers.Contact us at: contact@example.com (link: mailto:contact@example.com)

登录后复制

## Use Cases

- **SEO**: Clean HTML tags to analyze the plain text content of a webpage.
- **Emails**: Transform HTML emails into plain text for basic email clients.
- **Scraping**: Extract important data from web pages for analysis or storage.
- **Automated Reports**: Simplify API responses containing HTML into readable text.

登录后复制

这种方法的优点

轻量级：不需要外部库；它基于 Python 的原生 HTMLParser 构建。
易于使用：将逻辑封装在一个简单且可重用的类中。
可定制：轻松扩展功能以捕获属性或附加标签数据等特定信息。

## Limitations and Alternatives

While `HTMLParser` is simple and efficient, it has some limitations:

- **Complex HTML**: It may struggle with very complex or poorly formatted HTML documents.
- **Limited Features**: It doesn't provide advanced parsing features like CSS selectors or DOM tree manipulation.

### Alternatives

If you need more robust features, consider using these libraries:

- **BeautifulSoup**: Excellent for complex HTML parsing and manipulation.
- **lxml**: Known for its speed and support for both XML and HTML parsing.

登录后复制

结论

使用此解决方案，您只需几行代码即可轻松从 HTML 中提取纯文本。无论您是在处理个人项目还是专业任务，这种方法都非常适合轻量级 HTML 清理和分析。

如果您的用例涉及更复杂或格式错误的 HTML，请考虑使用 BeautifulSoup 或 lxml 等库来增强功能。

请随意在您的项目中尝试此代码并分享您的经验。快乐编码！？

以上是在 Python 中从 HTML 内容中提取文本：使用'HTMLParser”的简单解决方案的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

Java教程

1671

CakePHP 教程

1428

Laravel 教程

1331

PHP教程

1276

C# 教程

1256

显示更多

Related knowledge

Python与C：学习曲线和易用性 Apr 19, 2025 am 12:20 AM

Python更易学且易用，C 则更强大但复杂。1.Python语法简洁，适合初学者，动态类型和自动内存管理使其易用，但可能导致运行时错误。2.C 提供低级控制和高级特性，适合高性能应用，但学习门槛高，需手动管理内存和类型安全。

Python和时间：充分利用您的学习时间 Apr 14, 2025 am 12:02 AM

要在有限的时间内最大化学习Python的效率，可以使用Python的datetime、time和schedule模块。1.datetime模块用于记录和规划学习时间。2.time模块帮助设置学习和休息时间。3.schedule模块自动化安排每周学习任务。

Python vs.C：探索性能和效率 Apr 18, 2025 am 12:20 AM

Python在开发效率上优于C ，但C 在执行性能上更高。1.Python的简洁语法和丰富库提高开发效率。2.C 的编译型特性和硬件控制提升执行性能。选择时需根据项目需求权衡开发速度与执行效率。

学习Python：2小时的每日学习是否足够？ Apr 18, 2025 am 12:22 AM

每天学习Python两个小时是否足够？这取决于你的目标和学习方法。1)制定清晰的学习计划，2)选择合适的学习资源和方法，3)动手实践和复习巩固，可以在这段时间内逐步掌握Python的基本知识和高级功能。

Python vs. C：了解关键差异 Apr 21, 2025 am 12:18 AM

Python和C 各有优势，选择应基于项目需求。1)Python适合快速开发和数据处理，因其简洁语法和动态类型。2)C 适用于高性能和系统编程，因其静态类型和手动内存管理。

Python标准库的哪一部分是：列表或数组？ Apr 27, 2025 am 12:03 AM

pythonlistsarepartofthestAndArdLibrary，herilearRaysarenot.listsarebuilt-In，多功能，和Rused ForStoringCollections，而EasaraySaraySaraySaraysaraySaraySaraysaraySaraysarrayModuleandleandleandlesscommonlyusedDduetolimitedFunctionalityFunctionalityFunctionality。

Python：自动化，脚本和任务管理 Apr 16, 2025 am 12:14 AM

Python在自动化、脚本编写和任务管理中表现出色。1)自动化：通过标准库如os、shutil实现文件备份。2)脚本编写：使用psutil库监控系统资源。3)任务管理：利用schedule库调度任务。Python的易用性和丰富库支持使其在这些领域中成为首选工具。

科学计算的Python：详细的外观 Apr 19, 2025 am 12:15 AM

Python在科学计算中的应用包括数据分析、机器学习、数值模拟和可视化。1.Numpy提供高效的多维数组和数学函数。2.SciPy扩展Numpy功能，提供优化和线性代数工具。3.Pandas用于数据处理和分析。4.Matplotlib用于生成各种图表和可视化结果。

See all articles

在 Python 中从 HTML 内容中提取文本：使用'HTMLParser”的简单解决方案

介绍

为什么使用 HTMLParser？

解决方案：一个简单的 Python 类

第 1 步：创建 HTMLTextExtractor 类

这个类主要做了三件事：

第 2 步：使用该类提取文本

添加对属性的支持

这种方法的优点

结论

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题