首页 后端开发 Python教程 【PYTHON教程】提取文章摘要

【PYTHON教程】提取文章摘要

Feb 07, 2017 pm 04:11 PM
python

在博客系统的文章列表中,为了更有效地呈现文章内容,从而让读者更有针对性地选择阅读,通常会同时提供文章的标题和摘要。

一篇文章的内容可以是纯文本格式的,但在网络盛行的当今,更多是HTML格式的。无论是哪种格式,摘要一般都是文章开头部分的内容,可以按照指定的字数来提取。

纯文本摘要

首先我们对纯文本摘要进行提取,纯文本文档就是一个长字符串,很容易实现对它的摘要提取:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

"""Get a summary of the TEXT-format document"""

def get_summary(text, count):
u"""Get the first `count` characters from `text`

>>> text = u'Welcome 这是一篇关于Python的文章'
>>> get_summary(text, 12) == u'Welcome 这是一篇'
True
"""
assert(isinstance(text, unicode))
return text[0:count]

if __name__ == '__main__':
import doctest
doctest.testmod()
登录后复制

HTML摘要

HTML文档中包含大量标记符(如

等等),这些字符都是标记指令,并且通常是成对出现的,简单的文本截取会破坏HTML的文档结构,进而导致摘要在浏览器中显示不当。

在遵循HTML文档结构的同时,又要对内容进行截取,就需要解析HTML文档。在Python中,可以借助标准库HTMLParser来完成。

一个最简单的摘要提取功能,是忽略HTML标记符而只提取标记内部的原生文本。以下就是类似该功能的Python实现:

以上就是【PYTHON教程】提取文章摘要的内容,更多相关内容请关注PHP中文网(www.php.cn)!


本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

2小时的Python计划:一种现实的方法 2小时的Python计划:一种现实的方法 Apr 11, 2025 am 12:04 AM

2小时内可以学会Python的基本编程概念和技能。1.学习变量和数据类型,2.掌握控制流(条件语句和循环),3.理解函数的定义和使用,4.通过简单示例和代码片段快速上手Python编程。

redis怎么读取队列 redis怎么读取队列 Apr 10, 2025 pm 10:12 PM

要从 Redis 读取队列,需要获取队列名称、使用 LPOP 命令读取元素,并处理空队列。具体步骤如下:获取队列名称:以 "queue:" 前缀命名,如 "queue:my-queue"。使用 LPOP 命令:从队列头部弹出元素并返回其值,如 LPOP queue:my-queue。处理空队列:如果队列为空,LPOP 返回 nil,可先检查队列是否存在再读取元素。

redis怎么启动服务器 redis怎么启动服务器 Apr 10, 2025 pm 08:12 PM

启动 Redis 服务器的步骤包括:根据操作系统安装 Redis。通过 redis-server(Linux/macOS)或 redis-server.exe(Windows)启动 Redis 服务。使用 redis-cli ping(Linux/macOS)或 redis-cli.exe ping(Windows)命令检查服务状态。使用 Redis 客户端,如 redis-cli、Python 或 Node.js,访问服务器。

如何根据业务需求设置Redis内存大小? 如何根据业务需求设置Redis内存大小? Apr 10, 2025 pm 02:18 PM

Redis 内存大小设置需要考虑以下因素:数据量及增长趋势:估算存储数据的大小和增长率。数据类型:不同类型(如列表、哈希)占用内存不同。缓存策略:全缓存、部分缓存和淘汰策略会影响内存使用。业务峰值:预留足够内存应对流量高峰。

Python vs.C:申请和用例 Python vs.C:申请和用例 Apr 12, 2025 am 12:01 AM

Python适合数据科学、Web开发和自动化任务,而C 适用于系统编程、游戏开发和嵌入式系统。 Python以简洁和强大的生态系统着称,C 则以高性能和底层控制能力闻名。

Redis内存配置参数有哪些? Redis内存配置参数有哪些? Apr 10, 2025 pm 02:03 PM

**Redis内存配置的核心参数是 maxmemory,它限制 Redis 可使用内存量。当超过此限制时,Redis 根据 maxmemory-policy 执行淘汰策略,有:noeviction(直接拒绝写入)、allkeys-lru/volatile-lru(按LRU淘汰)、allkeys-random/volatile-random(随机淘汰)、volatile-ttl(按过期时间淘汰)。其他相关参数包括 maxmemory-samples(LRU采样数量)、rdb-compression

Redis持久化对内存的影响是什么? Redis持久化对内存的影响是什么? Apr 10, 2025 pm 02:15 PM

Redis持久化会额外占用内存,RDB在生成快照时临时增加内存占用,AOF在追加日志时持续占用内存。影响因素包括数据量、持久化策略和Redis配置。要减轻影响,可合理配置RDB快照策略、优化AOF配置、升级硬件和监控内存使用情况。此外,在性能和数据安全之间寻求平衡至关重要。

redis怎么读出数据 redis怎么读出数据 Apr 10, 2025 pm 07:30 PM

要从 Redis 中读取数据,可按以下步骤执行:1. 连接到 Redis 服务器;2. 使用 get(key) 获取键的值;3. 若需字符串值,解码二进制值;4. 使用 exists(key) 检查键是否存在;5. 使用 mget(keys) 获取多个值;6. 使用 type(key) 获取数据类型;7. Redis 还有其他读取命令,例如:获取匹配模式的所有键、使用游标迭代键和对键的值进行排序。

See all articles