[Tutoriel PYTHON] Extraire les résumés d'articles

黄舟
Libérer: 2017-02-07 16:11:18
original
1734 Les gens l'ont consulté

Dans la liste d'articles du système de blog, afin de présenter le contenu de l'article plus efficacement et de permettre aux lecteurs de choisir de lire de manière plus ciblée, le titre et le résumé de l'article sont généralement fournis en même temps.

Le contenu d'un article peut être au format texte brut, mais de nos jours avec la popularité d'Internet, il est davantage au format HTML. Quel que soit le format, le résumé constitue généralement le contenu du début de l'article et peut être extrait en fonction du nombre de mots spécifié.

Résumé en texte brut

Nous extrayons d'abord le résumé en texte brut. Le document en texte brut est une longue chaîne, et il est facile d'extraire son résumé :

#!/usr/bin/env python
# -*- coding: utf-8 -*-

"""Get a summary of the TEXT-format document"""

def get_summary(text, count):
u"""Get the first `count` characters from `text`

>>> text = u'Welcome 这是一篇关于Python的文章'
>>> get_summary(text, 12) == u'Welcome 这是一篇'
True
"""
assert(isinstance(text, unicode))
return text[0:count]

if __name__ == '__main__':
import doctest
doctest.testmod()
Copier après la connexion

Résumé HTML

Les documents HTML contiennent un grand nombre de balises (telles que

,

, , etc.). Ces caractères sont des instructions de balise et apparaissent généralement par paires. une simple interception de texte détruira la structure du document HTML, provoquant un affichage inapproprié du résumé dans le navigateur.

Afin d'intercepter le contenu tout en suivant la structure du document HTML, vous devez analyser le document HTML. En Python, cela peut être fait à l'aide de la bibliothèque standard HTMLParser.

L'une des fonctions d'extraction d'extraits de code les plus simples consiste à ignorer les balises HTML et à extraire uniquement le texte natif à l'intérieur des balises. Ce qui suit est une implémentation Python similaire à cette fonction :

Ce qui précède est le contenu du [tutoriel PYTHON] pour extraire des résumés d'articles. Pour plus de contenu connexe, veuillez faire attention au site Web PHP chinois (www. .php.cn) !


source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal