[PYTHON-Tutorial] Artikelzusammenfassungen extrahieren

黄舟
Freigeben: 2017-02-07 16:11:18
Original
1738 Leute haben es durchsucht

Um den Artikelinhalt effektiver darzustellen und den Lesern eine gezieltere Leseauswahl zu ermöglichen, werden in der Artikelliste des Blogsystems in der Regel gleichzeitig Titel und Zusammenfassung des Artikels angegeben.

Der Inhalt eines Artikels kann im Nur-Text-Format vorliegen, aber heutzutage, mit der Popularität des Internets, liegt er eher im HTML-Format vor. Unabhängig vom Format stellt die Zusammenfassung im Allgemeinen den Inhalt am Anfang des Artikels dar und kann entsprechend der angegebenen Wortanzahl extrahiert werden.

Nur-Text-Zusammenfassung

Zuerst extrahieren wir die Nur-Text-Zusammenfassung. Das Nur-Text-Dokument ist eine lange Zeichenfolge und es ist einfach, seine Zusammenfassung zu extrahieren:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

"""Get a summary of the TEXT-format document"""

def get_summary(text, count):
u"""Get the first `count` characters from `text`

>>> text = u'Welcome 这是一篇关于Python的文章'
>>> get_summary(text, 12) == u'Welcome 这是一篇'
True
"""
assert(isinstance(text, unicode))
return text[0:count]

if __name__ == '__main__':
import doctest
doctest.testmod()
Nach dem Login kopieren

HTML-Zusammenfassung

HTML-Dokumente enthalten eine große Anzahl von Tags (wie

,

, usw.). Diese Zeichen sind Tag-Anweisungen und erscheinen normalerweise paarweise. Durch einfaches Abfangen von Text wird die Dokumentstruktur von HTML zerstört, was dazu führt, dass die Zusammenfassung im Browser nicht ordnungsgemäß angezeigt wird.

Um den Inhalt abzufangen und dabei der Struktur des HTML-Dokuments zu folgen, müssen Sie das HTML-Dokument analysieren. In Python kann dies mit Hilfe der Standardbibliothek HTMLParser erfolgen.

Eine der einfachsten Snippet-Extraktionsfunktionen besteht darin, HTML-Tags zu ignorieren und nur den nativen Text innerhalb der Tags zu extrahieren. Das Folgende ist eine Python-Implementierung, die dieser Funktion ähnelt:

Das Obige ist der Inhalt des [PYTHON-Tutorials] zum Extrahieren von Artikelzusammenfassungen. Weitere verwandte Inhalte finden Sie auf der chinesischen PHP-Website (www.php.org). .php.cn)!


Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage