[Python-Tutorial] Algorithmus zum Extrahieren von Webseitentext und Inhaltsbildern

黄舟
Freigeben: 2017-02-07 16:16:56
Original
2585 Leute haben es durchsucht

Der reguläre Abgleich wird normalerweise beim Crawlen des Webinhalts einer einzelnen Website verwendet. Die Strukturen verschiedener Websites sind jedoch so seltsam, dass es schwierig ist, sie mit einem einheitlichen regulären Ausdruck abzugleichen. Der Autor von „General Web Page Text Extraction Algorithm Based on Line Block Distribution Function“ fasste die allgemeinen Methoden zum Extrahieren von Artikeltext aus Webseiten zusammen, schlug einen Textextraktionsalgorithmus basierend auf der Zeilenblockverteilung vor und stellte Implementierungen in PHP, Java usw. bereit. Die Hauptprinzipien dieses Algorithmus basieren auf zwei Punkten: 1. Textbereichsdichte: Nach dem Entfernen aller Tags in HTML ist die Zeichendichte im Textbereich höher und es gibt weniger Mehrfachzeilen mit Leerzeichen. 2. Zeilenblocklänge: die Der Inhalt in Nichttextbereichen ist durchschnittlich kürzer in einzelnen Beschriftungen (Zeilenblöcken). Die Algorithmusschritte lauten wie folgt:

1. Entfernen Sie alle Tags, einschließlich Stile, Js-Skriptinhalte usw., behalten Sie jedoch die ursprünglichen Zeilenumbrüche n bei

[Python-Tutorial] Algorithmus zum Extrahieren von Webseitentext und Inhaltsbildern

2. Der Inhalt der Webseite wird durch Zeilen unterteilt. Definieren Sie den Zeilenblock $block_i$ als Summe der Textzeilen $[i, i + blockSize]$ und geben Sie die Verteilungsfunktion der Zeilenblocklänge an die Zeilennummer:

[Python-Tutorial] Algorithmus zum Extrahieren von Webseitentext und Inhaltsbildern


3 Der Text erscheint im längsten Zeilenblock und der Bereich von beiden Seiten bis zur Zeilenblocklänge von 0 wird abgefangen:

[Python-Tutorial] Algorithmus zum Extrahieren von Webseitentext und Inhaltsbildern


4 Wenn Sie die im Textbereich angezeigten Bilder extrahieren müssen, müssen Sie sie nur behalten der Inhalt des [Python-Tutorial] Algorithmus zum Extrahieren von Webseitentext und Inhaltsbildern-Tags beim Entfernen des Tags im ersten Schritt:


[Python-Tutorial] Algorithmus zum Extrahieren von Webseitentext und Inhaltsbildern

Das Obige ist der Inhalt von [python Tutorial] Algorithmus zum Extrahieren von Webseitentext und Inhaltsbildern. Weitere verwandte Inhalte finden Sie auf der chinesischen PHP-Website (www.php.cn)!


Verwandte Etiketten:
Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage