Der reguläre Abgleich wird normalerweise beim Crawlen des Webinhalts einer einzelnen Website verwendet. Die Strukturen verschiedener Websites sind jedoch so seltsam, dass es schwierig ist, sie mit einem einheitlichen regulären Ausdruck abzugleichen. Der Autor von „General Web Page Text Extraction Algorithm Based on Line Block Distribution Function“ fasste die allgemeinen Methoden zum Extrahieren von Artikeltext aus Webseiten zusammen, schlug einen Textextraktionsalgorithmus basierend auf der Zeilenblockverteilung vor und stellte Implementierungen in PHP, Java usw. bereit. Die Hauptprinzipien dieses Algorithmus basieren auf zwei Punkten: 1. Textbereichsdichte: Nach dem Entfernen aller Tags in HTML ist die Zeichendichte im Textbereich höher und es gibt weniger Mehrfachzeilen mit Leerzeichen. 2. Zeilenblocklänge: die Inhalte in Nichttextbereichen sind durchschnittlich kürzer in einzelnen Beschriftungen (Zeilenblöcken). Die Algorithmusschritte sind wie folgt: 1. Entfernen Sie alle Tags, einschließlich Stile, Js-Skriptinhalt usw., behalten Sie jedoch die ursprünglichen Zeilenumbrüche bei. n2 Teilen Sie den Webseiteninhalt nach Zeilen auf und definieren Sie den Zeilenblock $block_i$ als ersten $[i, i + blockSize] $ Die Summe der Textzeilen und gibt die Verteilungsfunktion der Zeilenblocklänge basierend auf der Zeilennummer an: 3. Der Text erscheint im längsten Zeilenblock, schneidet den Bereich von beiden Seiten bis zum ab Zeilenblocklänge von 0: 4. Wenn Sie die im Textbereich angezeigten Bilder extrahieren müssen, müssen Sie im ersten Schritt des Entfernens des Tags 1 nur beibehalten. [Python-Tutorial] Algorithmus zum Extrahieren von Webseitentext und Inhaltsbildern Einführung: Regelmäßiger Abgleich ist Wird normalerweise beim Crawlen des Webinhalts einer einzelnen Website verwendet. Die Strukturen verschiedener Websites sind jedoch so seltsam, dass es schwierig ist, einheitliche reguläre Ausdrücke zu verwenden. Der Autor von „General Web Page Text Extraction Algorithm Based on Line Block Distribution Function“ fasste die allgemeinen Methoden zum Extrahieren von Artikeltext aus Webseiten zusammen, schlug einen Textextraktionsalgorithmus basierend auf der Zeilenblockverteilung vor und stellte Implementierungen in PHP, Java usw. bereit. Das Hauptprinzip dieses Algorithmus basiert auf zwei Punkten: 2. Wo ist der Webseiten-Snapshot? PHP generiert Webseiten-Snapshots ohne COM oder Erweiterungen Einführung: Wo ist der Webseiten-Snapshot: Wo ist der Webseiten-Snapshot? PHP generiert Webseiten-Snapshots ohne COM oder Erweiterungen: Der Code zum Kopieren lautet wie folgt: 3. PHP100 Essenz: PHP generiert Webseiten-Snapshot_PHP-Tutorial 4. Laden Sie das Bild hoch, das Datenbankinhaltsbild hat kein Suffix. Einführung: Bilder hochladen, Datenbankinhaltsbilder ohne Suffix. 5. Einführung: Methode zur Miniaturansicht des phpcms-Artikelinhalts
Ändern Sie in /phpcms/modules/content/index.php
Die Methode besteht darin, die IMG-Bildadresse abzugleichen, mit dem Daumen zu zoomen, zu ersetzen und anzuzeigen.
?
?
Ändern Sie in der Methode show() $content
?
content = preg_replace('/]*src=['"]?([^ 6. Einführung: phpcms-Artikelinhaltsbild-Miniaturansichtsmethode Die Änderungsmethode in /phpcms/modules/content/index.php besteht darin, die IMG-Bildadresse abzugleichen und den Daumen zum Zoomen und Ersetzen zu verwenden ??Ändern Sie in der show()-Methode $content?content = preg_replace('/]*src=['"]?([^>'" 7. Einführung: PHP100 Essence: PHP generiert Webseiten-Snapshots?php $ url = www. .baidu.com; // Baidu echo snapshot($url); //Das Ausgabeergebnis ist die Bildadresse echo snapshot($url, ./baidu.png); .png und geben Sie das Inhaltsbild aus 8. Einführung: Ich denke, dass viele Webmaster wissen, dass der Editor fck ein Online-Dokumenteditor ist. Die hochgeladenen Bilder werden nicht in der Datenbank gespeichert, daher müssen wir einen Weg finden, sie zu regulieren der Code für ein reguläres fck-Eingabebildfeld. 9. php Artikelinhalt extrahieren Bildadresse regulärer Ausdruck Einführung: ec(2);
Der Code lautet wie folgt
Code kopieren
10 PHP sammelt Remote-Bilder im lokalen Implementierungscode Einführung: Zum Speichern in PHP Um Remote-Bilder auf den lokalen Server zu übertragen, müssen wir zuerst das Inhaltsbild in der Zeichenfolge regulieren und dann verwandte Funktionen verwenden, um das Bild zu lesen und auf der lokalen Festplatte zu speichern. [Verwandte Q&A-Empfehlungen]: Das obige ist der detaillierte Inhalt von10 empfohlene Artikel über Content-Bilder. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!