Thinkphp5 und QueryList implementieren die Seitensammlungsfunktion (Crawler).-Denken Sie an PHP-php.cn

Heim

PHP-Framework

Denken Sie an PHP

Thinkphp5 und QueryList implementieren die Seitensammlungsfunktion (Crawler).

藏色散人

Jan 28, 2020 pm 01:57 PM

querylist thinkphp5

Was ist QueryList?

QueryList ist eine Reihe von PHP-Tools für die Inhaltserfassung, die eine modernere Methode verwenden Entwicklungsideen, einfache und elegante Syntax und starke Skalierbarkeit. Im Vergleich zur herkömmlichen Verwendung obskurer regulärer Ausdrücke für die Sammlung verwendet QueryList einen leistungsfähigeren und eleganteren CSS-Selektor für die Sammlung, wodurch der Schwellenwert für die PHP-Sammlung erheblich gesenkt wird und der Sammlungscode außerdem einfacher zu lesen und zu warten ist, sodass Sie sich davon verabschieden können zu undurchsichtigen und schwer zu wartenden regulären Ausdrücken.

Ein vollständiger Satz von Content-Collection-Lösungen, bereitgestellt von QueryList

● DOM-Inhaltsauswahl: CSS-Selektor

● HTTP-Client Terminal: GuzzleHTTP

● Inhaltsfilterung: CSS-Selektor

● Verstümmelte Zeichen lösen: Integrierte Lösungen für mehrere verstümmelte Codes

● Zusätzliche Funktionen: Umfangreiche Erweiterungs-Plug-Ins

Voraussetzungen

Das Projekt verwendet hauptsächlich das thinkphp5-Framework und verwendet hauptsächlich die beiden Dateien „QueryList.php“ und „phpQuery.php“. Wir können in das Projektverzeichnis wechseln, in „extend“ eine neue QL erstellen und dann den Composer-Befehl im QL-Verzeichnis ausführen, um QueryList:

composer require jaeger/querylist

Nach dem Login kopieren

zu installieren, und dann „use QLQueryList“ zum Controller hinzufügen, der verwendet werden muss. Schreiben Sie dann den Code in den Controller. Okay, das Folgende ist ein Beispiel

//需要采集的目标页面
$page = &#39;http://cms.querylist.cc/news/566.html&#39;;
//采集规则
$reg = array(
   //采集文章标题
   &#39;title&#39; => array(&#39;h1&#39;,&#39;text&#39;),
   //采集文章发布日期,这里用到了QueryList的过滤功能，过滤掉span标签和a标签
   &#39;date&#39; => array(&#39;.pt_info&#39;,&#39;text&#39;,&#39;-span -a&#39;,function($content){
       //用回调函数进一步过滤出日期
       $arr = explode(&#39; &#39;,$content);
       return $arr[0];
   }),
   //采集文章正文内容,利用过滤功能去掉文章中的超链接，但保留超链接的文字，并去掉版权、JS代码等无用信息
   &#39;content&#39; => array(&#39;.post_content&#39;,&#39;html&#39;,&#39;a -.content_copyright -script&#39;,function($content){
       //利用回调函数下载文章中的图片并替换图片路径为本地路径
       //使用本例请确保当前目录下有image文件夹，并有写入权限
       //由于QueryList是基于phpQuery的，所以可以随时随地使用phpQuery，当然在这里也可以使用正则或者其它方式达到同样的目的

       $doc=\phpQuery::newDocumentHTML($content);
       $imgs = pq($doc)->find(&#39;img&#39;);
       foreach ($imgs as $img) {
           $src = &#39;http://cms.querylist.cc&#39;.pq($img)->attr(&#39;src&#39;);
           $localSrc = md5($src).&#39;.jpg&#39;;
           $stream = file_get_contents($src);
           file_put_contents($localSrc,$stream);
           pq($img)->attr(&#39;src&#39;,$localSrc);
       }
       return $doc->htmlOuter();
   })
);
$rang = &#39;.content&#39;;
$ql = QueryList::Query($page,$reg,$rang);
$data = $ql->getData();
//打印结果
print_r($data);

Nach dem Login kopieren

Hinweis:

muss sein Wird vorne hinzugefügt, wenn die phpQuery-Klasse verwendet wird. Da der Namespace in phpQuery.php nicht verwendet wird, kann QueryList.php die phpQuery-Klasse nach Verwendung des Namespace nicht verwenden.

Weitere Informationen zu ThinkPHP finden Sie im ThinkPHP-Tutorial!

Das obige ist der detaillierte Inhalt vonThinkphp5 und QueryList implementieren die Seitensammlungsfunktion (Crawler).. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Assassin's Creed Shadows: Seashell Riddle -Lösung

4 Wochen vor By DDD

Was ist neu in Windows 11 KB5054979 und wie Sie Update -Probleme beheben

3 Wochen vor By DDD

Wo kann man die Kransteuerungsschlüsselkarten in Atomfall finden

3 Wochen vor By DDD

<🎜>: Dead Rails - wie man jede Herausforderung abschließt

4 Wochen vor By DDD

Atomfall Guide: Gegenstandsstandorte, Questführer und Tipps

1 Monate vor By DDD

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7695

Java-Tutorial

1640

CakePHP-Tutorial

1393

Laravel-Tutorial

1287

PHP-Tutorial

1229

Related knowledge

Was soll ich tun, wenn ich beim Bereitstellen von thinkphp5 in Pagoda eine Fehlermeldung erhalte? Dec 19, 2022 am 11:04 AM

Lösung für den bei der Bereitstellung von thinkphp5 in Pagoda gemeldeten Fehler: 1. Öffnen Sie den Pagoda-Server, installieren Sie die PHP-Pathinfo-Erweiterung und aktivieren Sie sie. 2. Konfigurieren Sie die Datei „.access“ mit dem Inhalt „RewriteRule ^(.*)$ index.php ?s=/$1 [QSA ,PT,L]“; 3. Aktivieren Sie in der Website-Verwaltung einfach die Pseudostatik von thinkphp.

Was soll ich tun, wenn das Umschreiben der thinkphp5-URL fehlschlägt? Dec 12, 2022 am 09:31 AM

Lösung dafür, dass das Umschreiben von thinkphp5-URLs nicht funktioniert: 1. Überprüfen Sie, ob das Modul mod_rewrite.so in der Konfigurationsdatei httpd.conf geladen ist. 2. Ändern Sie None in AllowOverride None in All. 3. Ändern Sie die Apache-Konfigurationsdatei .htaccess in „RewriteRule ^“. (.*)$ index.php [L,E=PATH_INFO:$1]“ und speichern Sie es.

So erhalten Sie die angeforderte URL in thinkphp5 Dec 20, 2022 am 09:48 AM

Methoden für thinkphp5 zum Abrufen der angeforderten URL: 1. Verwenden Sie die Methode „$request = Request::instance();“ der Klasse „\think\Request“, um die aktuellen URL-Informationen abzurufen Funktion „$request->url()“, um die vollständige URL-Adresse einschließlich des Domainnamens zu erhalten.

So entfernen Sie das Titelleistensymbol von thinkphp5 Dec 20, 2022 am 09:24 AM

So entfernen Sie das thinkphp5-Titelleistensymbol: 1. Suchen Sie die Datei favicon.ico unter dem öffentlichen thinkphp5-Framework. 2. Löschen Sie die Datei oder wählen Sie ein anderes Bild aus, um sie in favicon.ico umzubenennen und die ursprüngliche Datei favicon.ico zu ersetzen.

Was soll ich tun, wenn thinkphp5 post den Wert nicht abrufen kann? Dec 06, 2022 am 09:29 AM

thinkphp5-Beitrag kann keinen Wert abrufen, da TP5 die strpos-Funktion verwendet, um den app/json-String im Inhaltstypwert des Headers zu finden. Die Lösung besteht darin, den Inhaltstypwert des Headers auf app/json zu setzen.

Was soll ich tun, wenn thinkphp5 meldet, dass der Controller nicht existiert? Dec 06, 2022 am 10:43 AM

Lösung für die Meldung thinkphp5, dass der Controller nicht existiert: 1. Überprüfen Sie, ob der Namespace im entsprechenden Controller korrekt geschrieben ist, und ändern Sie ihn in den richtigen Namespace. 2. Öffnen Sie die entsprechende tp-Datei und ändern Sie den Klassennamen.

So fragen Sie die Daten von gestern in ThinkPHP5 ab Dec 05, 2022 am 09:20 AM

So fragen Sie die Daten von gestern in ThinkPHP5 ab: 1. Öffnen Sie ThinkPHP5-bezogene Dateien. 2. Fragen Sie die Daten von gestern über den Ausdruck „db('table')->whereTime('c_time', 'yesterday')->select();“ ab .

So legen Sie Fehlermeldungen in thinkphp5 fest Dec 07, 2022 am 10:31 AM

So legen Sie Fehleraufforderungen in thinkphp5 fest: 1. Geben Sie den öffentlichen Ordner im Projektstammverzeichnis ein und öffnen Sie die Eintragsdatei index.php. 2. Sehen Sie sich die Kommentare zum Debug-Modus-Schalter an. 3. Passen Sie den Wert der Konstante „APP_DEBUG“ an auf „true“ setzen, um eine Fehlermeldung anzuzeigen.

See all articles