Heim > Backend-Entwicklung > PHP-Problem > So führen Sie den PHP-Crawler aus

So führen Sie den PHP-Crawler aus

(*-*)浩
Freigeben: 2023-02-27 11:44:01
Original
3255 Leute haben es durchsucht

Wenn es darum geht, einen Crawler zu erstellen, denkt jeder vielleicht zuerst an Python. Tatsächlich kann PHP auch zum Schreiben von Crawler-Programmen verwendet werden. PHP war schon immer einfach und benutzerfreundlich. Ich habe persönlich getestet, dass ich mit dem PHPspider-Framework einen einfachen Crawler schreiben kann.

So führen Sie den PHP-Crawler aus

Die Matching-Methode verwendet XPach-Syntax. (Empfohlenes Lernen: PHP-Video-Tutorial)

<?php
require &#39;/vendor/autoload.php&#39;;
use phpspider\core\phpspider;

/* Do NOT delete this comment */
/* 不要删除这段注释 */

$configs = array(
&#39;name&#39; => &#39;简书&#39;,
&#39;log_show&#39; =>false,
&#39;tasknum&#39; => 1,
//数据库配置
&#39;db_config&#39; => array(
&#39;host&#39;  => &#39;127.0.0.1&#39;,
&#39;port&#39;  => 3306,
&#39;user&#39;  => &#39;root&#39;,
&#39;pass&#39;  => &#39;&#39;,
&#39;name&#39;  => &#39;demo&#39;,
),
&#39;export&#39; => array(
&#39;type&#39; => &#39;db&#39;,
&#39;table&#39; => &#39;jianshu&#39;,  // 如果数据表没有数据新增请检查表结构和字段名是否匹配
),
//爬取的域名列表  
&#39;domains&#39; => array(
    &#39;jianshu&#39;,
    &#39;www.jianshu.com&#39;
), 
//抓取的起点
&#39;scan_urls&#39; => array(
    &#39;https://www.jianshu.com/c/V2CqjW?utm_medium=index-collections&utm_source=desktop&#39;
),
//列表页实例
&#39;list_url_regexes&#39; => array(
    "https://www.jianshu.com/c/\d+"
),
//内容页实例
//  \d+  指的是变量
&#39;content_url_regexes&#39; => array(
    "https://www.jianshu.com/p/\d+",
),
&#39;max_try&#39; => 5,

&#39;fields&#39; => array(
    array(
        &#39;name&#39; => "title",
        &#39;selector&#39; => "//h1[@class=&#39;title&#39;]",
        &#39;required&#39; => true,
    ),
    array(
        &#39;name&#39; => "content",
        &#39;selector&#39; => "//div[@class=&#39;show-content-free&#39;]",
        &#39;required&#39; => true,
    ),
),
);

$spider = new phpspider($configs);
$spider->start();
Nach dem Login kopieren

Denken Sie nach Abschluss des Codes daran, die entsprechende Datenbank und Datentabelle entsprechend dem zu erfassenden Inhalt und den Feldern zu erstellen ausgerichtet sein.

Geben Sie dann cmd ein, geben Sie

php -f d:\jianshu\spider.php
Nach dem Login kopieren

ein und führen Sie Folgendes aus:

So führen Sie den PHP-Crawler aus

Das obige ist der detaillierte Inhalt vonSo führen Sie den PHP-Crawler aus. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
php
Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage