Heim > Backend-Entwicklung > PHP-Problem > So installieren Sie das PHP-Crawler-Framework

So installieren Sie das PHP-Crawler-Framework

爱喝马黛茶的安东尼
Freigeben: 2023-02-25 16:14:02
Original
2500 Leute haben es durchsucht

So installieren Sie das PHP-Crawler-Framework

Wenn es um die Erstellung von Crawlern geht, denkt jeder vielleicht zuerst an Python. Tatsächlich kann PHP auch zum Schreiben von Crawler-Programmen verwendet werden. PHP war schon immer einfach und benutzerfreundlich. Ich habe persönlich getestet, dass ich mit dem PHPspider-Framework ein einfaches Crawler-Programm in 10 Minuten schreiben kann.

1. PHP-Umgebungsinstallation

Wie Python benötigt auch PHP eine Umgebung, die von der offiziellen Website heruntergeladen wurde, oder Sie können XAMPP, PHPstudy und verwenden andere integrierte Umgebungen PHP. Es wird eine integrierte Umgebung empfohlen, sodass die MySQL-Datenbank nicht separat installiert werden muss.

2. Composer-Installation

Composer ist ein Abhängigkeitspaketverwaltungstool unter PHP, ähnlich wie PIP in Python.

Die offizielle chinesische Website ist https://www.phpcomposer.com/

Führen Sie einfach cmd mit win+R aus und geben Sie den Composer-Befehl ein , die Installation ist erfolgreich.

So installieren Sie das PHP-Crawler-Framework

3. PHPspider-Installation

Erstellen Sie einen Ordner an einem beliebigen Ort, wenn wir beispielsweise die Daten erfassen möchten Kurzes Buch, wir Sie können den Jianshu-Ordner auf dem Laufwerk D erstellen, dann den Ordner mit dem Befehl cmd eingeben und den Befehl ausführen:

composer require owner888/phpspider
Nach dem Login kopieren

Das folgende Ergebnis ist eine erfolgreiche Installation.

So installieren Sie das PHP-Crawler-Framework

Verwandte Empfehlungen: „Einrichtung der PHP-Umgebung

4. Beginnen Sie mit dem Schreiben des ersten Crawlers

Öffnen Sie nun den Jianshu-Ordner. Sie werden feststellen, dass sich darin noch einige weitere Dinge befinden. Machen Sie sich keine Sorgen, erstellen Sie eine PHP-Datei und beginnen Sie mit dem Codieren.

So installieren Sie das PHP-Crawler-Framework

Die Entwicklungsdokumentation ist hier: https://doc.phpspider.org/demo-start.html

Ich werde nicht über die Grundlagen sprechen Gehen Sie hier einfach direkt zum Code, da wir ein 10-minütiges kurzes Tutorial durchführen.

Die Matching-Methode verwendet XPach-Syntax.

<?php
require &#39;/vendor/autoload.php&#39;;
use phpspider\core\phpspider;
/* Do NOT delete this comment */
/* 不要删除这段注释 */
$configs = array(
&#39;name&#39; => &#39;简书&#39;,
&#39;log_show&#39; =>false,
&#39;tasknum&#39; => 1,
//数据库配置
&#39;db_config&#39; => array(
&#39;host&#39;  => &#39;127.0.0.1&#39;,
&#39;port&#39;  => 3306,
&#39;user&#39;  => &#39;root&#39;,
&#39;pass&#39;  => &#39;&#39;,
&#39;name&#39;  => &#39;demo&#39;,
),
&#39;export&#39; => array(
&#39;type&#39; => &#39;db&#39;,
&#39;table&#39; => &#39;jianshu&#39;,  // 如果数据表没有数据新增请检查表结构和字段名是否匹配
),
//爬取的域名列表  
&#39;domains&#39; => array(
    &#39;jianshu&#39;,
    &#39;www.jianshu.com&#39;
), 
//抓取的起点
&#39;scan_urls&#39; => array(
    &#39;https://www.jianshu.com/c/V2CqjW?utm_medium=index-collections&utm_source=desktop&#39;
),
//列表页实例
&#39;list_url_regexes&#39; => array(
    "https://www.jianshu.com/c/\d+"
),
//内容页实例
//  \d+  指的是变量
&#39;content_url_regexes&#39; => array(
    "https://www.jianshu.com/p/\d+",
),
&#39;max_try&#39; => 5,
&#39;fields&#39; => array(
    array(
        &#39;name&#39; => "title",
        &#39;selector&#39; => "//h1[@class=&#39;title&#39;]",
        &#39;required&#39; => true,
    ),
    array(
        &#39;name&#39; => "content",
        &#39;selector&#39; => "//div[@class=&#39;show-content-free&#39;]",
        &#39;required&#39; => true,
    ),
),
);
$spider = new phpspider($configs);
$spider->start();
Nach dem Login kopieren

Lassen Sie uns die Bedeutung der Syntax ein wenig erklären:

//h1[@class=&#39;title&#39;]
Nach dem Login kopieren

Alle h1-Knoten mit dem Klassenwert title abrufen

//div[@class=&#39;show-content-free&#39;]
Nach dem Login kopieren

Alle Divs mit dem Klassenwert show-content-free abrufen Nachdem Sie den Code für den Knoten

fertiggestellt haben, denken Sie daran, die entsprechende Datenbank und Datentabelle entsprechend dem zu erfassenden Inhalt einzurichten und die Felder auszurichten.

So installieren Sie das PHP-Crawler-Framework

Geben Sie dann cmd ein:

php -f d:\jianshu\spider.php
Nach dem Login kopieren

Führen Sie Folgendes aus:

So installieren Sie das PHP-Crawler-Framework

So installieren Sie das PHP-Crawler-Framework

Öffnen Sie die Daten und werfen Sie einen Blick darauf. Haben Sie alles erfasst?

So installieren Sie das PHP-Crawler-Framework

Das obige ist der detaillierte Inhalt vonSo installieren Sie das PHP-Crawler-Framework. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage