Geben Sie Tipps zum Erfassen von Zhihu-Q&A-Daten mit PHP und phpSpider!-PHP-Tutorial-php.cn

Geben Sie Tipps zum Erfassen von Zhihu-Q&A-Daten mit PHP und phpSpider!

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Freigeben： 2023-07-21 15:50:01

Original

883 Leute haben es durchsucht

Tipps zum Erfassen von Zhihu Q&A-Daten mit PHP und phpSpider!

Als größte Wissensaustauschplattform in China verfügt Zhihu über eine riesige Menge an Frage- und Antwortdaten. Für viele Entwickler und Forscher ist die Beschaffung und Analyse dieser Daten sehr wertvoll. In diesem Artikel wird die Verwendung von PHP und phpSpider zum Erfassen von Zhihu-Q&A-Daten vorgestellt und einige Tipps und praktische Codebeispiele weitergegeben.

1. Installieren Sie phpSpider

phpSpider ist ein in der PHP-Sprache geschriebenes Crawler-Framework, das über leistungsstarke Datenerfassungs- und -verarbeitungsfunktionen verfügt und sich sehr gut für die Erfassung von Zhihu-Q&A-Daten eignet. Im Folgenden sind die Installationsschritte für phpSpider aufgeführt:

Composer installieren: Stellen Sie zunächst sicher, dass Sie Composer installiert haben. Sie können überprüfen, ob es installiert ist, indem Sie den folgenden Befehl ausführen:

composer -v

Nach dem Login kopieren

Wenn die Versionsnummer von Composer normal angezeigt werden kann , bedeutet dies, dass die Installation erfolgreich war.

Erstellen Sie ein neues Projektverzeichnis: Führen Sie den folgenden Befehl in der Befehlszeile aus, um ein neues phpSpider-Projekt zu erstellen:

composer create-project vdb/php-spider my-project

Nach dem Login kopieren

Dadurch wird ein neues Verzeichnis namens my-project erstellt und phpSpider darin installiert.

2. Schreiben Sie den phpSpider-Code.

Erstellen Sie eine neue phpSpider-Aufgabe: Gehen Sie in das Verzeichnis „my-project“ und verwenden Sie den folgenden Befehl, um eine neue phpSpider-Aufgabe zu erstellen:

./phpspider --create mytask

Nach dem Login kopieren

Dadurch wird eine neue phpSpider-Aufgabe im my-project erstellt. Projektverzeichnis mit dem Namen mytask Ein neues Verzeichnis, das die notwendigen Dateien zum Scrapen der Daten enthält.

Crawling-Regeln bearbeiten: Öffnen Sie im mytask-Verzeichnis die Datei „rules.php“, ein PHP-Skript zum Definieren von Crawling-Regeln. In diesem Skript können Sie die URL der Zhihu Q&A-Seite definieren, die Sie crawlen müssen, sowie die Datenfelder, die Sie extrahieren möchten.

Das Folgende ist ein Beispiel für eine einfache Crawling-Regel:

return array(
    'name' => '知乎问答',
    'tasknum' => 1,
    'domains' => array(
        'www.zhihu.com'
    ),
    'start_urls' => array(
        'https://www.zhihu.com/question/XXXXXXXX'
    ),
    'scan_urls' => array(),
    'list_url_regexes' => array(
        "https://www.zhihu.com/question/XXXXXXXX/page/([0-9]+)"
    ),
    'content_url_regexes' => array(
        "https://www.zhihu.com/question/XXXXXXXX/answer/([0-9]+)"
    ),
    'fields' => array(
        array(
            'name' => "question",
            'selector_type' => 'xpath',
            'selector' => "//h1[@class='QuestionHeader-title']/text()"
        ),
        array(
            'name' => "answer",
            'selector_type' => 'xpath',
            'selector' => "//div[@class='RichContent-inner']/text()"
        )
    )
);

Nach dem Login kopieren

Im obigen Beispiel definieren wir eine Crawling-Aufgabe namens Zhihu Q&A, die alle Antworten auf eine bestimmte Frage crawlt. Es enthält den Datenfeldnamen, den Selektortyp und den Selektor, die extrahiert werden müssen.

Schreiben Sie eine benutzerdefinierte Rückruffunktion: Öffnen Sie im mytask-Verzeichnis die Datei callback.php. Dies ist ein PHP-Skript, das zum Verarbeiten und Speichern der erfassten Daten verwendet wird.

Das Folgende ist ein Beispiel für eine einfache benutzerdefinierte Rückruffunktion:

function handle_content($url, $content)
{
    $data = array();
    $dom = new DOMDocument();
    @$dom->loadHTML($content);
    
    // 使用XPath选择器提取问题标题
    $xpath = new DOMXPath($dom);
    $question = $xpath->query("//h1[@class='QuestionHeader-title']");
    $data['question'] = $question->item(0)->nodeValue;
    
    // 使用XPath选择器提取答案内容
    $answers = $xpath->query("//div[@class='RichContent-inner']");
    foreach ($answers as $answer) {
        $data['answer'][] = $answer->nodeValue;
    }
    
    // 保存数据到文件或数据库
    // ...
}

Nach dem Login kopieren

Im obigen Beispiel haben wir eine Rückruffunktion namens handle_content definiert, die aufgerufen wird, nachdem die Daten erfasst wurden. In dieser Funktion haben wir den Fragetitel und den Antwortinhalt mithilfe des XPath-Selektors extrahiert und die Daten im $data-Array gespeichert.

3. Führen Sie die phpSpider-Aufgabe aus

Starten Sie die phpSpider-Aufgabe: Verwenden Sie im My-Project-Verzeichnis den folgenden Befehl, um die phpSpider-Aufgabe zu starten:

./phpspider --daemon mytask

Nach dem Login kopieren

Dadurch wird ein phpSpider-Prozess im Hintergrund gestartet und mit dem Crawlen von Zhihu begonnen Q&A-Daten.

Sehen Sie sich die Crawling-Ergebnisse an: Die phpSpider-Aufgabe speichert die gecrawlten Daten im Datenverzeichnis, wobei der Aufgabenname der Dateiname ist und jede Crawling-Aufgabe einer Datei entspricht.

Sie können die Crawl-Ergebnisse mit dem folgenden Befehl anzeigen:

tail -f data/mytask/data.log

Nach dem Login kopieren

Dadurch werden das Crawl-Protokoll und die Ergebnisse in Echtzeit angezeigt.

4. Zusammenfassung

In diesem Artikel werden die Techniken zur Verwendung von PHP und phpSpider zur Erfassung von Zhihu-Q&A-Daten vorgestellt. Durch die Installation von phpSpider, das Schreiben von Crawling-Regeln und benutzerdefinierten Rückruffunktionen sowie das Ausführen von phpSpider-Aufgaben können wir Zhihu-Q&A-Daten problemlos crawlen und verarbeiten.

Natürlich verfügt phpSpider über leistungsfähigere Funktionen und Verwendungsmöglichkeiten, wie z. B. gleichzeitiges Crawlen, Proxy-Einstellungen, UA-Einstellungen usw., die entsprechend den tatsächlichen Anforderungen konfiguriert und verwendet werden können. Ich hoffe, dass dieser Artikel für Entwickler hilfreich ist, die an der Erfassung von Zhihu-Q&A-Daten interessiert sind!

Das obige ist der detaillierte Inhalt vonGeben Sie Tipps zum Erfassen von Zhihu-Q&A-Daten mit PHP und phpSpider!. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!