Zuerst müssen wir wissen, dass es zwei Arten von Seitendateninhalten gibt (es gibt nur zwei Möglichkeiten, Daten zu crawlen): erstens direkt gerendert (basierend auf der MVC-Vorlagenzuweisung zur Vorlagenseite); , über die Schnittstelle abgerufen und dann von JS gerendert (Schnittstelle zurückgegeben)
Wenn Sie dann Daten finden möchten:
Es hängt davon ab, ob die direkt aufgerufene Adresse den Text mit dem Inhalt erhalten kann, den Sie erhalten wollen (basierend auf der MVC-Vorlage, die der Vorlagenseite zugewiesen ist)
Wenn nicht, sehen Sie, über welche Schnittstellen es abgerufen wird
Das Gleiche gilt für weitere Links:
Wenn Es wird direkt gerendert und kann über xpath oder csspath und andere Bibliotheken von Drittanbietern abgerufen werden, um Daten und Tags zu trennen.
Wenn es nicht direkt gerendert wird, müssen Sie den Link (mit Cookies) basierend darauf zusammensetzen die von JS generierten Parameter
Hinweis 1: Wenn Sie den Wert nicht oft abrufen können, sollten Sie das Cookie manuell ändern
Hinweis 2: Wenn es sich um eine Schnittstelle handelt, achten Sie darauf Die angeforderte URL muss sich jeden Tag ändern, da sich die Parameter der URL ändern. Wenn Sie sie nicht ändern, können Sie nicht nach unten kriechen (Sie können die URL wie folgt in die Datenbank einfügen und beim Crawlen überprüfen). , buchstabieren Sie die Parameter und werfen Sie sie auf Curl)
Hinweis 3: Eine andere Sache ist, dass ich nichts über die Geschwindigkeitsbegrenzung von WeChat weiß. Wenn es nicht zeitkritisch ist, klettern Sie einfach eine Runde nach der anderen 10 Sekunden.
Das Wichtigste ist, dass einige Dinge nicht notwendig sind. Sie müssen zuerst die Anmeldung simulieren, bevor Sie sich anmelden, und sie im Browser ausführen, um es zu versuchen Die zurückgegebenen Daten beweisen, dass Sie nur die für die Anfrage erforderlichen Cookies und Parameter mitbringen müssen.) Es ist nicht erforderlich, das Scannen des Codes zu simulieren.
Verwandte Empfehlungen:
Detaillierte Erklärung der Verwendung von CURL in PHP
PHPs leistungsstarke CURL POST-Klasse
PHP-Curl-Disguise-Quelleninformationen
Das obige ist der detaillierte Inhalt vonDetaillierte Erläuterung des Curl-Beispiels zum Crawlen von PHP-Daten. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!