-Tutorialspalte werden die Erfahrungen mit Laravel-S zur Abwehr von Baidu-Crawlern aufgezeichnet. Ich hoffe, dass es Freunden, die es brauchen, hilfreich sein wird!
Was ist Laravel-s?Warum Laravel verwenden? sNachdem das Baidu-Applet gestartet wurde, führte die hohe QPS (Parallelität) des Baidu-Crawlers dazu, dass die CPU vollständig ausgelastet war und der Server abstürzte. Der Server war mit 4 Kernen, 8G-Speicher und 5M Breitband konfiguriert. Was ist zu diesem Zeitpunkt zu tun?
Passen Sie die PHP-FPM-Parameter an und stellen Sie den statischen Modus ein, der eine höhere Leistung bietet als der dynamische Modus. Wenn Sie beispielsweise die Anzahl der untergeordneten Prozesse auf 255 oder höher festlegen, ist die Parallelität umso höher, je höher die Anzahl ist. Je höher die Anzahl, desto mehr Speicher wird jedoch belegt. Fazit: Es ist bis zu einem gewissen Grad effektiv, aber bei hoher Parallelität nutzlos.
Feedback an Baidu zur Anpassung der Crawler-Crawling-Frequenz. Fazit: Moment, die Taglilien sind schon kalt, aber es ist besser, Feedback zu geben.
Lastausgleich. Lassen Sie andere Server den Druck teilen. Voraussetzung ist, dass genügend Server vorhanden sind und derselbe Code bereitgestellt werden muss und das Geschäft, für das andere Server ursprünglich verantwortlich sind, nicht beeinträchtigt werden kann. Oder beantragen Sie vorübergehend N Server in einer bestimmten Cloud, wissen aber nicht, wann der Crawler kommt und wann er geht, was unrealistisch ist.
Der nächste Schritt ist das Thema des Artikels, die Verwendung von Laravel-s zur Beschleunigung der http-Antwort.
und das externe Netzwerk-Breitband ist immer noch voll (man kann nur sagen, dass der Baidu-Crawler dies tut). eine echte Arbeit, Sie können so viel Bandbreite bekommen, wie Sie wollen) Wie viele kommen). Zusammenfassend lässt sich sagen, dass es eine mindestens fünffache Leistungsverbesserung mit sich bringt.
Spezifische Bereitstellung
Die vom Crawler gecrawlten Seiten sind nur ein Teil der Seite, es handelt sich also nicht um eine Umwandlung des Online-Projekts in, was nicht realistisch ist. Wir müssen nur die gecrawlten Seiten trennen und sie separat auf qps
bereitstellen.
cpu
20+
Erstellen Sie ein neues leeres Projekt. Die Geschäftslogik verarbeitet nur die gecrawlten Seiten. Die Projektportnummer lautet beispielsweise 6501. Stellen Sie Laravel-s, Test-API und AB-Stresstest bereit von Crawlern gecrawlt werden Der Seitenpfad wird an das neue Projekt weitergeleitet, z. B. cpu
60%
location ~ ^/v1/test.* { proxy_pass http://127.0.0.1:6501; proxy_set_header Host $host;}
laravel-s
In laravel-s
ist die Anzahl der standardmäßig aktivierten
api
.
Aus dem in Punkt 2 genannten Grund kann die Datenbankverbindung nicht freigegeben werden und 127.0.0.1:6501
muss zum Trennen und erneuten Verbinden aktiviert werden (>laravle5.1). Fügen Sie
'options' => [ // 开启持久连接 \PDO::ATTR_PERSISTENT => true,],
-Konfiguration hinzu
Das obige ist der detaillierte Inhalt vonZeichnen Sie die Erfahrungen mit Laravel-s auf, um Baidu-Crawlern zu widerstehen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!