Einschränken des Datenempfangs in HTTP-GET-Anfragen
Beim Scraping von HTML-Seiten ist es wichtig zu verhindern, dass GET-Anfragen übermäßig viel Daten verbrauchen und blockieren Prozess.
Um das von einer bestimmten Ressource empfangene Datenvolumen zu steuern, sollten Sie die Verwendung eines io.LimitedReader in Betracht ziehen. Dieser Reader beschränkt effektiv die aus einer Quelle gelesenen Daten auf ein bestimmtes Limit.
// io.LimitedReader limits the number of bytes returned limitedReader := &io.LimitedReader{R: response.Body, N: limit} body, err := io.ReadAll(limitedReader)
Ein alternativer Ansatz besteht darin, io.LimitReader direkt zu verwenden:
body, err := io.ReadAll(io.LimitReader(response.Body, limit))
Durch die Einbindung von io. Wenn Sie die Methode LimitedReader oder io.LimitReader in Ihren Anforderungsverarbeitungscode integrieren, können Sie einen maximalen Schwellenwert für die Datenaufnahme festlegen und so sicherstellen, dass übermäßige Antworten Ihr Scraping nicht behindern Effizienz.
Das obige ist der detaillierte Inhalt vonWie kann ich den Datenverbrauch in HTTP-GET-Anfragen für Web Scraping begrenzen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!