Pandas und große SQL-Abfragen: Ein speichereffizienter Ansatz
Die Verarbeitung von SQL-Abfragen mit mehr als 5 Millionen Datensätzen mit pandas.io.sql.read_frame()
kann zu Speicherfehlern führen. Pandas bietet jedoch eine robuste Lösung für den Umgang mit solch großen Datensätzen: die Verarbeitung in kleineren, überschaubaren Blöcken.
Seit Pandas-Version 0.15 enthält die Funktion read_sql_query()
einen Parameter chunksize
. Dadurch können Sie Abfrageergebnisse iterativ abrufen und so den Speicherverbrauch erheblich reduzieren. Sie geben die gewünschte Anzahl von Datensätzen pro Block an und zerlegen so die große Abfrage effektiv in kleinere, besser verwaltbare Teile.
Um beispielsweise eine Abfrage in Blöcken von 5.000 Datensätzen zu verarbeiten:
<code class="language-python">sql = "SELECT * FROM MyTable" for chunk in pd.read_sql_query(sql, engine, chunksize=5000): # Process each chunk here (e.g., calculations, analysis, etc.) print(chunk) </code>
Dieser iterative Ansatz vermeidet das gleichzeitige Laden des gesamten Datensatzes in den Speicher. Jeder Block wird unabhängig verarbeitet, wodurch der Speicherbedarf minimiert und eine effiziente Datenbearbeitung innerhalb von Pandas DataFrames ermöglicht wird, selbst bei extrem großen Datensätzen. Der Parameter chunksize
ist der Schlüssel zur effizienten Bearbeitung umfangreicher SQL-Abfragen und zur Vermeidung von Speichererschöpfung.
Das obige ist der detaillierte Inhalt vonWie kann ich große SQL-Abfragen in Pandas verarbeiten, ohne dass mir der Speicher ausgeht?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!