Beim Umgang mit riesigen Datensätzen kann es für eine effiziente Verarbeitung erforderlich sein, diese in kleinere Teile aufzuteilen. Dies kann erreicht werden, indem der DataFrame anhand einer eindeutigen Kennung aufgeteilt wird, was zu mehreren kleineren DataFrames führt. In diesem Fall besteht das Ziel darin, einen DataFrame mit einer Million Zeilen in 60 kleinere DataFrames zu unterteilen, einen für jeden Teilnehmer, der durch die Variable „Name“ identifiziert wird.
Leider schlägt der bereitgestellte Python-Code zum Aufteilen des DataFrames fehl Schließe die Aufgabe ab. Anstatt auf unbestimmte Zeit zu laufen, wird ein alternativer Ansatz empfohlen, der die Slicing- und Indexierungsfunktionen von Pandas nutzt. Hier ist der geänderte Code:
import pandas as pd # Create a list of unique participant names unique_names = data['name'].unique() # Create a dictionary to store the DataFrames for each participant participant_data = {name: pd.DataFrame() for name in unique_names} # Populate the dictionary with sliced DataFrames for each participant for name in unique_names: participant_data[name] = data[data['name'] == name]
Dieser Code unterteilt den DataFrame effizient auf der Grundlage der Spalte „Name“, erstellt separate DataFrames für jeden Teilnehmer und vermeidet gleichzeitig die Fallstricke des vorherigen Codes.
Das obige ist der detaillierte Inhalt vonWie kann ein DataFrame mit einer Million Zeilen nach Teilnehmer effizient in kleinere DataFrames aufgeteilt werden?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!