Abrufen von Zeilen aus einem Datenrahmen, die von einem anderen ausgeschlossen sind
In Pandas ist es üblich, mehrere Datenrahmen mit potenziell überlappenden Daten zu haben. Eine häufig auftretende Aufgabe besteht darin, Zeilen aus einem Datenrahmen zu isolieren, die in einem anderen nicht vorhanden sind. Dieser Vorgang ist besonders nützlich, wenn Sie mit Teilmengen arbeiten oder Daten filtern.
Problemformulierung:
Gegeben zwei Pandas-Datenrahmen, wobei df1 im Vergleich zu df2 eine Obermenge von Zeilen enthält, Unser Ziel ist es, die Zeilen in df1 zu erhalten, die in df2 nicht gefunden werden. Das folgende Beispiel veranschaulicht dieses Szenario anhand eines einfachen Falls:
import pandas as pd df1 = pd.DataFrame(data={'col1': [1, 2, 3, 4, 5], 'col2': [10, 11, 12, 13, 14]}) df2 = pd.DataFrame(data={'col1': [1, 2, 3], 'col2': [10, 11, 12]}) print(df1) print(df2) # Expected result: # col1 col2 # 3 4 13 # 4 5 14
Lösung:
Um dieses Problem effektiv anzugehen, verwenden wir eine Technik, die als Left Join bekannt ist. Dieser Vorgang führt df1 und df2 zusammen und stellt gleichzeitig sicher, dass alle Zeilen von df1 beibehalten werden. Darüber hinaus fügen wir eine Indikatorspalte ein, um den Ursprung jeder Zeile nach der Zusammenführung zu identifizieren. Indem wir die eindeutigen Zeilen von df2 nutzen und Duplikate ausschließen, erreichen wir das gewünschte Ergebnis.
Der folgende Python-Code implementiert diese Lösung:
df_all = df1.merge(df2.drop_duplicates(), on=['col1', 'col2'], how='left', indicator=True) result = df_all[df_all['_merge'] == 'left_only']
Erklärung:
Vermeidung häufiger Fallstricke:
Es ist wichtig zu beachten, dass einige Lösungen möglicherweise fälschlicherweise nach einzelnen Spaltenwerten suchen, anstatt sie abzugleichen Reihen als Ganzes. Solche Ansätze können zu falschen Ergebnissen führen, wie im folgenden Beispiel dargestellt:
~df1.col1.isin(common.col1) & ~df1.col2.isin(common.col2)
Dieser Code berücksichtigt nicht das gemeinsame Auftreten von Werten in Zeilen und kann zu falschen Ergebnissen führen, wenn Zeilen in df1 Werte enthalten, die einzeln erscheinen in df2, aber nicht in derselben Zeile.
Durch die Übernahme des oben beschriebenen Left-Join-Ansatzes stellen wir sicher, dass die abgeleiteten Zeilen korrekt als exklusiv für df1 identifiziert werden. Diese Technik bietet eine zuverlässige und effiziente Lösung zum Extrahieren von Zeilen, die in einem Datenrahmen vorhanden sind, in einem anderen jedoch nicht.
Das obige ist der detaillierte Inhalt vonWie extrahiere ich effizient Zeilen aus einem Pandas-DataFrame, die in einem anderen fehlen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!