Beim Zusammenführen zweier DataFrames ist es üblich, Informationen aus dem ersten beizubehalten und gleichzeitig Daten aus dem zweiten zu integrieren. Lassen Sie uns untersuchen, wie Sie dies in Pandas erreichen können.
Stellen Sie sich das folgende Szenario vor:
Unser Ziel ist es, df1 mit Geschlechtsinformationen zu füllen und gleichzeitig Informationen für Personen beizubehalten, die nicht in df2 vorhanden sind.
<code class="python">df = df1.merge(df2[['Name', 'Sex']], on='Name', how='left')</code>
Dieser Zusammenführungsvorgang verbindet df1 in der Spalte „Name“ mit df2, wobei alle Zeilen von df1 erhalten bleiben (aufgrund der Linksverknüpfung) und die Werte in „Geschlecht“ aktualisiert werden, sofern verfügbar.
<code class="python">df1['Sex'] = df1['Name'].map(df2.set_index('Name')['Sex'])</code>
Dieser Ansatz verwendet die Kartenfunktion, um die Spalte „Name“ von df1 der Spalte „Geschlecht“ von df2 zuzuordnen, während Name als Index in df2 festgelegt wird. Dadurch werden Personen in beiden DataFrames effektiv abgeglichen und fehlende Werte mit NaN aufgefüllt.
Wenn in df2 doppelte Namenswerte vorhanden sind, kann der Kartenansatz inkonsistente Ergebnisse liefern. Erwägen Sie in solchen Fällen die Deduplizierung von df2 oder die Verwendung einer wörterbuchbasierten Zuordnung.
Verwenden Sie die Zusammenführungsfunktion außerdem mit Vorsicht, wenn Name fehlende Werte enthält, da dadurch nicht übereinstimmende Zeilen entfernt werden. Wenn die Datenintegrität von entscheidender Bedeutung ist, behandeln Sie fehlende Werte vor dem Zusammenführen entsprechend.
Das obige ist der detaillierte Inhalt vonWie füge ich DataFrames zusammen und füge Spalten aus beiden hinzu?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!