Pandas Merging 101: Die Grundlagen
Einführung
Das Zusammenführen von DataFrames in Pandas ist ein leistungsstarkes Tool zum Kombinieren und Bearbeiten von Daten aus verschiedenen Quellen. Dieser Leitfaden bietet einen umfassenden Überblick über die grundlegenden Arten von Verknüpfungen und ihre Anwendungen.
Arten von Verknüpfungen
1. INNER JOIN (Standard)
- Übereinstimmt Zeilen mit gemeinsamen Schlüsseln in beiden DataFrames.
- Gibt nur Zeilen zurück, die in beiden übereinstimmende Werte haben Rahmen.
-
Beispiel:
left.merge(right, on='key')
Nach dem Login kopieren
2. LEFT OUTER JOIN
- Übereinstimmt Zeilen aus dem linken DataFrame mit entsprechenden Zeilen im rechten DataFrame.
- Wenn keine passende Zeile gefunden wird, werden NaNs in die Ausgabe für eingefügt fehlende Spalten von rechts DataFrame.
-
Beispiel:
left.merge(right, on='key', how='left')
Nach dem Login kopieren
3. RIGHT OUTER JOIN
- Übereinstimmt Zeilen aus dem rechten DataFrame mit entsprechenden Zeilen im linken DataFrame.
- Wenn keine passende Zeile gefunden wird, werden NaNs in die Ausgabe für eingefügt fehlende Spalten von links DataFrame.
-
Beispiel:
left.merge(right, on='key', how='right')
Nach dem Login kopieren
4. FULL OUTER JOIN
- Übereinstimmt alle Zeilen aus beiden DataFrames, unabhängig davon, ob sie gemeinsame Schlüssel haben.
- NaNs werden für fehlende Zeilen in beiden eingefügt Frames.
-
Beispiel:
left.merge(right, on='key', how='outer')
Nach dem Login kopieren
Andere Join-Variationen
1. LINKS-Ausschließender JOIN
- Gibt Zeilen aus dem linken DataFrame zurück, die mit keiner Zeile im rechten DataFrame übereinstimmen.
2. RIGHT-Exclusion JOIN
- Gibt Zeilen aus dem rechten DataFrame zurück, die mit keiner Zeile im linken DataFrame übereinstimmen.
3. ANTI JOIN (Auf beiden Seiten ausschließen)
- Gibt Zeilen aus beiden DataFrames zurück, die mit keiner Zeile auf der anderen Seite übereinstimmen.
Unterschiedliche Handhabung Schlüsselspaltennamen
- Verwenden Sie zum Zusammenführen die Argumente left_on und right_on auf Spalten mit unterschiedlichen Namen.
Vermeiden doppelter Schlüsselspalten in der Ausgabe
- Legen Sie den Index als vorbereitenden Schritt fest, um den Index zusammenzuführen und zu entfernen die doppelte Schlüsselspalte.
Eine einzelne Spalte mit einer einzigen zusammenführen DataFrame
- Teilen Sie Spalten vor dem Zusammenführen, um bestimmte Spalten aus einem der DataFrames auszuwählen.
- Verwenden Sie Map für einen effizienteren Ansatz in Fällen, in denen nur eine Spalte zusammengeführt wird.
Zusammenführen auf mehreren Spalten
- Geben Sie eine Liste für on (oder left_on und right_on) an, um mehrere Spalten zu verbinden.
Das obige ist der detaillierte Inhalt vonWie kombinieren verschiedene Pandas-Join-Typen „merge()' DataFrames?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!