Wie behebe ich Spaltenüberlappungsfehler beim Kombinieren von Pandas-Datenrahmen mit „join()'?

Patricia Arquette
Freigeben: 2024-10-27 06:07:03
Original
214 Leute haben es durchsucht

How to Resolve Column Overlap Errors While Combining Pandas Data Frames with `join()`?

Kombinieren von Pandas-Datenrahmen mithilfe der Zusammenführung in einer gemeinsamen Spalte

Bei der Arbeit mit Datenanalyseaufgaben ist es häufig erforderlich, Daten aus mehreren Quellen in einem einzigen Datenrahmen zu kombinieren . Pandas bietet mehrere Methoden zum Durchführen von Datenrahmenverknüpfungen. Eine davon ist merge(), mit der wir Datenrahmen basierend auf gemeinsamen Spalten kombinieren können.

Angenommen, wir haben zwei Datenrahmen:

restaurant_ids_dataframe:

Column Name Data Type
business_id int
categories object
city object
full_address object
latitude float
longitude float
name object
neighborhoods object
open bool
review_count int
stars float
state object
type object

restaurant_review_frame:

Column Name Data Type
business_id int
date object
review_id int
stars float
text object
type object
user_id int
votes int

Das Ziel besteht darin, diese Datenrahmen mithilfe von DataFrame.join zu einem einzigen Datenrahmen zu kombinieren ()-Methode. Normalerweise würden wir erwarten, dass der Join für die gemeinsame Spalte business_id durchgeführt wird. Wenn wir jedoch versuchen, die folgende Codezeile auszuführen:

restaurant_review_frame.join(other=restaurant_ids_dataframe, on='business_id', how='left')
Nach dem Login kopieren

wir erhalten eine Fehlermeldung:

Exception: columns overlap: Index([business_id, stars, type], dtype=object)
Nach dem Login kopieren

Um dieses Problem zu beheben, sollten wir stattdessen die Methode merge() verwenden und dabei angeben gemeinsame Spalte im on-Parameter. Die Methode merge() dient dazu, überlappende Spalten zu verarbeiten und die Datenrahmen entsprechend zu kombinieren. Die Syntax wäre:

<code class="python">import pandas as pd
pd.merge(restaurant_ids_dataframe, restaurant_review_frame, on='business_id', how='outer')</code>
Nach dem Login kopieren

Hier definiert der Parameter „how“ die Art der auszuführenden Verknüpfung. In diesem Fall haben wir Outer verwendet, das einen vollständigen Outer-Join durchführt und alle Zeilen aus beiden Datenrahmen kombiniert.

Zusätzlich können wir die Suffixe für die zusammengeführten Spalten mit dem Parameter suffixes angeben, was uns eine Anpassung ermöglicht die Spaltennamen im resultierenden Datenrahmen. Um beispielsweise die Spalten „star_restaurant_id“ und „star_restaurant_review“ als Suffix zu verwenden, können wir Folgendes verwenden:

<code class="python">pd.merge(restaurant_ids_dataframe, restaurant_review_frame, on='business_id', how='outer', suffixes=('_restaurant_id', '_restaurant_review'))</code>
Nach dem Login kopieren

Die merge()-Methode bietet einen umfassenden Satz von Parametern, die eine differenzierte Steuerung des Join-Vorgangs ermöglichen und so eine effiziente und effiziente Steuerung ermöglichen genaue Datenrahmenkombinationen.

Das obige ist der detaillierte Inhalt vonWie behebe ich Spaltenüberlappungsfehler beim Kombinieren von Pandas-Datenrahmen mit „join()'?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Neueste Artikel des Autors
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage
Über uns Haftungsausschluss Sitemap
Chinesische PHP-Website:Online-PHP-Schulung für das Gemeinwohl,Helfen Sie PHP-Lernenden, sich schnell weiterzuentwickeln!