Pandas-Datenrahmen basierend auf Wertebereich und Bezeichner zusammenführen
In Pandas kann das Zusammenführen von Datenrahmen mithilfe einer bereichsbasierten Bedingung und eines Bezeichners erreicht werden durch eine Kombination aus Zusammenführungs- und Filtervorgängen. Dieser Ansatz kann jedoch bei der Arbeit mit großen Datensätzen ineffizient sein. Ein alternativer Ansatz, der SQL nutzt, könnte eine bessere Leistung bieten.
Betrachten wir ein Beispiel, in dem wir zwei Datenrahmen haben, A und B. Datenrahmen A enthält ein Datum (fdate) und eine Kennung (cusip), während Datenrahmen B Folgendes enthält Datumsangaben (namedt und nameenddt) und der gleiche Bezeichner (ncusip). Unser Ziel ist es, diese Datenrahmen zusammenzuführen, bei denen das fdate in A in den durch „namedt“ und „nameenddt“ in B definierten Datumsbereich fällt.
Der folgende Python-Code demonstriert den traditionellen Pandas-Ansatz:
<code class="python">df = pd.merge(A, B, how='inner', left_on='cusip', right_on='ncusip') df = df[(df['fdate']>=df['namedt']) & (df['fdate']<=df['nameenddt'])]</code>
Obwohl dieser Ansatz funktioniert, umfasst er das bedingungslose Zusammenführen der Datenrahmen und das anschließende Filtern basierend auf der Datumsbedingung, was bei großen Datensätzen rechenintensiv sein kann.
Ein alternativer Ansatz ist die Verwendung einer SQL-Abfrage:
<code class="python">import pandas as pd import sqlite3 # Create a temporary database in memory conn = sqlite3.connect(':memory:') # Write the dataframes to tables A.to_sql('table_a', conn, index=False) B.to_sql('table_b', conn, index=False) # Construct the SQL query query = ''' SELECT * FROM table_a JOIN table_b ON table_a.cusip = table_b.ncusip WHERE table_a.fdate BETWEEN table_b.namedt AND table_b.nameenddt ''' # Execute the query and create a Pandas dataframe df = pd.read_sql_query(query, conn)</code>
Dieser Ansatz hat mehrere Vorteile:
Zusammenfassend lässt sich sagen, dass die Nutzung von SQL zum Zusammenführen von Datenrahmen basierend auf bereichsbasierten Bedingungen und Bezeichnern Leistungsvorteile gegenüber herkömmlichen Pandas-Operationen bietet, insbesondere bei größeren Datensätzen.
Das obige ist der detaillierte Inhalt vonWie lassen sich Pandas-Datenrahmen basierend auf Wertebereich und Kennung effizient zusammenführen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!