Wie lassen sich Pandas-Datenrahmen basierend auf Wertebereich und Kennung effizient zusammenführen?

Linda Hamilton
Freigeben: 2024-10-30 11:54:02
Original
190 Leute haben es durchsucht

How to Efficiently Merge Pandas Dataframes Based on Value Range and Identifier?

Pandas-Datenrahmen basierend auf Wertebereich und Bezeichner zusammenführen

In Pandas kann das Zusammenführen von Datenrahmen mithilfe einer bereichsbasierten Bedingung und eines Bezeichners erreicht werden durch eine Kombination aus Zusammenführungs- und Filtervorgängen. Dieser Ansatz kann jedoch bei der Arbeit mit großen Datensätzen ineffizient sein. Ein alternativer Ansatz, der SQL nutzt, könnte eine bessere Leistung bieten.

Betrachten wir ein Beispiel, in dem wir zwei Datenrahmen haben, A und B. Datenrahmen A enthält ein Datum (fdate) und eine Kennung (cusip), während Datenrahmen B Folgendes enthält Datumsangaben (namedt und nameenddt) und der gleiche Bezeichner (ncusip). Unser Ziel ist es, diese Datenrahmen zusammenzuführen, bei denen das fdate in A in den durch „namedt“ und „nameenddt“ in B definierten Datumsbereich fällt.

Der folgende Python-Code demonstriert den traditionellen Pandas-Ansatz:

<code class="python">df = pd.merge(A, B, how='inner', left_on='cusip', right_on='ncusip')
df = df[(df['fdate']>=df['namedt']) & (df['fdate']<=df['nameenddt'])]</code>
Nach dem Login kopieren

Obwohl dieser Ansatz funktioniert, umfasst er das bedingungslose Zusammenführen der Datenrahmen und das anschließende Filtern basierend auf der Datumsbedingung, was bei großen Datensätzen rechenintensiv sein kann.

Ein alternativer Ansatz ist die Verwendung einer SQL-Abfrage:

<code class="python">import pandas as pd
import sqlite3

# Create a temporary database in memory
conn = sqlite3.connect(':memory:')

# Write the dataframes to tables
A.to_sql('table_a', conn, index=False)
B.to_sql('table_b', conn, index=False)

# Construct the SQL query
query = '''
    SELECT *
    FROM table_a
    JOIN table_b ON table_a.cusip = table_b.ncusip
    WHERE table_a.fdate BETWEEN table_b.namedt AND table_b.nameenddt
'''

# Execute the query and create a Pandas dataframe
df = pd.read_sql_query(query, conn)</code>
Nach dem Login kopieren

Dieser Ansatz hat mehrere Vorteile:

  • Schnellere Ausführung: SQL ist für die Datenverarbeitung optimiert, wodurch es für die bereichsbasierte Filterung effizienter ist.
  • Vermeidet Zwischendaten: Die gefilterten Daten werden direkt extrahiert, ohne dass ein großer Zwischendatenrahmen erstellt wird.
  • Einfachheit: Die Abfrage ist prägnant und leicht zu verstehen.

Zusammenfassend lässt sich sagen, dass die Nutzung von SQL zum Zusammenführen von Datenrahmen basierend auf bereichsbasierten Bedingungen und Bezeichnern Leistungsvorteile gegenüber herkömmlichen Pandas-Operationen bietet, insbesondere bei größeren Datensätzen.

Das obige ist der detaillierte Inhalt vonWie lassen sich Pandas-Datenrahmen basierend auf Wertebereich und Kennung effizient zusammenführen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Neueste Artikel des Autors
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage
Über uns Haftungsausschluss Sitemap
Chinesische PHP-Website:Online-PHP-Schulung für das Gemeinwohl,Helfen Sie PHP-Lernenden, sich schnell weiterzuentwickeln!