SQL中有哪些不同類型的連接？如何使用大熊貓執行加入？-Python教學-PHP中文網

首頁

後端開發

Python教學

SQL中有哪些不同類型的連接？如何使用大熊貓執行加入？

Mar 26, 2025 pm 04:37 PM

在SQL中，有幾種類型的連接可以讓您根據它們之間的相關列組合兩個或多個表的行。連接的主要類型是：

在熊貓中，您可以使用merge函數執行連接，這與SQL連接類似。這是您可以使用Pandas執行不同類型的連接的方法：

內連接：使用pd.merge(df1, df2, on='key', how='inner') 。這將僅返回兩個數據范圍中鍵列匹配的行。
左加入：使用pd.merge(df1, df2, on='key', how='left') 。這將返回df1的所有行，以及df2的匹配行。如果沒有匹配，則結果將包含df2列的NAN值。
右JOIN ：使用pd.merge(df1, df2, on='key', how='right') 。這將返回df2和df1的匹配行。如果沒有匹配，則結果將包含df1列的NAN值。
外部加入：使用pd.merge(df1, df2, on='key', how='outer') 。這將返回兩個數據范圍內的所有行，其中NAN值在沒有匹配的列中。
交叉加入：使用pd.merge(df1, df2, how='cross') 。這將返回兩個數據范圍的笛卡爾產品。

在SQL中的內部聯接和左聯接之間的關鍵差異如下：

結果集：
- 內連接：僅返回兩個表中都有匹配的行。如果沒有匹配，則該行不包括在結果集中。
- 左JOIN ：從左表返回所有行，並從右表返回匹配的行。如果沒有匹配，則結果在右側為無效。
用例：
- 內部加入：當您要檢索兩個表中具有匹配值的記錄時使用。當您需要確保僅獲取兩個表中的數據時，這很有用。
- 左JOIN ：無論右表是否有匹配項，都要從左表中檢索所有記錄時使用。當您需要從左表中包含所有記錄並顯示沒有匹配的右表的空值時，這很有用。
表現：
- 內部聯接：通常更快，因為它僅返回兩個表中具有匹配的行，從而導致結果集較小。
- 左JOIN ：可能會更慢，因為它從左表返回所有行，這可能會導致更大的結果集，尤其是在右表有許多不匹配的行時。

優化大熊貓在大型數據集中的加入操作對於性能至關重要。以下是提高連接效率的一些策略：

使用適當的數據類型：確保您加入的列具有相同的數據類型。這可以大大加快聯接操作。
加入之前對數據進行排序：在執行JOIN之前對JOIN密鑰上的數據框進行排序可以提高性能，尤其是對於大型數據集。
將merge與how='inner' ：如果可能的話，使用內連接，因為它們通常比外部連接更快，因為它們會導致較小的數據集。
避免不必要的列：僅在JOIN操作中包括您需要的列。在加入之前刪除不必要的列可以減少內存使用情況並提高性能。
使用merge_ordered進行時間序列數據：如果您正在使用時間序列數據，請考慮使用pd.merge_ordered而不是pd.merge 。此功能已針對有序數據進行了優化，並且可以更快。
使用merge_asof進行最近的匹配：對於需要查找最近匹配的大型數據集， pd.merge_asof可以比常規合併更有效。
大型數據集：對於極大的數據集，請考慮在塊中處理數據。您可以將read_csv函數與chunksize參數一起使用較小的零件讀取數據，並在這些塊上執行連接。
使用dask進行並行處理：對於非常大的數據集，請考慮使用dask庫，該庫允許並行處理並可以處理大於內存的數據集。