首頁 > 後端開發 > Python教學 > 如何有效率地找出兩個 Pandas DataFrame 之間的差異?

如何有效率地找出兩個 Pandas DataFrame 之間的差異?

Linda Hamilton
發布: 2024-11-22 06:14:09
原創
388 人瀏覽過

How to Efficiently Find the Difference Between Two Pandas DataFrames?

如何找出兩個資料框之間的差異

在處理資料時,我們通常可能有兩個包含重疊資訊的數據框,但是還包含唯一的行或列。要獲得僅包含一個資料幀而不包含另一個資料幀中存在的行和列的資料幀,我們需要執行資料幀差異操作。

為了實現這一點,我們可以使用drop_duplicates 函數和keep=False 參數,它有效地從連接的資料框中刪除任何重複的行:

但是,此方法假設兩個資料框都沒有重複項。如果原始資料框中存在重複項,上述方法會無意中刪除它們。為了處理這種情況,我們可以採用兩種替代方法之一:

方法1:將isin 與元組結合使用

此方法涉及為中的每一行建立一個元組資料幀,然後使用isin 檢查df1 中的元組是否存在於df2 中。只保留df1 中存在的行:

方法二:與Indicator 合併

透過將指標參數為True 的兩個資料框進行合併,我們可以建立一個新列,指示哪些行對於df1 或df2 是唯一的。然後,可以透過選擇_merge 列值為left_only 的行來過濾掉df1 特有的行:

透過實施這些技術,您可以有效地確定兩個資料幀之間的差異,確保您有一個資料框,僅包含每個資料框的唯一資訊。

以上是如何有效率地找出兩個 Pandas DataFrame 之間的差異?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
作者最新文章
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板