根據多個資料幀列取得頻率計數
在給定的資料幀中,每行由多列組成,通常有必要確定重複行出現的頻率。這個任務可以使用 Python 的 pandas 函式庫來完成。
解決方案
pandas groupby() 函數允許根據特定列對行進行分組。要計算重複行的頻率,我們可以按所需的列進行分組並利用size() 函數:
<code class="python">dfg = df.groupby(by=["Group", "Size"]).size()</code>
此程式碼將產生一個pandas.Series 對象,其中組鍵作為索引和頻率算作值。要將其轉換為資料幀,我們可以使用reset_index() 函數:
<code class="python">dfg = df.groupby(by=["Group", "Size"]).size().reset_index(name="Time")</code>
在此範例中,產生的資料幀將包含「Group」、「Size」和「Time」列,其中“Time”代表頻率計數。
另一種方法是在 groupby() 中使用 as_index=False 參數:
<code class="python">dfg = df.groupby(by=["Group", "Size"], as_index=False).size()</code>
這將直接產生資料幀,而不需要進一步索引操作。
透過利用這些技術,您可以輕鬆獲得基於資料幀中多個列的頻率計數,並獲得有關資料分佈的寶貴見解。
以上是如何基於多列統計 Pandas DataFrame 中重複行的頻率?的詳細內容。更多資訊請關注PHP中文網其他相關文章!