首頁 > 後端開發 > Python教學 > 如何將 Pandas DataFrame 列分解為多行?

如何將 Pandas DataFrame 列分解為多行?

Susan Sarandon
發布: 2024-12-25 09:46:16
原創
637 人瀏覽過

How to Explode a Pandas DataFrame Column into Multiple Rows?

如何將 Pandas DataFrame 中的列取消巢狀(分解)為多行

在 Pandas 中,分解列涉及將資料從單行轉換為多行。當您有一列包含清單類型儲存格並且需要將它們拆分為單獨的行時,這非常有用。

考慮一個包含列表“B”列的DataFrame:

df = pd.DataFrame({'A': [1, 2], 'B': [[1, 2], [1, 2]]})

Output:

   A       B
0  1  [1, 2]
1  2  [1, 2]
登入後複製

到爆炸這列“B”,我們提出了各種方法:

方法0 [Pandas >= 0.25]
從Pandas 0.25開始,如果只需要爆炸一列,請使用pandas.DataFrame.explode 函數:

df.explode('B')

Output:

   A  B
0  1  1
1  1  2
3  2  1
4  2  2
登入後複製

方法1
應用pd.Series(容易理解,但不建議性能):

df.set_index('A').B.apply(pd.Series).stack().reset_index(level=0).rename(columns={0:'B'})
登入後複製

方法2
在DataFrame 建構子中使用重複:

df = pd.DataFrame({'A': df.A.repeat(df.B.str.len()), 'B': np.concatenate(df.B.values)})
登入後複製

方法3
Re -建立list:

pd.DataFrame([[x] + [z] for x, y in df.values for z in y], columns=df.columns)
登入後複製

方法4
使用reindex 或loc:

df.reindex(df.index.repeat(df.B.str.len())).assign(B=np.concatenate(df.B.values))
登入後複製

方法5
當清單只包含唯一的值:

from collections import ChainMap
d = dict(ChainMap(*map(dict.fromkeys, df['B'], df['A'])))
pd.DataFrame(list(d.items()), columns=df.columns[::-1])
登入後複製

方法

newvalues = np.dstack((np.repeat(df.A.values, list(map(len, df.B.values))), np.concatenate(df.B.values)))
pd.DataFrame(data=newvalues[0], columns=df.columns)
登入後複製
方法。使用NumPy實現高性能:


方法 7

from itertools import cycle, chain
l = df.values.tolist()
l1 = [list(zip([x[0]], cycle(x[1])) if len([x[0]]) > len(x[1]) else list(zip(cycle([x[0]]), x[1]))) for x in l]
pd.DataFrame(list(chain.from_iterable(l1)), columns=df.columns)
登入後複製
使用itertools循環和chain:


泛化為多列

def unnesting(df, explode):
    idx = df.index.repeat(df[explode[0]].str.len())
    df1 = pd.concat([
        pd.DataFrame({x: np.concatenate(df[x].values)}) for x in explode], axis=1)
    df1.index = idx

    return df1.join(df.drop(explode, 1), how='left')

unnesting(df, ['B', 'C'])
登入後複製
要處理多個爆炸列,可以定義一個函數:


Column-明智的取消嵌套

df.join(pd.DataFrame(df.B.tolist(), index=df.index).add_prefix('B_'))
登入後複製
要水平擴展列表,請使用pd.DataFrame建構子:

以上是如何將 Pandas DataFrame 列分解為多行?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

來源:php.cn
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
作者最新文章
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板