將函數應用於Pandas Dataframe 的多列
假設我們在Pandas Dataframe 中有一個包含多列的資料集,並且我們想要將自訂函數套用到其中兩個欄位。這可能是資料操作和分析中的常見任務。以下是實現此目標的逐步指南:
1.定義函數:
定義一個接受兩個輸入的自訂函數,代表兩列中的值。此函數應該對這些輸入執行所需的操作。
2.使用 Lambda 應用函數:
Pandas 提供了一個 lambda 函數,讓我們可以將函數應用於資料幀的每一行。我們可以利用這一點將自訂函數應用到選定的列。
使用 lambda 將函數應用到多列的語法是:
df['new_column_name'] = df.apply(lambda x: your_function(x.column_1, x.column_2), axis=1)
其中:
3.範例:
考慮以下範例資料框:
df = pd.DataFrame({'ID':['1','2','3'], 'col_1': [0,2,3], 'col_2':[1,4,5]})
假設我們要建立一個名為「col_3」的新列,其中包含基於值的原始列表mylist 的子列表在col_1 和col_2 中。我們可以定義一個函數get_sublist 如下:
def get_sublist(sta, end): return ['a', 'b', 'c', 'd', 'e', 'f'][sta:end+1]
現在,我們可以使用lambda 應用此函數:
df['col_3'] = df.apply(lambda x: get_sublist(x.col_1, x.col_2), axis=1)
這會在資料框中建立一個新列'col_3'所列'col_3'所列需的子列表。
4.替代方案:
使用 lambda 是將函數應用於多個資料框列的簡潔且通用的方法。但是,如果您喜歡更明確的方式,也可以將 apply() 方法與採用 Series 作為輸入的自訂函數結合使用。這種方法涉及定義一個函數,該函數採用表示一行的單一輸入,然後根據需要操作該特定行。
以上是如何將函數應用於 Pandas DataFrame 中的多個欄位?的詳細內容。更多資訊請關注PHP中文網其他相關文章!