python - 如何利用元組中某個資料或字典中某組key，對一個序列的資料進行排序？

Question

假設透過對海量的原始資料後分析得到這樣的資料: [(id,node,val)(id,node,val)...]就是依序為使用者id，所在伺服器，數值這樣的元組，然後要依照伺服器分開，再依賴val大小進行排序，然後寫入excel。或產生[{...

过去多啦不再A梦 · Answer

from collections import defaultdict

d = defaultdict(list)
data = [(id,node,val),(id,node,val)...]

# 按node进行分组
for x in data:
    d[x[1]].append(x)
    
# 将分组数据依次写入excel
for _, v in d.iteritems():
    # 排序
    tmp = sorted(v, key=lambda x: x["val"], reverse=True/False)
    # 写入excel
    write_to_excel(tmp)

另外其實可以將資料依id, node, val 全部寫入csv檔
透過linux的awk, uniq, sort 等指令工具寫一個shell腳本, 也是很快的

還有關於你的海量數據究竟有多大, 在哪個數量級,沒有明確, 如果數據量真的很大, 用上面的python代碼內存不夠用也是可能的, 這個需要你自己估算下

我想大声告诉你 · Answer

如果我正確理解了你的需求的話，可以用字典，字典的鍵是node的名稱，字典的值是由項組成的列表：

data = [{"id":xxx,"node":xxx,"val":xxx},{"id":xxx,"node":xxx,"val":xxx}...]

result = {}
for data_item in data:
    node_name = data_item["node"]
    if node_name in result.keys():
        result[node_name].append(data_item)
    else:
        result[node_name] = [data_item]

之後再根據鍵（伺服器名稱）取出字典中的每一項的值（就是資料列表），對其sort加lambda根據每一項中的某個值進行排序。