python - 如何利用元组中某个数据或字典中某组key，对一个序列的数据进行排序？

Question

假设通过对海量的原始数据后分析得到这样的数据: [(id,node,val)(id,node,val)...]就是依次为 用户id，所在服务器，数值 这样的元组，然后要根据服务器分开，再依靠val大小进行排序，然后写入excel中。或者产生[{...

过去多啦不再A梦 · Answer

from collections import defaultdict

d = defaultdict(list)
data = [(id,node,val),(id,node,val)...]

# 按node进行分组
for x in data:
    d[x[1]].append(x)
    
# 将分组数据依次写入excel
for _, v in d.iteritems():
    # 排序
    tmp = sorted(v, key=lambda x: x["val"], reverse=True/False)
    # 写入excel
    write_to_excel(tmp)

另外其实可以将数据按id, node, val 全部写入csv文件
通过linux的awk, uniq, sort 等命令工具写一个shell脚本, 也是很快的

还有关于你的海量数据究竟有多大, 在哪个数量级,没有明确, 如果数据量真的很大, 用上面的python代码内存不够用也是可能的, 这个需要你自己估算下

我想大声告诉你 · Answer

如果我正确理解了你的需求的话，可以用字典，字典的键是node的名称，字典的值是由项组成的列表：

data = [{"id":xxx,"node":xxx,"val":xxx},{"id":xxx,"node":xxx,"val":xxx}...]

result = {}
for data_item in data:
    node_name = data_item["node"]
    if node_name in result.keys():
        result[node_name].append(data_item)
    else:
        result[node_name] = [data_item]

之后再根据键（服务器名称）取出字典中的每一项的值（就是数据列表），对其sort加lambda根据每一项中的某个值进行排序。