python - Comment trier une séquence de données en utilisant certaines données d'un tuple ou un certain ensemble de clés dans un dictionnaire?

Question

Supposons qu'après avoir analysé une grande quantité de données brutes, nous obtenions les données suivantes : [(id,node,val)(id,node,val)...] est un tuple d'identifiant utilisateur, de serveur et de valeur dans l'ordre, et nous devons ensuite séparer en fonction du serveur, trier en fonction de la taille de la valeur, puis l'écrire dans Excel. Ou produire [{...

过去多啦不再A梦 · Answer

from collections import defaultdict

d = defaultdict(list)
data = [(id,node,val),(id,node,val)...]

# 按node进行分组
for x in data:
    d[x[1]].append(x)
    
# 将分组数据依次写入excel
for _, v in d.iteritems():
    # 排序
    tmp = sorted(v, key=lambda x: x["val"], reverse=True/False)
    # 写入excel
    write_to_excel(tmp)

De plus, vous pouvez réellement écrire toutes les données dans un fichier csv par identifiant, nœud, val
L'écriture d'un script shell via les outils de commande awk, uniq, sort et autres de Linux est également très rapide

De plus, la taille de vos données massives et leur ordre de grandeur ne sont pas clairs. Si la quantité de données est vraiment importante, il est possible que la mémoire du code python ci-dessus ne soit pas suffisante. par vous-même

我想大声告诉你 · Answer

Si je comprends bien vos besoins, vous pouvez utiliser un dictionnaire. La clé du dictionnaire est le nom du nœud, et la valeur du dictionnaire est une liste composée d'éléments :

data = [{"id":xxx,"node":xxx,"val":xxx},{"id":xxx,"node":xxx,"val":xxx}...]

result = {}
for data_item in data:
    node_name = data_item["node"]
    if node_name in result.keys():
        result[node_name].append(data_item)
    else:
        result[node_name] = [data_item]

Ensuite, retirez la valeur de chaque élément du dictionnaire (c'est-à-dire la liste de données) en fonction de la clé (nom du serveur) et triez-la en ajoutant lambda pour la trier en fonction d'une certaine valeur dans chaque élément.