分享python數據統計的一些小技巧-Python教學-PHP中文網

最近在用python做數據統計，這裡總結了一些最近使用時查找和總結的一些小技巧，希望能幫助在做這方面時的一些童鞋。有些技巧是很平常的用法，平常我們沒有註意，但是在特定場景，這些小方法還是能帶來很大的幫助。

1.在字典中將鍵映射到多個值上面

{'b': [4, 5, 6], 
'a': [1, 2, 3]}

登入後複製

有時候我們在統計相同key值的時候，希望把所有相同key的條目加到以key為鍵的一個字典中，然後再進行各種操作，這時候我們就可以使用下面的程式碼來操作：

from collections import defaultdict
d = defaultdict(list)
print(d)
d['a'].append(1)
d['a'].append(2)
d['a'].append(3)
d['b'].append(4)
d['b'].append(5)
d['b'].append(6)
print(d)
print(d.get("a"))
print(d.keys())
print([d.get(i) for i in d])

登入後複製

這裡是使用了collections中的方法，這裡面還擁有很多有用的方法，我們有時間在繼續深入了解。

上面程式碼運行結果：

defaultdict(, {})
defaultdict(, {'b': [4, 5, 6], 'a': [1, 2, 3]})
[1, 2, 3]
dict_keys(['b', 'a'])
[[4, 5, 6], [1, 2, 3]]

登入後複製

我們將資料填入之後，相當於進行快速分組，然後遍歷每個群組就可以統計一些我們需要的資料。

2.迅速轉換字典鍵值對

data = {...}
zip(data.values(), data.keys())

登入後複製

data是我們的格式數據，使用zip後進行快速鍵值轉換，然後可以使用max，min之類函數進行數據操作。

3.透過公共鍵對字典進行排序

from operator import itemgetter
data = [
  {'name': "bran", "uid": 101},
  {'name': "xisi", "uid": 102},
  {'name': "land", "uid": 103}
]
print(sorted(data, key=itemgetter("name")))
print(sorted(data, key=itemgetter("uid")))

登入後複製

資料格式就是data，我們想要對name或uid進行排序我們就是用程式碼中的方法。
運行結果：

[{'name': 'bran', 'uid': 101}, {'name': 'land', 'uid': 103}, {'name': 'xisi', 'uid': 102}]
[{'name': 'bran', 'uid': 101}, {'name': 'xisi', 'uid': 102}, {'name': 'land', 'uid': 103}]

登入後複製

正如我們所期望的

4.將清單中的多個字典依某一欄位分組

注意注意，在進行分組前要先對資料進行排序處理，排序欄位依實際要求來選擇

即將處理的資料：

rows = [
  {'name': "bran", "uid": 101, "class": 13},
  {'name': "xisi", "uid": 101, "class": 11},
  {'name': "land", "uid": 103, "class": 10}
]

登入後複製

期望處理結果：

{
101: [{'name': 'xisi', 'class': 11, 'uid': 101},{'name': 'bran', 'class': 13, 'uid': 101}],
103: [{'name': 'land', 'class': 10, 'uid': 103}]
}

登入後複製

我們按照uid進行分組，這裡只是演示，uid一般也不會重複。

這個比較複雜一點，我們一步驟來分解

some = [('a', [1, 2, 3]), ('b', [4, 5, 6])]
print(dict(some))

登入後複製

結果：

{'b': [4, 5, 6], 'a': [1, 2, 3]}

登入後複製

這裡我們的目的是將元組轉換成字典，這個很簡單，應該都看得懂。接著我們來下一步對待處理資料進行排序：

data_one = sorted(rows, key=itemgetter("class"))
print(data_one)
data_two = sorted(rows, key=lambda x: (x["uid"], x["class"]))
print(data_two)

登入後複製

這裡我們提供兩種排序方式原理相同，只是樣式稍有區別，第一種data_one是直接使用itemgetter，按照我們前面使用過得，直接按照某一字段進行排序，可是有時候我們會有另一種要求：

先依照某一欄位排序，當第一個欄位重複時，再依照另一個欄位排序。

這時我們就用第二種方法，進行多字段值排序。
排序結果如下：

[{'name': 'land', 'class': 10, 'uid': 103}, {'name': 'xisi', 'class': 11, 'uid': 101}, {'name': 'bran', 'class': 13, 'uid': 101}]
[{'name': 'xisi', 'class': 11, 'uid': 101}, {'name': 'bran', 'class': 13, 'uid': 101}, {'name': 'land', 'class': 10, 'uid': 103}]

登入後複製

結果大家慢慢看一下，還是略有差異。

接下來就進行最後一步了，將我們剛才講的兩種方式結合起來使用：

data = dict([(g, list(k)) for g, k in groupby(data_two, key=lambda x: x["uid"])])
print(data)

登入後複製

我們將排序好的資料分組，然後產生元組列表，最後將其轉換成字典，這裡大功告成，我們成功將資料分組。

python資料統計的一些小技巧就分享到這，有需要的可以參考學習。

相關標籤：

python 數據統計統計

上一篇：Python中使用bidict模組雙向字典結構的奇技淫巧下一篇：Python線上運行程式碼助手

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

作者最新文章

LLM的工作方式：培訓前訓練，神經網絡，幻覺和推理

2025-02-26 03:58:14
我將區塊鍊和AI組合在一起以生成藝術。接下來發生了什麼。

2025-02-26 03:38:10
高級及時工程：思想鏈（COT）

2025-02-26 03:17:10
在Sqlite中檢索增強發電

2025-02-26 02:49:09
如何使用LLM驅動的樣板構建自己的節點。JSAPI

2025-02-26 01:08:13
2024年編碼的LLM：價格，性能和爭取最佳的戰鬥

2025-02-26 00:46:10
提示視覺語言模型

2025-02-25 23:42:08
如何衡量大語模型的響應的可靠性

2025-02-25 22:50:13
生活的幻想

2025-02-25 21:54:11
科學家對大型語言模型的認真反映了人類思維

2025-02-25 20:45:11