카운터 도구는 빠르고 편리한 계산을 제공합니다. 카운터는 해시 가능한 개체를 계산하는 데 사용되는 dict의 하위 클래스입니다. 이는 사전 키처럼 저장된 요소와 해당 개수를 값으로 포함하는 컬렉션입니다. Count는 0과 음수를 포함한 모든 정수 값이 될 수 있으며 Counter 클래스는 다른 언어의 bag 또는 multiset과 약간 비슷합니다. 간단히 말해서 통계적으로 계산할 수 있습니다. 몇 가지 예를 살펴보겠습니다.
예:
#计算top10的单词 from collections import Counter import re text = 'remove an existing key one level down remove an existing key one level down' words = re.findall(r'\w+', text) Counter(words).most_common(10) [('remove', 2),('an', 2),('existing', 2),('key', 2),('one', 2)('level', 2),('down', 2)] #计算列表中单词的个数 cnt = Counter() for word in ['red', 'blue', 'red', 'green', 'blue', 'blue']: cnt[word] += 1 cnt Counter({'red': 2, 'blue': 3, 'green': 1}) #上述这样计算有点嘛,下面的方法更简单,直接计算就行 L = ['red', 'blue', 'red', 'green', 'blue', 'blue'] Counter(L) Counter({'red': 2, 'blue': 3, 'green': 1}
요소는 반복 가능 항목에서 계산되거나 다른 매핑(또는 카운터)에서 초기화됩니다.
from collections import Counter #字符串计数 Counter('gallahad') Counter({'g': 1, 'a': 3, 'l': 2, 'h': 1, 'd': 1}) #字典计数 Counter({'red': 4, 'blue': 2}) Counter({'red': 4, 'blue': 2}) #计数 Counter(cats=4, dogs=8) Counter({'cats': 4, 'dogs': 8}) Counter(['red', 'blue', 'red', 'green', 'blue', 'blue']) Counter({'red': 2, 'blue': 3, 'green': 1})
1.1 목록/문자열에 미치는 영향
다음은 두 가지 사용 방법입니다. 하나는 직접 사용하는 것이고, 다른 하나는 인스턴스화 후에 사용하는 것입니다. 자주 호출하려는 경우 당연히 후자가 더 간결합니다. Counter를 쉽게 호출할 수 있습니다. 다양한 메서드는 다른 반복 가능한 시퀀스에서도 동일합니다.
#首先引入该方法 from collections import Counter #对列表作用 list_01 = [1,9,9,5,0,8,0,9] #GNZ48-陈珂生日 print(Counter(list_01)) #Counter({9: 3, 0: 2, 1: 1, 5: 1, 8: 1}) #对字符串作用 temp = Counter('abcdeabcdabcaba') print(temp) #Counter({'a': 5, 'b': 4, 'c': 3, 'd': 2, 'e': 1}) #以上其实是两种使用方法,一种是直接用,一种是实例化以后使用,如果要频繁调用的话,显然后一种更简洁
1.2 결과 출력
#查看类型 print( type(temp) ) #<class 'collections.Counter'> #转换为字典后输出 print( dict(temp) ) #{'b': 4, 'a': 5, 'c': 3, 'd': 2, 'e': 1} for num,count in enumerate(dict(temp).items()): print(count) """ ('e', 1) ('c', 3) ('a', 5) ('b', 4) ('d', 2) """
1.3 내장된 items() 메소드를 사용하여 출력
분명히 이 방법은 사전으로 변환한 다음 출력하는 것보다 더 편리합니다:
print(temp.items()) #dict_items([('e', 1), ('c', 3), ('b', 4), ('d', 2), ('a', 5)]) for item in temp.items(): print(item) """ ('a', 5) ('c', 3) ('d', 2) ('e', 1) ('b', 4) """
는 Most_common() 메소드를 사용하여 n개의 가장 일반적인 요소와 해당 요소의 발생 횟수를 포함하는 목록을 반환하며, 공통성을 높은 것부터 낮은 것으로 정렬합니다. n이 생략되거나 None인 경우, Most_common()은 카운터의 모든 요소를 반환합니다. 동일한 개수 값을 가진 요소는 처음 나타나는 순서대로 정렬됩니다. 상위 단어 빈도를 계산하는 데 자주 사용되는 단어:
#求序列中出现次数最多的元素 from collections import Counter list_01 = [1,9,9,5,0,8,0,9] temp = Counter(list_01) #统计出现次数最多的一个元素 print(temp.most_common(1)) #[(9, 3)] 元素“9”出现3次。 print(temp.most_common(2)) #[(9, 3), (0, 2)] 统计出现次数最多个两个元素 #没有指定个数,就列出全部 print(temp.most_common()) #[(9, 3), (0, 2), (1, 1), (5, 1), (8, 1)]
Counter('abracadabra').most_common(3) [('a', 5), ('b', 2), ('r', 2)] Counter('abracadabra').most_common(5) [('a', 5), ('b', 2), ('r', 2), ('c', 1), ('d', 1)]
설명: 각 요소가 count 값에 지정된 횟수만큼 반복되는 반복기를 반환합니다. 요소는 처음 나타나는 순서대로 반환됩니다. 요소의 개수가 1보다 작으면 elements()는 이를 무시합니다.
예:
c = Counter(a=4, b=2, c=0, d=-2) list(c.elements()) ['a', 'a', 'a', 'a', 'b', 'b'] sorted(c.elements()) ['a', 'a', 'a', 'a', 'b', 'b'] c = Counter(a=4, b=2, c=0, d=5) list(c.elements()) ['a', 'a', 'a', 'a', 'b', 'b', 'd', 'd', 'd', 'd', 'd']
from collections import Counter c = Counter('ABCABCCC') print(c.elements()) #<itertools.chain object at 0x0000027D94126860> #尝试转换为list print(list(c.elements())) #['A', 'A', 'C', 'C', 'C', 'C', 'B', 'B'] #或者这种方式 print(sorted(c.elements())) #['A', 'A', 'B', 'B', 'C', 'C', 'C', 'C'] #这里与sorted的作用是: list all unique elements,列出所有唯一元素 #例如 print( sorted(c) ) #['A', 'B', 'C']
공식 문서 예:
# Knuth's example for prime factors of 1836: 2**2 * 3**3 * 17**1 prime_factors = Counter({2: 2, 3: 3, 17: 1}) product = 1 for factor in prime_factors.elements(): # loop over factors product *= factor # and multiply them print(product) #1836 #1836 = 2*2*3*3*3*17
반복 객체 또는 맵 객체에서 요소를 빼냅니다. 두 입력 모두 출력은 0 또는 음수일 수 있습니다.
c = Counter(a=4, b=2, c=0, d=-2) d = Counter(a=1, b=2, c=3, d=4) c.subtract(d) c Counter({'a': 3, 'b': 0, 'c': -3, 'd': -6}) #减去一个abcd str0 = Counter('aabbccdde') str0 Counter({'a': 2, 'b': 2, 'c': 2, 'd': 2, 'e': 1}) str0.subtract('abcd') str0 Counter({'a': 1, 'b': 1, 'c': 1, 'd': 1, 'e': 1}
subtract_test01 = Counter("AAB") subtract_test01.subtract("BCC") print(subtract_test01) #Counter({'A': 2, 'B': 0, 'C': -2})
여기서 숫자는 0으로 줄어들 수 있으며 0과 음수를 포함할 수 있습니다:
subtract_test02 = Counter("which") subtract_test02.subtract("witch") #从另一个迭代序列中减去元素 subtract_test02.subtract(Counter("watch")) #^…… #查看结果 print( subtract_test02["h"] ) # 0 ,whirch 中两个,减去witch中一个,减去watch中一个,剩0个 print( subtract_test02["w"] ) #-1
일반적으로 사전 메서드는 사전과 다르게 작동하는 두 가지 메서드가 있다는 점을 제외하면 Counter 개체에 사용할 수 있습니다.
fromkeys(iterable): 이 클래스 메소드는 Counter에서 구현되지 않습니다.
update([iterable-or-mapping]): 반복 가능한 객체의 요소 수를 계산하거나 다른 매핑 객체(또는 카운터)에서 추가하면 요소 수가 추가됩니다. 또한 반복 개체는 (키, 값) 쌍이 아닌 시퀀스 요소여야 합니다.
sum(c.values()) # total of all counts c.clear() # reset all counts list(c) # list unique elements set(c) # convert to a set dict(c) # convert to a regular dictionary c.items() # convert to a list of (elem, cnt) pairs Counter(dict(list_of_pairs)) # convert from a list of (elem, cnt) pairs c.most_common(n) # n least common elements +c # remove zero and negative counts
이 함수는 매우 강력하며 다중 집합(카운터에서 0보다 큰 요소)을 생성하기 위해 Counter 객체와 결합할 수 있는 여러 수학 연산을 제공합니다. 더하기 및 빼기는 해당 요소 수를 더하거나 빼서 카운터를 결합합니다. 교차점과 합집합은 해당 개수의 최소값 또는 최대값을 반환합니다. 각 작업은 부호 있는 카운트를 허용하지만 출력에서는 결과가 0이거나 0보다 작은 카운트를 무시합니다.
c = Counter(a=3, b=1) d = Counter(a=1, b=2) c + d # add two counters together: c[x] + d[x] Counter({'a': 4, 'b': 3}) c - d # subtract (keeping only positive counts) Counter({'a': 2}) c & d # intersection: min(c[x], d[x]) Counter({'a': 1, 'b': 1}) c | d # union: max(c[x], d[x]) Counter({'a': 3, 'b': 2})
print(Counter('AAB') + Counter('BCC')) #Counter({'B': 2, 'C': 2, 'A': 2}) print(Counter("AAB")-Counter("BCC")) #Counter({'A': 2})
및 "and"or"연산:
print(Counter('AAB') & Counter('BBCC')) #Counter({'B': 1}) print(Counter('AAB') | Counter('BBCC')) #Counter({'A': 2, 'C': 2, 'B': 2})
단일 덧셈 및 뺄셈(단항 연산자)은 빈 카운터에서 더하거나 빼는 것을 의미하며, 이는 카운트 값에 양수 또는 음수 값을 곱하는 것과 동일하며 동일한 출력이 발생합니다. 결과가 0이거나 0보다 작은 개수는 무시합니다:
c = Counter(a=2, b=-4) +c Counter({'a': 2}) -c Counter({'b': 4})
텍스트 유사성, 가중 유사성을 계산하는 알고리즘 작성:
def str_sim(str_0,str_1,topn): topn = int(topn) collect0 = Counter(dict(Counter(str_0).most_common(topn))) collect1 = Counter(dict(Counter(str_1).most_common(topn))) jiao = collect0 & collect1 bing = collect0 | collect1 sim = float(sum(jiao.values()))/float(sum(bing.values())) return(sim) str_0 = '定位手机定位汽车定位GPS定位人定位位置查询' str_1 = '导航定位手机定位汽车定位GPS定位人定位位置查询' str_sim(str_0,str_1,5) 0.75
from collections import Counter c = Counter('ABCABCCC') print(sum(c.values())) # 8 total of all counts print(c.keys()) #dict_keys(['A', 'B', 'C']) print(c.values()) #dict_values([2, 2, 4])
from collections import Counter c = Counter('ABBCC') #查询具体某个元素的个数 print(c["A"]) #1
for elem in 'ADD': # update counts from an iterabl c[elem] += 1 print(c.most_common()) #[('C', 2), ('D', 2), ('A', 2), ('B', 2)] #可以看出“A”增加了一个,新增了两个“D”
del c["D"] print(c.most_common()) #[('C', 2), ('A', 2), ('B', 2)] del c["C"] print(c.most_common()) #[('A', 2), ('B', 2)]
most_common([n]): 가장 자주 액세스되는 n개의 요소를 제공하는 목록을 반환하고
subtract([iterable-or-mapping]): iterable에서 요소를 뺍니다. 객체, 입력 및 출력은 0 또는 음수일 수 있으며 이는 빼기 기호의 역할과 다릅니다. -
update([iterable-or-mapping]): 반복 가능한 객체의 요소를 계산하거나 다른 매핑 객체에서 추가합니다( 또는 카운터)
예:
d = Counter("CCDD") c.update(d) print(c.most_common()) #[('B', 2), ('A', 2), ('C', 2), ('D', 2)]
c.clear() print(c) #Counter()
위 내용은 Python 카운터: collections.Counter를 사용하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!