단어 빈도 계산 및 빈도별 정렬
텍스트 데이터가 포함된 대규모 데이터 세트로 작업할 때 개별 단어의 빈도를 분석해야 하는 경우가 많습니다. . 이 정보는 다양한 자연어 처리(NLP) 작업에 사용될 수 있습니다. Python에서는 Counter라는 강력한 도구를 사용하여 이 작업을 단순화할 수 있습니다.
디자인 구현
디자인에서는 다음 단계를 간략하게 설명합니다.
Python에서 카운터 사용
Python의 컬렉션 모듈은 특수한 컬렉션 기능을 제공합니다. Counter라는 클래스는 iterable의 요소를 계산하고 집계하도록 설계되었습니다. 카운터를 사용하면 한 줄의 코드로 3~6단계를 수행할 수 있습니다. Counter를 사용하여 디자인을 구현하는 방법은 다음과 같습니다.
<code class="python">from collections import Counter # Create a Counter from the list of words counts = Counter(original_list) # Sort the keys (unique words) based on their frequencies sorted_words = sorted(counts.keys(), key=lambda x: counts[x], reverse=True)</code>
이 코드는 고유 단어의 정렬된 목록을 생성하며, 여기서 빈도가 가장 높은 단어가 먼저 나타납니다.
예
<code class="python">list1 = ['the', 'car', 'apple', 'banana', 'car', 'apple'] counts = Counter(list1) print(counts) # Counter({'apple': 2, 'car': 2, 'banana': 1, 'the': 1}) sorted_words = sorted(counts.keys(), key=lambda x: counts[x], reverse=True) print(sorted_words) # ['apple', 'car', 'banana', 'the']</code>
위 내용은 Python에서 단어 빈도를 계산하고 빈도별로 정렬하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!