이 튜토리얼은 Python을 사용하여 단어 주파수를 분석하여 문서의 주요 주제를 신속하게 결정하는 방법을 보여줍니다. 단어 발생을 수동으로 계산하는 것은 지루합니다. 이 자동화 된 접근 방식은 프로세스를 단순화합니다
정규 표현 이해 test.txt
프로그램 구축
파일 읽기 :프로그램은 텍스트 파일을 문자열로 읽는 것으로 시작합니다.
정규 표현 : regex는 3 ~ 15 자로 단어를 필터링합니다.
출력 :
프로그램은 각 단어와 그 주파수를 인쇄합니다.document_text = open('test.txt', 'r') text_string = document_text.read().lower()
match_pattern = re.findall(r'\b[a-z]{3,15}\b', text_string)
더 큰 파일의 경우 주파수 사전을 정렬하면 가장 빈번한 단어를 단순화합니다.
이것은 가장 빈번한 단어가 먼저 나타나면서 정렬 된 목록을 출력합니다.
frequency = {} for word in match_pattern: count = frequency.get(word, 0) frequency[word] = count + 1
이 강화 된 Python 스크립트는 텍스트를 분석하고 단어 빈도를 기반으로 주요 주제를 식별하는 강력한 방법을 제공합니다. 특정 요구에 맞게 블랙리스트 및 단어 길이 기준을 조정해야합니다. .
위 내용은 파이썬을 사용하여 파일의 단어 주파수 계산의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!