파이썬을 사용하여 파일의 단어 주파수 계산
이 튜토리얼은 Python을 사용하여 단어 주파수를 분석하여 문서의 주요 주제를 신속하게 결정하는 방법을 보여줍니다. 단어 발생을 수동으로 계산하는 것은 지루합니다. 이 자동화 된 접근 방식은 프로세스를 단순화합니다
정규 표현 이해 test.txt
프로그램 구축
파일 읽기 :프로그램은 텍스트 파일을 문자열로 읽는 것으로 시작합니다.
정규 표현 : regex는 3 ~ 15 자로 단어를 필터링합니다.
-
단어 주파수 :
- 사전은 단어 주파수를 추적합니다
출력 :
프로그램은 각 단어와 그 주파수를 인쇄합니다.document_text = open('test.txt', 'r') text_string = document_text.read().lower()
로그인 후 복사 -
완료 프로그램
여기에 결합 된 파이썬 코드가 있습니다 : 이 실행하면 단어 주파수 목록이 출력됩니다. 가장 빈번한 단어는 원래 튜토리얼의 주제에 대한 힌트입니다. match_pattern = re.findall(r'\b[a-z]{3,15}\b', text_string)
로그인 후 복사 더 큰 텍스트 파일 처리 -
더 큰 파일의 경우 주파수 사전을 정렬하면 가장 빈번한 단어를 단순화합니다.
공통 단어 제외이것은 가장 빈번한 단어가 먼저 나타나면서 정렬 된 목록을 출력합니다.frequency = {} for word in match_pattern: count = frequency.get(word, 0) frequency[word] = count + 1
로그인 후 복사 -
이것은보다 집중된 분석을 제공합니다. 이 강화 된 Python 스크립트는 텍스트를 분석하고 단어 빈도를 기반으로 주요 주제를 식별하는 강력한 방법을 제공합니다. 특정 요구에 맞게 블랙리스트 및 단어 길이 기준을 조정해야합니다. .
위 내용은 파이썬을 사용하여 파일의 단어 주파수 계산의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











Fiddlerevery Where를 사용할 때 Man-in-the-Middle Reading에 Fiddlereverywhere를 사용할 때 감지되는 방법 ...

Linux 터미널에서 Python 사용 ...

10 시간 이내에 컴퓨터 초보자 프로그래밍 기본 사항을 가르치는 방법은 무엇입니까? 컴퓨터 초보자에게 프로그래밍 지식을 가르치는 데 10 시간 밖에 걸리지 않는다면 무엇을 가르치기로 선택 하시겠습니까?

Pythonasyncio에 대해 ...

Investing.com의 크롤링 전략 이해 많은 사람들이 종종 Investing.com (https://cn.investing.com/news/latest-news)에서 뉴스 데이터를 크롤링하려고합니다.

Python 3.6에 피클 파일 로딩 3.6 환경 오류 : ModulenotFounderRor : nomodulename ...

SCAPY 크롤러를 사용할 때 파이프 라인 파일을 작성할 수없는 이유에 대한 논의 지속적인 데이터 저장을 위해 SCAPY 크롤러를 사용할 때 파이프 라인 파일이 발생할 수 있습니다 ...
