> 백엔드 개발 > 파이썬 튜토리얼 > Python의 sklearn에서 CountVectorizer를 사용하는 방법은 무엇입니까?

Python의 sklearn에서 CountVectorizer를 사용하는 방법은 무엇입니까?

WBOY
풀어 주다: 2023-05-07 23:58:06
앞으로
1886명이 탐색했습니다.

소개

CountVectorizer 공식 문서.

문서 컬렉션을 개수 행렬로 벡터화합니다.

선험적 사전을 제공하지 않고 분석기를 사용하여 일종의 기능 선택을 수행하지 않으면 기능의 수는 데이터를 분석하여 발견한 어휘와 동일합니다.

데이터 전처리

두 가지 방법: 1. 단어 분할 없이 모델에 직접 넣을 수 있습니다. 2. 중국어 텍스트를 먼저 분할할 수 있습니다.

두 가지 방법으로 생산되는 어휘는 매우 다릅니다. 구체적인 시연은 나중에 하겠습니다.

import jieba
import re
from sklearn.feature_extraction.text import CountVectorizer
#原始数据
text = ['很少在公众场合手机外放',
        '大部分人都还是很认真去学习的',
        '他们会用行动来',
        '无论你现在有多颓废,振作起来',
        '只需要一点点地改变',
        '你的外在和内在都能焕然一新']
#提取中文
text = [' '.join(re.findall('[\u4e00-\u9fa5]+',tt,re.S)) for tt in text]
#分词
text = [' '.join(jieba.lcut(tt)) for tt in text]
text
로그인 후 복사

Python의 sklearn에서 CountVectorizer를 사용하는 방법은 무엇입니까?

모델 구축

모델 교육

#构建模型
vectorizer = CountVectorizer()
#训练模型
X = vectorizer.fit_transform(text)
로그인 후 복사

모든 어휘: model.get_feature_names()

#所有文档汇集后生成的词汇
feature_names = vectorizer.get_feature_names()
print(feature_names)
로그인 후 복사

단어 분할 없이 생성된 어휘

Python의 sklearn에서 CountVectorizer를 사용하는 방법은 무엇입니까?

단어 분할 후 생성된 어휘

Python의 sklearn에서 CountVectorizer를 사용하는 방법은 무엇입니까?

행렬 계산 : X .toarray()

#每个文档相对词汇量出现次数形成的矩阵
matrix = X.toarray()
print(matrix)
로그인 후 복사

Python의 sklearn에서 CountVectorizer를 사용하는 방법은 무엇입니까?

#计数矩阵转化为DataFrame
df = pd.DataFrame(matrix, columns=feature_names)
df
로그인 후 복사

Python의 sklearn에서 CountVectorizer를 사용하는 방법은 무엇입니까?

어휘 색인: model.vocabulary_

print(vectorizer.vocabulary_)
로그인 후 복사

Python의 sklearn에서 CountVectorizer를 사용하는 방법은 무엇입니까?

위 내용은 Python의 sklearn에서 CountVectorizer를 사용하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:yisu.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿