CountVectorizer 공식 문서.
문서 컬렉션을 개수 행렬로 벡터화합니다.
선험적 사전을 제공하지 않고 분석기를 사용하여 일종의 기능 선택을 수행하지 않으면 기능의 수는 데이터를 분석하여 발견한 어휘와 동일합니다.
두 가지 방법: 1. 단어 분할 없이 모델에 직접 넣을 수 있습니다. 2. 중국어 텍스트를 먼저 분할할 수 있습니다.
두 가지 방법으로 생산되는 어휘는 매우 다릅니다. 구체적인 시연은 나중에 하겠습니다.
import jieba import re from sklearn.feature_extraction.text import CountVectorizer #原始数据 text = ['很少在公众场合手机外放', '大部分人都还是很认真去学习的', '他们会用行动来', '无论你现在有多颓废,振作起来', '只需要一点点地改变', '你的外在和内在都能焕然一新'] #提取中文 text = [' '.join(re.findall('[\u4e00-\u9fa5]+',tt,re.S)) for tt in text] #分词 text = [' '.join(jieba.lcut(tt)) for tt in text] text
#构建模型 vectorizer = CountVectorizer() #训练模型 X = vectorizer.fit_transform(text)
#所有文档汇集后生成的词汇 feature_names = vectorizer.get_feature_names() print(feature_names)
단어 분할 없이 생성된 어휘
단어 분할 후 생성된 어휘
#每个文档相对词汇量出现次数形成的矩阵 matrix = X.toarray() print(matrix)
#计数矩阵转化为DataFrame df = pd.DataFrame(matrix, columns=feature_names) df
print(vectorizer.vocabulary_)
위 내용은 Python의 sklearn에서 CountVectorizer를 사용하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!