Offizielle Dokumentation von CountVectorizer.
Vektorisieren Sie eine Dokumentensammlung in eine Zählmatrix.
Wenn Sie kein A-priori-Wörterbuch bereitstellen und keinen Analysator zur Merkmalsauswahl verwenden, entspricht die Anzahl der Merkmale dem durch die Analyse der Daten ermittelten Wortschatz.
Zwei Methoden: 1. Sie können es ohne Wortsegmentierung direkt in das Modell einfügen. 2. Sie können den chinesischen Text zuerst segmentieren.
Der durch die beiden Methoden erzeugte Wortschatz wird sehr unterschiedlich sein. Spezifische Demonstrationen werden später gegeben.
import jieba import re from sklearn.feature_extraction.text import CountVectorizer #原始数据 text = ['很少在公众场合手机外放', '大部分人都还是很认真去学习的', '他们会用行动来', '无论你现在有多颓废,振作起来', '只需要一点点地改变', '你的外在和内在都能焕然一新'] #提取中文 text = [' '.join(re.findall('[\u4e00-\u9fa5]+',tt,re.S)) for tt in text] #分词 text = [' '.join(jieba.lcut(tt)) for tt in text] text
#构建模型 vectorizer = CountVectorizer() #训练模型 X = vectorizer.fit_transform(text)
#所有文档汇集后生成的词汇 feature_names = vectorizer.get_feature_names() print(feature_names)
Vokabeln, die ohne Wortsegmentierung generiert wurden
Vokabeln, die nach der Wortsegmentierung generiert wurden
Das obige ist der detaillierte Inhalt vonWie verwende ich CountVectorizer in Pythons sklearn?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!