Heim > Backend-Entwicklung > Python-Tutorial > Wie verwende ich CountVectorizer in Pythons sklearn?

Wie verwende ich CountVectorizer in Pythons sklearn?

WBOY
Freigeben: 2023-05-07 23:58:06
nach vorne
1881 Leute haben es durchsucht

Einführung

Offizielle Dokumentation von CountVectorizer.

Vektorisieren Sie eine Dokumentensammlung in eine Zählmatrix.

Wenn Sie kein A-priori-Wörterbuch bereitstellen und keinen Analysator zur Merkmalsauswahl verwenden, entspricht die Anzahl der Merkmale dem durch die Analyse der Daten ermittelten Wortschatz.

Datenvorverarbeitung

Zwei Methoden: 1. Sie können es ohne Wortsegmentierung direkt in das Modell einfügen. 2. Sie können den chinesischen Text zuerst segmentieren.

Der durch die beiden Methoden erzeugte Wortschatz wird sehr unterschiedlich sein. Spezifische Demonstrationen werden später gegeben.

import jieba
import re
from sklearn.feature_extraction.text import CountVectorizer
#原始数据
text = ['很少在公众场合手机外放',
        '大部分人都还是很认真去学习的',
        '他们会用行动来',
        '无论你现在有多颓废,振作起来',
        '只需要一点点地改变',
        '你的外在和内在都能焕然一新']
#提取中文
text = [' '.join(re.findall('[\u4e00-\u9fa5]+',tt,re.S)) for tt in text]
#分词
text = [' '.join(jieba.lcut(tt)) for tt in text]
text
Nach dem Login kopieren

Wie verwende ich CountVectorizer in Pythons sklearn?

Erstellen Sie das Modell

Trainieren Sie das Modell

#构建模型
vectorizer = CountVectorizer()
#训练模型
X = vectorizer.fit_transform(text)
Nach dem Login kopieren

Alle Vokabeln: model.get_feature_names()

#所有文档汇集后生成的词汇
feature_names = vectorizer.get_feature_names()
print(feature_names)
Nach dem Login kopieren

Vokabeln, die ohne Wortsegmentierung generiert wurden

Wie verwende ich CountVectorizer in Pythons sklearn?

Vokabeln, die nach der Wortsegmentierung generiert wurden

Wie verwende ich CountVectorizer in Pythons sklearn?

Zählmatrix :

Das obige ist der detaillierte Inhalt vonWie verwende ich CountVectorizer in Pythons sklearn?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:yisu.com
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage