La
La classification de texte est l'une des tâches du Traitement du langage naturel (NLP), qui vise à classer le texte en catégories prédéfinies. La classification de texte a de nombreuses applications pratiques, telles que le filtrage des e-mails, la détection du spam, l'analyse des sentiments et les systèmes de réponse aux questions, etc.
L'utilisation de la bibliothèque python NLTK pour effectuer la tâche de classification de texte peut être divisée en les étapes suivantes :
Voici un exemple de classification de texte à l'aide de la bibliothèque Python NLTK :
from nltk.corpus import stopWords from nltk.tokenize import word_tokenize from nltk.stem import PorterStemmer from nltk.classify import NaiveBayesClassifier # 加载数据 data = [("我爱北京", "积极"), ("我讨厌北京", "消极")] # 数据预处理 stop_words = set(stopwords.words("english")) stemmer = PorterStemmer() processed_data = [] for text, label in data: tokens = word_tokenize(text) filtered_tokens = [token for token in tokens if token not in stop_words] stemmed_tokens = [stemmer.stem(token) for token in filtered_tokens] processed_data.append((stemmed_tokens, label)) # 特征提取 all_words = [word for sentence, label in processed_data for word in sentence] word_features = list(set(all_words)) def document_features(document): document_words = set(document) features = {} for word in word_features: features["contains({})".fORMat(word)] = (word in document_words) return features feature_sets = [(document_features(sentence), label) for sentence, label in processed_data] # 模型训练 classifier = NaiveBayesClassifier.train(feature_sets) # 模型评估 print(classifier.accuracy(feature_sets))
Dans l'exemple ci-dessus, nous avons utilisé le classificateur Naive Bayes pour classer le texte. Nous pouvons voir que la précision du classificateur atteint 100 %.
La classification de texte est une tâche difficile, mais diverses techniques peuvent être utilisées pour améliorer la précision du classificateur. Par exemple, nous pouvons utiliser davantage de fonctionnalités pour entraîner le classificateur, ou nous pouvons utiliser des classificateurs plus puissants tels que des machines à vecteurs de support ou des arbres de décision.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!