文字分類是自然語言處理(NLP)任務之一,它旨在將文字歸類到預先定義的類別中。文字分類有許多實際應用,例如電子郵件過濾、垃圾郵件偵測、情緒分析和問答系統等。
使用python NLTK庫完成文字分類的任務可以分為以下步驟:
下面是一個使用Python NLTK庫完成文字分類的範例:
from nltk.corpus import stopWords from nltk.tokenize import word_tokenize from nltk.stem import PorterStemmer from nltk.classify import NaiveBayesClassifier # 加载数据 data = [("我爱北京", "积极"), ("我讨厌北京", "消极")] # 数据预处理 stop_words = set(stopwords.words("english")) stemmer = PorterStemmer() processed_data = [] for text, label in data: tokens = word_tokenize(text) filtered_tokens = [token for token in tokens if token not in stop_words] stemmed_tokens = [stemmer.stem(token) for token in filtered_tokens] processed_data.append((stemmed_tokens, label)) # 特征提取 all_words = [word for sentence, label in processed_data for word in sentence] word_features = list(set(all_words)) def document_features(document): document_words = set(document) features = {} for word in word_features: features["contains({})".fORMat(word)] = (word in document_words) return features feature_sets = [(document_features(sentence), label) for sentence, label in processed_data] # 模型训练 classifier = NaiveBayesClassifier.train(feature_sets) # 模型评估 print(classifier.accuracy(feature_sets))
在上面的範例中,我們使用了樸素貝葉斯分類器對文字進行分類。我們可以看到,分類器的準確率達到了100%。
文字分類是一項具有挑戰性的任務,但可以使用各種技術來提高分類器的準確率。例如,我們可以使用更多的特徵來訓練分類器,也可以使用更強大的分類器,例如支援向量機或決策樹等。
以上是【Python NLTK】文字分類,輕鬆搞定文本歸類難題的詳細內容。更多資訊請關注PHP中文網其他相關文章!