Ich habe ein kleines Python-Programm mit etwa 70 Zeilen geschrieben, um die Ähnlichkeit von Dokumenten zu berechnen.
Das Material besteht aus 88 Papierdokumenten unter Verwendung des Gensim-Pakets.
Der Prozess des Programms besteht darin, das Dokument vorzuverarbeiten (unnötige Symbole löschen, Wortsegmentierung usw.), den TFIDF-Wert des Dokuments zu berechnen und das TFIDF-Modell und den Modellindex von 88 Papieren zu erstellen. Bis zu diesem Punkt läuft das Programm normal, aber bei der Verwendung des Index wird ein Fehler gemeldet:
Was ist die Ursache dafür? Danke~
Folgendes ist Teil des Quellcodes, der problemlos läuft:
#分词:
texts = [[word for word in document.split()]for document in documents]
#利用所有文档,创建词典
dictionary = corpora.Dictionary(texts)
#创建语料
corpus = [dictionary.doc2bow(text) for text in texts]
#利用这些语料,创建tfidf模型
tfidf_model = models.TfidfModel(corpus)
#计算每个文档的tfidf
tfidfs = tfidf_model[corpus]
#创建tfidf的索引
index = similarities.SparseMatrixSimilarity(tfidfs,num_features=88075)
Beim Ausführen dieses Codes ist ein Problem aufgetreten:
#创建目标文档的语料
content = 'A student of music needs as long and as arduous a training to become a performer as a medical student needs to become a doctor'
content = content.lower().split()
test = dictionary.doc2bow(content)
#计算目标文档的tfidf
test_tfidf = tfidf_model[test]
sims = index[test_tfidf]#**就是这一句出现了问题!**
你的python版本?当前
gensim
的版本?是否和官网测试过的稳定版一致?还有,建议使用类Unix系统,gensim基于NumPy
和Scipy
,这两者在win上都不好安装吧,安装好了也不见得不会出问题这种错误也有可能是Windows操作系统的锅,你把代码复制到Google一下会发现很多解决方案,比如这个:
How to fix 0xc0000417 Error?
http://www.wiki-errors.com/do... 下载安装即可,退百度保平安。
操作系统用的盗版?
换成Linux吧。