J'ai écrit un petit programme python d'environ 70 lignes pour calculer la similarité des documents.
Le matériel est constitué de 88 documents papier, utilisant le package gensim.
Le processus du programme consiste à prétraiter le document (suppression des symboles inutiles, segmentation des mots, etc.), à calculer la valeur tfidf du document et à établir le modèle tfidf et l'index du modèle de 88 articles. Jusqu'à présent, le programme fonctionne normalement, mais lors de l'utilisation de l'index, une erreur est signalée :
Quelle est la cause de cela ? Merci~
Ce qui suit fait partie du code source qui s'exécute sans problème :
#分词:
texts = [[word for word in document.split()]for document in documents]
#利用所有文档,创建词典
dictionary = corpora.Dictionary(texts)
#创建语料
corpus = [dictionary.doc2bow(text) for text in texts]
#利用这些语料,创建tfidf模型
tfidf_model = models.TfidfModel(corpus)
#计算每个文档的tfidf
tfidfs = tfidf_model[corpus]
#创建tfidf的索引
index = similarities.SparseMatrixSimilarity(tfidfs,num_features=88075)
Un problème est survenu lors de l'exécution de ce code :
#创建目标文档的语料
content = 'A student of music needs as long and as arduous a training to become a performer as a medical student needs to become a doctor'
content = content.lower().split()
test = dictionary.doc2bow(content)
#计算目标文档的tfidf
test_tfidf = tfidf_model[test]
sims = index[test_tfidf]#**就是这一句出现了问题!**
Quelle est votre version de Python ? Actuellement
.gensim
的版本?是否和官网测试过的稳定版一致?还有,建议使用类Unix系统,gensim基于NumPy
和Scipy
, il est difficile d'installer les deux sur Win. Même s'ils sont installés, il ne peut y avoir aucun problèmeCette erreur peut également être provoquée par le système d'exploitation Windows. Si vous copiez le code sur Google, vous trouverez de nombreuses solutions, comme celle-ci :
Comment corriger l'erreur 0xc0000417 ?
http://www.wiki-errors.com/do... Téléchargez-le et installez-le. Retournez sur Baidu pour assurer votre sécurité.
Version piratée du système d'exploitation ?
Passez à Linux.