django - python实现两篇文章相似度分析
PHP中文网
PHP中文网 2017-04-18 10:31:37
0
2
688

如题,最近有需求要做文章相似度分析,需求很简单,具体就是对比两篇分别300字左右的文章的相似度情况,目前查到的方法,需要先中文分词(jieba),然后对比相似度,时间紧任务重,不知道有没有做过类似功能的大神可以指点一二的

PHP中文网
PHP中文网

认证0级讲师

répondre à tous(2)
Ty80

La première étape que vous avez donnée consiste à segmenter les articles en mots chinois, puis à calculer la valeur tf-idf de chaque mot dans les deux articles. Calculez ensuite la similarité cosinus des deux articles, qui peut être implémentée en utilisant gensim en Python.

Si vous avez des questions, continuez à les poser.

迷茫

Ajouter à la réponse au premier étage
Lors de la consommation de similarité cosinus ou TF-IDF, les mots vides doivent être supprimés en premier.

Le mot vide est traduit du mot anglais : mot vide. Il s'avère qu'en anglais, vous rencontrerez de nombreux mots ou mots fréquemment utilisés comme a, the, or, etc., qui sont souvent des articles, des prépositions. , adverbes ou conjonctions etc.
Parce que les mots tels que les adverbes et les conjonctions n'affectent pas beaucoup notre jugement sémantique.

Mais la simple similarité cosinus et TF-IDF ne sont pas très fiables dans certaines circonstances.
Poussez votre propre lien 2333 ici

Il est recommandé d'utiliser textrank en combinaison avec l'algorithme ci-dessus

Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal