django - python实现两篇文章相似度分析

Question

如题，最近有需求要做文章相似度分析，需求很简单，具体就是对比两篇分别300字左右的文章的相似度情况，目前查到的方法，需要先中文分词（jieba），然后对比相似度，时间紧任务重，不知道有没有做过类似功能的大...

PHP中文网 · Answer

La première étape que vous avez donnée consiste à segmenter les articles en mots chinois, puis à calculer la valeur tf-idf de chaque mot dans les deux articles. Calculez ensuite la similarité cosinus des deux articles, qui peut être implémentée en utilisant gensim en Python.

Si vous avez des questions, continuez à les poser.

迷茫 · Answer

Ajouter à la réponse au premier étage
Lors de la consommation de similarité cosinus ou TF-IDF, les mots vides doivent être supprimés en premier.

Le mot vide est traduit du mot anglais : mot vide. Il s'avère qu'en anglais, vous rencontrerez de nombreux mots ou mots fréquemment utilisés comme a, the, or, etc., qui sont souvent des articles, des prépositions. , adverbes ou conjonctions etc.
Parce que les mots tels que les adverbes et les conjonctions n'affectent pas beaucoup notre jugement sémantique.

Mais la simple similarité cosinus et TF-IDF ne sont pas très fiables dans certaines circonstances.
Poussez votre propre lien 2333 ici

Il est recommandé d'utiliser textrank en combinaison avec l'algorithme ci-dessus