django - python实现两篇文章相似度分析

Question

如题，最近有需求要做文章相似度分析，需求很简单，具体就是对比两篇分别300字左右的文章的相似度情况，目前查到的方法，需要先中文分词（jieba），然后对比相似度，时间紧任务重，不知道有没有做过类似功能的大...

PHP中文网 · Answer

第一步你已經給了，首先對文章進行中文分詞，然後計算每個詞在兩篇文章中的tf-idf值。然後計算兩個文章的餘弦相似度，可以用Python中的gensim來實現。

有疑問請繼續提問。

迷茫 · Answer

補一下一樓的答案
在食用餘弦相似性或TF-IDF，應該先去掉停止詞。

停止詞，是由英文單字:stopword翻譯過來的，原來在英文裡面會遇到很多a，the，or等使用頻率很多的字或詞，常為冠詞、介詞、副詞或連詞等。
因為副詞，連接詞這類詞語不會十分影響我們對語意的判斷。

但是單純的餘弦相似性和TF-IDF某種情況下並不能十分的可靠。
推一波自己的連結2333這裡

建議使用textrank和以上演算法結合