如题,最近有需求要做文章相似度分析,需求很简单,具体就是对比两篇分别300字左右的文章的相似度情况,目前查到的方法,需要先中文分词(jieba),然后对比相似度,时间紧任务重,不知道有没有做过类似功能的大神可以指点一二的
认证0级讲师
第一步你已經給了,首先對文章進行中文分詞,然後計算每個詞在兩篇文章中的tf-idf值。然後計算兩個文章的餘弦相似度,可以用Python中的gensim來實現。
有疑問請繼續提問。
補一下一樓的答案在食用餘弦相似性或TF-IDF,應該先去掉停止詞。
停止詞,是由英文單字:stopword翻譯過來的,原來在英文裡面會遇到很多a,the,or等使用頻率很多的字或詞,常為冠詞、介詞、副詞或連詞等。 因為副詞,連接詞這類詞語不會十分影響我們對語意的判斷。
但是單純的餘弦相似性和TF-IDF某種情況下並不能十分的可靠。 推一波自己的連結2333這裡
建議使用textrank和以上演算法結合
第一步你已經給了,首先對文章進行中文分詞,然後計算每個詞在兩篇文章中的tf-idf值。然後計算兩個文章的餘弦相似度,可以用Python中的gensim來實現。
有疑問請繼續提問。
補一下一樓的答案
在食用餘弦相似性或TF-IDF,應該先去掉停止詞。
但是單純的餘弦相似性和TF-IDF某種情況下並不能十分的可靠。
推一波自己的連結2333這裡
建議使用textrank和以上演算法結合