django - python实现两篇文章相似度分析
PHP中文网
PHP中文网 2017-04-18 10:31:37
0
2
640

如题,最近有需求要做文章相似度分析,需求很简单,具体就是对比两篇分别300字左右的文章的相似度情况,目前查到的方法,需要先中文分词(jieba),然后对比相似度,时间紧任务重,不知道有没有做过类似功能的大神可以指点一二的

PHP中文网
PHP中文网

认证0级讲师

全員に返信(2)
Ty80

最初のステップはすでに完了しています。まず記事を中国語の単語に分割し、次に 2 つの記事内の各単語の tf-idf 値を計算します。次に、2 つの記事のコサイン類似度を計算します。これは、Python の gensim を使用して実装できます。

ご不明な点がございましたら、引き続きご質問ください。

いいねを押す +0
迷茫

1階の回答に追記してください
コサイン類似度やTF-IDFを使用する場合は、まずストップワードを削除する必要があります。

ストップワードは英語の単語から翻訳されたものです: stopword 英語では、a、the、or など、多くの場合、冠詞、前置詞、副詞、接続詞など、頻繁に使用される単語に遭遇することがわかります。 。
副詞や接続詞などの単語は私たちの意味判断に大きな影響を与えないからです。

しかし、単純コサイン類似度と TF-IDF は、特定の状況下ではあまり信頼できません。
ここに自分のリンク 2333 を押してください

textrankを上記のアルゴリズムと組み合わせて使用​​することをお勧めします

いいねを押す +0
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート
私たちについて 免責事項 Sitemap
PHP中国語ウェブサイト:福祉オンライン PHP トレーニング,PHP 学習者の迅速な成長を支援します!