django - python实现两篇文章相似度分析
PHP中文网
PHP中文网 2017-04-18 10:31:37
0
2
639

如题,最近有需求要做文章相似度分析,需求很简单,具体就是对比两篇分别300字左右的文章的相似度情况,目前查到的方法,需要先中文分词(jieba),然后对比相似度,时间紧任务重,不知道有没有做过类似功能的大神可以指点一二的

PHP中文网
PHP中文网

认证0级讲师

모든 응답(2)
Ty80

첫 번째 단계는 기사를 중국어 단어로 분할한 다음 두 기사에 포함된 각 단어의 tf-idf 값을 계산하는 것입니다. 그런 다음 Python에서 gensim을 사용하여 구현할 수 있는 두 기사의 코사인 유사성을 계산합니다.

궁금한 점이 있으시면 계속 질문해주세요.

迷茫

1층 답변에 추가
코사인 유사성이나 TF-IDF를 소비할 때는 불용어를 먼저 제거해야 합니다.

불용어는 영어 단어인 stopword에서 번역됩니다. 영어에서는 종종 관사, 전치사인 a, the, or 등과 같이 자주 사용되는 단어나 단어를 접하게 됩니다. , 부사 또는 접속사 등
부사, 접속사 등의 단어는 우리의 의미판단에 큰 영향을 미치지 않기 때문입니다.

그러나 단순 코사인 유사성과 TF-IDF는 특정 상황에서는 그다지 신뢰할 수 없습니다.
여기에 자신의 링크 2333을 푸시하세요

위 알고리즘과 함께 textrank를 사용하는 것이 좋습니다

최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿
회사 소개 부인 성명 Sitemap
PHP 중국어 웹사이트:공공복지 온라인 PHP 교육,PHP 학습자의 빠른 성장을 도와주세요!