django - python实现两篇文章相似度分析
PHP中文网
PHP中文网 2017-04-18 10:31:37
0
2
643

如题,最近有需求要做文章相似度分析,需求很简单,具体就是对比两篇分别300字左右的文章的相似度情况,目前查到的方法,需要先中文分词(jieba),然后对比相似度,时间紧任务重,不知道有没有做过类似功能的大神可以指点一二的

PHP中文网
PHP中文网

认证0级讲师

membalas semua(2)
Ty80

Langkah pertama yang anda berikan ialah membahagikan artikel ke dalam perkataan Cina, dan kemudian mengira nilai tf-idf bagi setiap perkataan dalam dua artikel. Kemudian hitung persamaan kosinus kedua-dua artikel, yang boleh dilaksanakan menggunakan gensim dalam Python.

Jika anda mempunyai sebarang pertanyaan, sila teruskan bertanya.

迷茫

Tambahkan pada jawapan di tingkat satu
Apabila menggunakan persamaan kosinus atau TF-IDF, perkataan henti hendaklah dialih keluar dahulu.

Kata henti diterjemahkan daripada perkataan Inggeris: stopword Ternyata dalam bahasa Inggeris, anda akan menemui banyak perkataan atau perkataan yang kerap digunakan seperti a, the, or, etc., yang selalunya merupakan artikel, preposisi. , adverba atau Kata Hubung dll.
Kerana perkataan seperti adverba dan kata sendi tidak banyak mempengaruhi pertimbangan semantik kita.

Tetapi persamaan kosinus mudah dan TF-IDF tidak begitu boleh dipercayai dalam keadaan tertentu.
Tekan pautan anda sendiri 2333 di sini

Adalah disyorkan untuk menggunakan textrank dalam kombinasi dengan algoritma di atas

Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan
Tentang kita Penafian Sitemap
Laman web PHP Cina:Latihan PHP dalam talian kebajikan awam,Bantu pelajar PHP berkembang dengan cepat!