La première étape que vous avez donnée consiste à segmenter les articles en mots chinois, puis à calculer la valeur tf-idf de chaque mot dans les deux articles. Calculez ensuite la similarité cosinus des deux articles, qui peut être implémentée en utilisant gensim en Python.
Si vous avez des questions, continuez à les poser.
Ajouter à la réponse au premier étage Lors de la consommation de similarité cosinus ou TF-IDF, les mots vides doivent être supprimés en premier.
Le mot vide est traduit du mot anglais : mot vide. Il s'avère qu'en anglais, vous rencontrerez de nombreux mots ou mots fréquemment utilisés comme a, the, or, etc., qui sont souvent des articles, des prépositions. , adverbes ou conjonctions etc. Parce que les mots tels que les adverbes et les conjonctions n'affectent pas beaucoup notre jugement sémantique.
Mais la simple similarité cosinus et TF-IDF ne sont pas très fiables dans certaines circonstances. Poussez votre propre lien 2333 ici
Il est recommandé d'utiliser textrank en combinaison avec l'algorithme ci-dessus
La première étape que vous avez donnée consiste à segmenter les articles en mots chinois, puis à calculer la valeur tf-idf de chaque mot dans les deux articles. Calculez ensuite la similarité cosinus des deux articles, qui peut être implémentée en utilisant gensim en Python.
Si vous avez des questions, continuez à les poser.
Ajouter à la réponse au premier étage
Lors de la consommation de similarité cosinus ou TF-IDF, les mots vides doivent être supprimés en premier.
Mais la simple similarité cosinus et TF-IDF ne sont pas très fiables dans certaines circonstances.
Poussez votre propre lien 2333 ici
Il est recommandé d'utiliser textrank en combinaison avec l'algorithme ci-dessus