Maison > développement back-end > Tutoriel Python > Comment calculer la similarité cosinus entre des phrases en Python sans bibliothèques externes ?

Comment calculer la similarité cosinus entre des phrases en Python sans bibliothèques externes ?

DDD
Libérer: 2024-10-30 07:48:28
original
626 Les gens l'ont consulté

How to Calculate Cosine Similarity Between Sentences in Python Without External Libraries?

Calcul de la similarité cosinus entre les chaînes de phrases

Étant donné deux chaînes représentant des phrases, il est nécessaire de calculer leur similarité cosinus sans utiliser de bibliothèques externes. Explorons une implémentation Python pour y parvenir.

La similarité cosinus mesure l'angle entre deux vecteurs, représentant généralement des documents ou des phrases dans un espace vectoriel. Une valeur de similarité cosinus élevée indique que les phrases sont similaires, tandis qu'une valeur faible suggère qu'elles diffèrent.

Étape 1 : Tokenisation et vectorisation

Pour calculer la similarité cosinus, nous doit convertir les phrases en vecteurs. Nous utilisons un simple tokeniseur basé sur des mots qui divise les phrases en mots et compte leurs occurrences :

<code class="python">import re
from collections import Counter

WORD = re.compile(r"\w+")

def text_to_vector(text):
    words = WORD.findall(text)
    return Counter(words)</code>
Copier après la connexion

Étape 2 : Calcul de la similarité cosinus

La formule de similarité cosinus est :

cosine = (Numerator) / (Denominator)
Copier après la connexion

où :

  • Le numérateur est le produit scalaire des deux vecteurs.
  • Le dénominateur est le produit des grandeurs des deux vecteurs.
<code class="python">import math

def get_cosine(vec1, vec2):
    intersection = set(vec1.keys()) & set(vec2.keys())
    numerator = sum([vec1[x] * vec2[x] for x in intersection])

    sum1 = sum([vec1[x] ** 2 for x in list(vec1.keys())])
    sum2 = sum([vec2[x] ** 2 for x in list(vec2.keys())])
    denominator = math.sqrt(sum1) * math.sqrt(sum2)

    if not denominator:
        return 0.0
    else:
        return float(numerator) / denominator</code>
Copier après la connexion

Étape 3 : Exemple d'utilisation

En utilisant les fonctions ci-dessus, nous pouvons calculer la similarité cosinus entre deux phrases :

<code class="python">text1 = "This is a foo bar sentence."
text2 = "This sentence is similar to a foo bar sentence."

vector1 = text_to_vector(text1)
vector2 = text_to_vector(text2)

cosine = get_cosine(vector1, vector2)

print("Cosine:", cosine)</code>
Copier après la connexion

La sortie affichera une valeur de similarité cosinus élevée, indiquant que les phrases sont similaires.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal