外部ライブラリを使用せずにPythonで文文字列間のコサイン類似度を計算する方法は?-Python チュートリアル-php.cn

外部ライブラリを使用せずにPythonで文文字列間のコサイン類似度を計算する方法は?

Linda Hamilton

リリース： 2024-10-31 14:30:02

オリジナル

1126 人が閲覧しました

How to Calculate Cosine Similarity Between Sentence Strings in Python Without External Libraries?

外部ライブラリを使用しない文文字列のコサイン類似度の計算

外部モジュールを使用せずに 2 つのテキスト文字列間のコサイン類似度を計算するには、単純な Python 実装を使用します。雇用することができる。このプロセスでは基本的なコサイン類似度公式が利用されます:

cos(θ) = (A · B) / (||A|| · ||B||)

ログイン後にコピー

ここで:

A と B は文を表す 2 つのベクトルです。
A · Bはベクトル A と B のドット積です。
||A||そして ||B||は、ベクトル A と B のそれぞれの大きさです。

実装

次の Python コードは、この式の実際的な実装を提供します。

<code class="python">import math
import re
from collections import Counter

WORD = re.compile(r"\w+")

def get_cosine(vec1, vec2):
    intersection = set(vec1.keys()) & set(vec2.keys())
    numerator = sum([vec1[x] * vec2[x] for x in intersection])

    sum1 = sum([vec1[x] ** 2 for x in list(vec1.keys())])
    sum2 = sum([vec2[x] ** 2 for x in list(vec2.keys())])
    denominator = math.sqrt(sum1) * math.sqrt(sum2)

    if not denominator:
        return 0.0
    else:
        return float(numerator) / denominator


def text_to_vector(text):
    words = WORD.findall(text)
    return Counter(words)</code>

ログイン後にコピー

このコードを使用するには、text_to_vector 関数を使用して文の文字列をベクトルに変換し、次に get_cosine 関数を使用してコサイン類似度を計算します。

<code class="python">text1 = "This is a foo bar sentence ."
text2 = "This sentence is similar to a foo bar sentence ."

vector1 = text_to_vector(text1)
vector2 = text_to_vector(text2)

cosine = get_cosine(vector1, vector2)

print("Cosine:", cosine)</code>

ログイン後にコピー

これにより、2 つの文の文字列間のコサイン類似度が出力されます。 tf-idf 重み付けはこの実装には含まれていませんが、適切なコーパスが利用可能な場合は追加できることに注意してください。

以上が外部ライブラリを使用せずにPythonで文文字列間のコサイン類似度を計算する方法は?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。