TF-IDF 및 코사인 유사성을 사용하여 텍스트 유사성을 측정하는 방법은 무엇입니까?-파이썬 튜토리얼-php.cn

집

백엔드 개발

파이썬 튜토리얼

TF-IDF 및 코사인 유사성을 사용하여 텍스트 유사성을 측정하는 방법은 무엇입니까?

Mary-Kate Olsen

Oct 23, 2024 am 06:53 AM

How to Measure Text Similarity using TF-IDF and Cosine Similarity?

TF-IDF 및 코사인 유사성을 이용한 텍스트 유사성 측정

두 텍스트 문서 간의 유사성을 확인하는 것은 텍스트 마이닝 및 정보에 있어서 중요한 작업입니다. 검색. 널리 사용되는 접근 방식 중 하나는 TF-IDF(Term Frequency-Inverse Document Frequency) 및 코사인 유사성을 활용하는 것입니다.

TF-IDF는 가중치를 할당합니다. 해당 문서의 빈도와 문서 코퍼스 전체의 희귀성을 기준으로 문서의 각 단어를 분류합니다. 유사한 단어 패턴을 가진 문서는 더 높은 TF-IDF 벡터를 공유합니다.

코사인 유사성은 두 벡터 사이의 각도를 측정하여 0(유사성 없음)과 1(완벽한 유사성) 사이의 값을 제공합니다. 우리의 경우 두 문서의 TF-IDF 벡터가 이러한 벡터를 형성하고 코사인 유사성은 각도를 수량화합니다.

Python 구현

Python에서는 scikit-learn 및 Gensim 패키지에서는 쌍별 유사성을 계산하는 것이 간단합니다.

<code class="python">from sklearn.feature_extraction.text import TfidfVectorizer

documents = [open(f).read() for f in text_files]
tfidf = TfidfVectorizer().fit_transform(documents)
pairwise_similarity = tfidf * tfidf.T</code>

로그인 후 복사

또는 문서가 이미 문자열인 경우 다음을 사용하세요.

<code class="python">corpus = ["I'd like an apple", "An apple a day keeps the doctor away", "..."]
vect = TfidfVectorizer(min_df=1, stop_words="english")
tfidf = vect.fit_transform(corpus)
pairwise_similarity = tfidf * tfidf.T</code>

로그인 후 복사

결과 해석

pairwise_similarity는 각 문서 쌍 간의 유사성을 나타내는 희소 행렬입니다. 특정 문서와 가장 유사한 문서를 찾으려면 문서 자체의 유사성을 마스크하고(NaN으로 설정) np.nanargmax()를 사용하여 해당 행에서 최대값을 찾습니다.

<code class="python">import numpy as np

arr = pairwise_similarity.toarray()
np.fill_diagonal(arr, np.nan)
input_doc = "The scikit-learn docs are Orange and Blue"
input_idx = corpus.index(input_doc)
result_idx = np.nanargmax(arr[input_idx])
similar_doc = corpus[result_idx]</code>

로그인 후 복사

기타 고려 사항

큰 말뭉치와 어휘의 경우 희소 행렬을 사용하는 것이 NumPy 배열로 변환하는 것보다 더 효율적입니다.

최소 문서에 대한 min_df와 같은 TfidfVectorizer의 매개변수를 조정하여 주파수에 따라 TF-IDF 계산은 특정 요구 사항에 맞게 사용자 정의될 수 있습니다.

추가 리소스

[정보 검색 소개](http://infolab .stanford.edu/~backrub/classes/2002/cs276/handouts/04-tfidf.pdf)
[Gensim을 사용한 쌍별 유사성 계산](https://stackoverflow.com/questions/23752770/computing- gensim과의 유사성)

위 내용은 TF-IDF 및 코사인 유사성을 사용하여 텍스트 유사성을 측정하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.