서로 다른 텍스트 문서 간의 유사성을 어떻게 계산할 수 있습니까?
텍스트 문서 간의 유사성을 확인하는 방법
문제: 두 텍스트 문서 간의 유사성을 계산하여 의미적 정렬을 평가하려고 합니다.
해결책: 문서 유사성을 측정하는 데 널리 사용되는 접근 방식은 문서 유사성을 TF-IDF(용어 빈도-역 문서 빈도) 벡터로 변환하는 것입니다. TF-IDF는 문서 내 빈도와 코퍼스 전체의 희귀성을 기준으로 용어에 가중치를 할당합니다. 그런 다음 이러한 벡터 간의 코사인 유사성을 계산하여 유사성을 정량화합니다.
구현: Python의 Gensim과 scikit-learn은 TF-IDF 변환을 위한 강력한 구현을 제공합니다. scikit-learn 사용:
<code class="python">from sklearn.feature_extraction.text import TfidfVectorizer documents = [open(f).read() for f in text_files] tfidf = TfidfVectorizer().fit_transform(documents) # Cosine similarity is calculated automatically pairwise_similarity = tfidf * tfidf.T</code>
결과 pairwise_similarity는 각 셀이 해당 문서 쌍 간의 코사인 유사성을 나타내는 희소 행렬입니다.
결과 해석: 희소 행렬은 코퍼스의 문서 수와 동일한 차원을 갖습니다. 주어진 입력 문서와 유사성이 가장 높은 문서를 추출하려면 NumPy의 np.fill_diagonal()을 활용하여 자기 유사성을 가리고 np.nanargmax()를 사용하여 자기 유사성이 아닌 최대값을 찾습니다.
<code class="python">result_idx = np.nanargmax(arr[input_idx]) most_similar_doc = corpus[result_idx]</code>
argmax는 사소한 최대값 1(각 문서 자체와의 유사성)을 피하기 위해 마스크된 배열에서 수행됩니다.
위 내용은 서로 다른 텍스트 문서 간의 유사성을 어떻게 계산할 수 있습니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











Fiddlerevery Where를 사용할 때 Man-in-the-Middle Reading에 Fiddlereverywhere를 사용할 때 감지되는 방법 ...

Linux 터미널에서 Python 사용 ...

10 시간 이내에 컴퓨터 초보자 프로그래밍 기본 사항을 가르치는 방법은 무엇입니까? 컴퓨터 초보자에게 프로그래밍 지식을 가르치는 데 10 시간 밖에 걸리지 않는다면 무엇을 가르치기로 선택 하시겠습니까?

Pythonasyncio에 대해 ...

Investing.com의 크롤링 전략 이해 많은 사람들이 종종 Investing.com (https://cn.investing.com/news/latest-news)에서 뉴스 데이터를 크롤링하려고합니다.

Python 3.6에 피클 파일 로딩 3.6 환경 오류 : ModulenotFounderRor : nomodulename ...

SCAPY 크롤러를 사용할 때 파이프 라인 파일을 작성할 수없는 이유에 대한 논의 지속적인 데이터 저장을 위해 SCAPY 크롤러를 사용할 때 파이프 라인 파일이 발생할 수 있습니다 ...
