TF-IDF とコサイン類似度を使用してテキストドキュメント間の類似性を計算するにはどうすればよいですか?-Python チュートリアル-php.cn

テキストドキュメントの類似性の計算方法

ペアごとの類似性の計算

結果の解釈

ホームページ

バックエンド開発

Python チュートリアル

TF-IDF とコサイン類似度を使用してテキストドキュメント間の類似性を計算するにはどうすればよいですか?

Mary-Kate Olsen

Oct 23, 2024 am 06:47 AM

How to Calculate Similarity Between Text Documents Using TF-IDF and Cosine Similarity?

テキストドキュメントの類似性の計算方法

ペアごとの類似性の計算

2 つのテキストドキュメント間の類似性を判断する最も一般的な方法は、テキストドキュメントを次のように変換することです。 TF-IDF (Term Frequency-Inverse Document Frequency) ベクトルを計算し、コサイン類似度を使用してそれらを比較します。このアプローチは、情報検索に関する教科書で説明されており、「情報検索の概要」で詳しく説明されています。

Gensim や scikit-learn などの Python ライブラリは、TF-IDF 変換とコサイン類似度計算の実装を提供します。 scikit-learn を使用すると、次のコードスニペットでコサイン類似度の計算が実行されます。

<code class="python">from sklearn.feature_extraction.text import TfidfVectorizer

# Extract documents from text files
documents = [open(f).read() for f in text_files]

# Create a TF-IDF vectorizer
tfidf = TfidfVectorizer().fit_transform(documents)

# Calculate pairwise cosine similarity
pairwise_similarity = tfidf * tfidf.T</code>

ログイン後にコピー

プレーンテキストドキュメントの場合:

<code class="python">corpus = ["I'd like an apple", 
           "An apple a day keeps the doctor away", 
           "Never compare an apple to an orange", 
           "I prefer scikit-learn to Orange", 
           "The scikit-learn docs are Orange and Blue"]                                                                                                                                                                                                   

# Create a TF-IDF vectorizer with minimum frequency and exclusion of stop words
vect = TfidfVectorizer(min_df=1, stop_words="english")                                                                                                                                                                                                   

# Apply TF-IDF transformation
tfidf = vect.fit_transform(corpus)                                                                                                                                                                                                                       

# Calculate pairwise cosine similarity
pairwise_similarity = tfidf * tfidf.T </code>

ログイン後にコピー

結果の解釈

pairwise_similarity は各行と列がコーパス内のドキュメントを表すスパース行列。スパース行列を NumPy 配列に変換すると、各セルが 2 つの対応するドキュメント間の類似性を表していることがわかります。

たとえば、「scikit-learn ドキュメントはオレンジとブルーです」に最も類似したドキュメントを特定するには、次の場所を見つけます。コーパス内のインデックスを取得し、np.fill_diagonal():

<code class="python">import numpy as np

arr = pairwise_similarity.toarray()     
np.fill_diagonal(arr, np.nan)                                                                                                                                                                                                                            

input_doc = "The scikit-learn docs are Orange and Blue"                                                                                                                                                                                                  
input_idx = corpus.index(input_doc)                                                                                                                                                                                                                      
result_idx = np.nanargmax(arr[input_idx])                                                                                                                                                                                                                
print(corpus[result_idx])</code>

ログイン後にコピー

で対角線 (自己相似性を表す) をマスクした後、np.nanargmax を対応する行に適用します。大規模なデータセットの場合は、スパース行列はメモリを節約します。あるいは、pairwise_similarity.shape を使用して自己類似性と argmax() を直接マスクすることを検討してください。

<code class="python">n, _ = pairwise_similarity.shape                                                                                                                                                                                                                         
pairwise_similarity[np.arange(n), np.arange(n)] = -1.0
pairwise_similarity[input_idx].argmax()  </code>

ログイン後にコピー

以上がTF-IDF とコサイン類似度を使用してテキストドキュメント間の類似性を計算するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

ホットトピック

Java チュートリアル

1655

CakePHP チュートリアル

1413

Laravel チュートリアル

1306

PHP チュートリアル

1252

C# チュートリアル

1226

Related knowledge

Python vs. C：比較されたアプリケーションとユースケース Apr 12, 2025 am 12:01 AM

Pythonは、データサイエンス、Web開発、自動化タスクに適していますが、Cはシステムプログラミング、ゲーム開発、組み込みシステムに適しています。 Pythonは、そのシンプルさと強力なエコシステムで知られていますが、Cは高性能および基礎となる制御機能で知られています。

Python：ゲーム、GUIなど Apr 13, 2025 am 12:14 AM

PythonはゲームとGUI開発に優れています。 1）ゲーム開発は、2Dゲームの作成に適した図面、オーディオ、その他の機能を提供し、Pygameを使用します。 2）GUI開発は、TKINTERまたはPYQTを選択できます。 TKINTERはシンプルで使いやすく、PYQTは豊富な機能を備えており、専門能力開発に適しています。

2時間でどのくらいのPythonを学ぶことができますか？ Apr 09, 2025 pm 04:33 PM

2時間以内にPythonの基本を学ぶことができます。 1。変数とデータ型を学習します。2。ステートメントやループの場合などのマスター制御構造、3。関数の定義と使用を理解します。これらは、簡単なPythonプログラムの作成を開始するのに役立ちます。

2時間のPython計画：現実的なアプローチ Apr 11, 2025 am 12:04 AM

2時間以内にPythonの基本的なプログラミングの概念とスキルを学ぶことができます。 1.変数とデータ型、2。マスターコントロールフロー（条件付きステートメントとループ）、3。機能の定義と使用を理解する4。

Python vs. C：曲線と使いやすさの学習 Apr 19, 2025 am 12:20 AM

Pythonは学習と使用が簡単ですが、Cはより強力ですが複雑です。 1。Python構文は簡潔で初心者に適しています。動的なタイピングと自動メモリ管理により、使いやすくなりますが、ランタイムエラーを引き起こす可能性があります。 2.Cは、高性能アプリケーションに適した低レベルの制御と高度な機能を提供しますが、学習しきい値が高く、手動メモリとタイプの安全管理が必要です。

Python：主要なアプリケーションの調査 Apr 10, 2025 am 09:41 AM

Pythonは、Web開発、データサイエンス、機械学習、自動化、スクリプトの分野で広く使用されています。 1）Web開発では、DjangoおよびFlask Frameworksが開発プロセスを簡素化します。 2）データサイエンスと機械学習の分野では、Numpy、Pandas、Scikit-Learn、Tensorflowライブラリが強力なサポートを提供します。 3）自動化とスクリプトの観点から、Pythonは自動テストやシステム管理などのタスクに適しています。

Pythonと時間：勉強時間を最大限に活用する Apr 14, 2025 am 12:02 AM

限られた時間でPythonの学習効率を最大化するには、PythonのDateTime、時間、およびスケジュールモジュールを使用できます。 1. DateTimeモジュールは、学習時間を記録および計画するために使用されます。 2。時間モジュールは、勉強と休息の時間を設定するのに役立ちます。 3.スケジュールモジュールは、毎週の学習タスクを自動的に配置します。

Python：自動化、スクリプト、およびタスク管理 Apr 16, 2025 am 12:14 AM

Pythonは、自動化、スクリプト、およびタスク管理に優れています。 1）自動化：OSやShutilなどの標準ライブラリを介してファイルバックアップが実現されます。 2）スクリプトの書き込み：Psutilライブラリを使用してシステムリソースを監視します。 3）タスク管理：スケジュールライブラリを使用してタスクをスケジュールします。 Pythonの使いやすさと豊富なライブラリサポートにより、これらの分野で優先ツールになります。

See all articles

TF-IDF とコサイン類似度を使用してテキストドキュメント間の類似性を計算するにはどうすればよいですか?

テキストドキュメントの類似性の計算方法

ペアごとの類似性の計算

結果の解釈

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

TF-IDF とコサイン類似度を使用してテキスト ドキュメント間の類似性を計算するにはどうすればよいですか?

テキスト ドキュメントの類似性の計算方法

ペアごとの類似性の計算

結果の解釈

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

TF-IDF とコサイン類似度を使用してテキストドキュメント間の類似性を計算するにはどうすればよいですか?

テキストドキュメントの類似性の計算方法