Bagaimanakah Saya Boleh Mengira Persamaan Antara Dokumen Teks Berbeza?

Patricia Arquette
Lepaskan: 2024-10-23 06:48:29
asal
466 orang telah melayarinya

How Can I Calculate the Similarity Between Different Text Documents?

Cara Menentukan Persamaan Antara Dokumen Teks

Masalah: Anda ingin mengira persamaan antara dua dokumen teks untuk menilai penjajaran semantiknya.

Penyelesaian: Pendekatan lazim untuk mengukur persamaan dokumen ialah menukarnya kepada vektor TF-IDF (Term Frequency-Inverse Document Frequency). TF-IDF memperuntukkan pemberat kepada istilah berdasarkan kekerapannya dalam dokumen dan kelangkaannya di seluruh korpus. Selepas itu, persamaan kosinus antara vektor ini dikira untuk mengukur persamaannya.

Pelaksanaan: Gensim dan scikit-learn Python menyediakan pelaksanaan yang mantap untuk transformasi TF-IDF. Menggunakan scikit-learn:

<code class="python">from sklearn.feature_extraction.text import TfidfVectorizer

documents = [open(f).read() for f in text_files]
tfidf = TfidfVectorizer().fit_transform(documents)

# Cosine similarity is calculated automatically
pairwise_similarity = tfidf * tfidf.T</code>
Salin selepas log masuk

Pairwise_similarity yang terhasil ialah matriks jarang di mana setiap sel mewakili persamaan kosinus antara pasangan dokumen yang sepadan.

Mentafsir Keputusan: The matriks jarang mempunyai dimensi yang sama dengan bilangan dokumen dalam korpus. Untuk mengekstrak dokumen yang mempunyai persamaan tertinggi dengan dokumen input yang diberikan, gunakan np.fill_diagonal() NumPy untuk menutup persamaan diri dan np.nanargmax() untuk mencari maksimum bukan persamaan diri:

<code class="python">result_idx = np.nanargmax(arr[input_idx])
most_similar_doc = corpus[result_idx]</code>
Salin selepas log masuk

Perhatikan bahawa argmax dilakukan pada tatasusunan bertopeng untuk mengelakkan maksimum remeh 1 (setiap persamaan dokumen dengan dirinya sendiri).

Atas ialah kandungan terperinci Bagaimanakah Saya Boleh Mengira Persamaan Antara Dokumen Teks Berbeza?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:php
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Artikel terbaru oleh pengarang
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan