在Python 中測量字串相似度
確定兩個字串之間的相似度是資料分析和自然語言處理中的常見任務。在 Python 中,difflib 函式庫提供了一種使用 SequenceMatcher 類別量化字串相似度的便捷方法。
計算相似度機率
計算字串被匹配的機率與另一個字串類似,使用以下步驟:
def similar(a, b): return SequenceMatcher(None, a, b).ratio()
SequenceMatcher 類別提供了一個ratio() 方法,該方法傳回0 到1 之間的十進位值,其中1 表示完全匹配,0 表示不相似。
範例用法
要計算兩個字串之間的相似度,例如“Apple”和“Appel”,請使用以下程式碼:
result = similar("Apple", "Appel") print(result)
這將輸出0.8,表示較高相似程度。如果要比較不太相似的字串,例如“Apple”和“Mango”,程式碼會輸出 0.0,表示不相似。
透過使用 SequenceMatcher 類,可以有效衡量 Python 中字串之間的相似度,並獲得量化兩個字串之間相似程度的機率值。
以上是如何使用Python的'difflib”函式庫來測量字串相似度並計算相似機率?的詳細內容。更多資訊請關注PHP中文網其他相關文章!