Python での文字列の類似性の測定
2 つの文字列間の類似性を判断することは、データ分析と自然言語処理における一般的なタスクです。 Python では、difflib ライブラリは、SequenceMatcher クラスを使用して文字列の類似性を定量化する便利な方法を提供します。
類似確率の計算
文字列が類似する確率を計算するには別の文字列と同様に、次の手順を使用します。
def similar(a, b): return SequenceMatcher(None, a, b).ratio()
SequenceMatcher クラスは、0 の間の 10 進数値を返す rate() メソッドを提供します。および 1。1 は完全一致を示し、0 は一致しないことを示します。類似性。
使用例
「Apple」と「Appel」などの 2 つの文字列間の類似性を計算するには、次のコードを使用します。
result = similar("Apple", "Appel") print(result)
これは 0.8 を出力し、類似度が高いことを示します。 「Apple」と「Mango」など、あまり類似していない文字列を比較する場合、コードは類似性がないことを示す 0.0 を出力します。
SequenceMatcher クラスを使用すると、Python で文字列間の類似性を効果的に測定し、次の結果を得ることができます。 2 つの文字列間の類似性のレベルを定量化する確率値。
以上がPython の「difflib」ライブラリを使用して文字列の類似性を測定し、類似性の確率を計算するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。