コミュニティ

学ぶ

ツールライブラリ

AIツール

レジャー

日本語

ホームページ > データベース > mysql チュートリアル > 重複する単語とレーベンシュタイン距離を使用して MySQL で文字列の類似性を測定する方法

重複する単語とレーベンシュタイン距離を使用して MySQL で文字列の類似性を測定する方法

Patricia Arquette

リリース： 2024-12-02 20:39:13

オリジナル

503 人が閲覧しました

How to Measure String Similarity in MySQL Using Overlapping Words and Levenshtein Distance?

MySQL で文字列の類似性を計算する方法

MySQL で 2 つの文字列間の類似性を計算するには、文字列操作関数と数式を利用できます。。 2 つの文字列がある次の例を考えてみましょう。

SET @a = "Welcome to Stack Overflow";
SET @b = "Hello to stack overflow";

ログイン後にコピー

重複する単語を使用した類似度の計算

両方の文字列に出現する単語の数を数えて、次を使用します。それは類似性の尺度としてです。この場合、次の単語が重複します:

ようこそ
へ
スタック
オーバーフロー

類似性の計算インデックス

類似性インデックスは次のように計算されます。

similarity = count(similar words between @a and @b) / (count(@a) + count(@b) - count(intersection))

ログイン後にコピー

レーベンシュタイン関数の使用

MySQL は、次の関数をネイティブにサポートしていません。文字列の類似性。ただし、levenshtein と呼ばれるユーザー定義関数 (UDF) を使用して、ある文字列を別の文字列に変換するために必要な編集 (挿入、削除、または置換) の数を測定するレーベンシュタイン距離を計算できます。

レーベンシュタイン UDF の作成

CREATE FUNCTION `levenshtein`(s1 text, s2 text) RETURNS int(11)
DETERMINISTIC
...

ログイン後にコピー

用レーベンシュタイン UDF の詳細については、提供されているコードスニペットを参照してください。

類似性比の計算

最後に、レーベンシュタイン距離を正規化することで類似性比を計算できます。 2 つの文字列の最大長に対して:

CREATE FUNCTION `levenshtein_ratio`(s1 text, s2 text) RETURNS int(11)
DETERMINISTIC
...

ログイン後にコピー

たとえば、レーベンシュタイン比関数を使用した @a と @b の類似性比は次のように計算できます。

SELECT levenshtein_ratio(@a, @b);

ログイン後にコピー

これにより、類似性比がパーセンテージ値として返されます。

以上が重複する単語とレーベンシュタイン距離を使用して MySQL で文字列の類似性を測定する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

前の記事：MySQL は文字列集計用の Oracle の LISTAGG 関数を複製できますか? 次の記事：既存のテーブルに外部キーを追加するときに発生する MySQL エラー 1005 を修正する方法

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

最新の問題

Create Procedureステートメントを使用して、MySQLにストアドプロシージャをどのように作成しますか？

2025-03-19 15:55:29
ビューを使用することの利点は何ですか？

2025-03-19 15:54:25
Create Viewステートメントを使用してMySQLでビューを作成するにはどうすればよいですか？

2025-03-19 15:53:28
ドロップテーブルステートメントを使用してMySQLにテーブルをドロップするにはどうすればよいですか？

2025-03-19 15:52:28
Alter Tableステートメントを使用してMySQLのテーブルをどのように変更しますか？

2025-03-19 15:51:22

関連トピック

詳細>

人気のおすすめ

人気のチュートリアル

詳細>

関連するチュートリアル

人気のおすすめ

最新のコース

最新のダウンロード

詳細>

ウェブエフェクト

公式サイト

サイト素材

フロントエンドテンプレート