相関則先験アルゴリズムの詳しい説明_相関則先験アルゴリズムとは-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

相関ルール先験アルゴリズムの詳細な説明

DDD

Aug 10, 2023 am 10:38 AM

協会規則 apriori算法

関連付けルールはデータマイニングにおける重要なテクノロジであり、データセット内の項目間の関連付けを検出するために使用されます。アルゴリズムのステップ: 1. アルゴリズムは、すべての単一アイテムを含む候補アイテムセットを初期化する必要があります; 2. アルゴリズムは、頻繁に使用されるアイテムセットに基づいて候補アイテムセットを生成します; 3. アルゴリズムは候補アイテムセットをプルーニングします; 4. アルゴリズムは必要な候補アイテムセットが新しい頻出アイテムセットとして使用され、次の反復ラウンドに入ります。 5. 反復が終了すると、アルゴリズムは、設定されたしきい値を満たすすべての頻出アイテムセットを取得します。次に、頻度の高い項目セットに基づいて関連付けルールが生成されます。

相関ルール先験アルゴリズムの詳細な説明

#関連付けルールはデータマイニングにおける重要なテクノロジであり、データセット内の項目間の関連性を検出するために使用されます。相関ルールアプリオリアルゴリズムは、相関ルールのマイニングに一般的に使用されるアルゴリズムです。相関ルール先験アルゴリズムの原理と手順については、以下で詳しく紹介します。

アルゴリズム原理

相関ルール先験アルゴリズムは、サポートと信頼という 2 つの重要な概念に基づいています。サポートはデータ内に出現する項目セットの頻度を表し、信頼度はルールの信頼性を表します。このアルゴリズムの中心的な考え方は、反復を通じて頻繁に使用されるアイテムセットから候補アイテムセットを生成し、サポートと信頼度を計算し、最終的に設定されたしきい値を満たす相関ルールを見つけることです。

アルゴリズムの手順

相関ルール先験アルゴリズムの手順は次のとおりです。

初期化

まず、アルゴリズムには次のものが必要です。すべての単一の項目の候補項目のセットを含むアルゴリズムを初期化します。これらのアイテムセットは 1 アイテムセットと呼ばれます。次に、アルゴリズムはデータセットをスキャンし、各 1 項目セットのサポートを計算します。

候補アイテムセットの生成

反復を通じて、アルゴリズムは頻繁に使用されるアイテムセットに基づいて候補アイテムセットを生成します。頻繁に使用されるアイテムセットとは、サポートが設定されたしきい値以上のアイテムセットを指します。現在の反復の頻出項目セットが k 項目セットであると仮定すると、k 項目セットの和集合を取得し、重複する項目を削除することによって、k 1 項目セットを生成できます。次に、アルゴリズムはデータセットをスキャンし、各 k 個の 1 項目セットのサポートを計算します。

プルーニング

候補アイテムセットを生成した後、アルゴリズムは候補アイテムセットをプルーニングします。候補アイテムセットのサブセットが頻繁なアイテムセットではない場合、候補アイテムセットは頻繁なアイテムセットになることはできません。したがって、アルゴリズムは要件を満たさないこれらの候補アイテムセットを削除します。

頻繁な項目セットを更新する

アルゴリズムは、枝刈り操作を通じて、要件を満たす候補項目セットを取得します。次に、アルゴリズムはこれらの候補アイテムセットを新しい頻繁なアイテムセットとして使用し、次の反復ラウンドに入ります。

関連付けルールの生成

反復が終了すると、アルゴリズムは、設定されたしきい値を満たすすべての頻度の高い項目セットを取得します。次に、アルゴリズムは、頻繁に使用される項目セットに基づいて関連付けルールを生成します。相関ルールは、信頼度を計算することによって生成されます。頻繁に使用されるアイテムセットの場合、複数の関連付けルールを生成できます。関連付けルールは A->B の形式で、A と B はそれぞれ頻繁に使用されるアイテムセットのサブセットです。

アルゴリズムの最適化

相関ルール先験アルゴリズムは、大規模なデータセットを処理するときに、計算の複雑さが高くなるという問題に直面する可能性があります。計算の複雑さを軽減するために、次の最適化手段を採用できます。

圧縮されたデータセット

データセットを圧縮して、データセット内の頻度の低いアイテムセットを削除できます。計算量の削減。

ハッシュテーブルの使用

ハッシュテーブルを使用して、頻繁に使用される項目セットを格納すると、検索の効率が向上します。

トランザクションデータベース

データセットはトランザクションデータベースの形式に変換でき、各トランザクションはアイテムセットを表します。これにより、データセットがスキャンされる回数が減り、アルゴリズムの効率が向上します。

要約すると、相関ルール先験アルゴリズムは、相関ルールのマイニングに一般的に使用されるアルゴリズムです。反復により、頻出項目セットから候補項目セットが生成され、サポートと信頼度が計算され、最終的に設定されたしきい値を満たす相関ルールが見つかります。計算の複雑さを軽減するために、データセットの圧縮、ハッシュテーブルやトランザクションデータベースの使用などの最適化手段を使用できます。

以上が相関ルール先験アルゴリズムの詳細な説明の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。