Python での相関ルールマイニング手法-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

Python での相関ルールマイニング手法

王林

Jun 09, 2023 pm 11:07 PM

python 協会規則採掘スキル

Python は強力なプログラミング言語として、データマイニングや機械学習などのさまざまな分野に適用できます。データマイニングの分野では、相関ルールマイニングは、データセット内のさまざまな項目間の関係と、これらの関係が他のものに及ぼす影響を発見するために使用できる一般的に使用される手法です。この記事では、Python での相関ルールマイニング手法を簡単に紹介します。

Apriori アルゴリズム

Apriori アルゴリズムは、相関ルールマイニングの分野における古典的なアルゴリズムであり、データセット内の頻繁なアイテムセットと相関ルールを検出するために使用できます。。頻度の高いアイテムセットは、データセット内でより頻繁に出現するアイテムのセットを指しますが、相関ルールは 2 つ以上のアイテム間の関係を指します。これらは同時に出現することも、一方の出現は他方も出現する可能性が高いことを意味します。現れる。。

mlxtend ライブラリの apriori 関数を使用して、Python で Apriori アルゴリズムを実装できます。以下は簡単なサンプルコードです。

from mlxtend.frequent_patterns import apriori

# 构建数据集
data = [['牛奶', '面包', '啤酒'],
        ['奶酪', '面包', '黄油'],
        ['牛奶', '面包', '黄油', '鸡蛋'],
        ['奶酪', '黄油', '鸡蛋'],
        ['面包', '啤酒']]

# 使用apriori算法挖掘频繁项集
frequent_itemsets = apriori(data, min_support=0.6)

# 输出频繁项集
print(frequent_itemsets)

ログイン後にコピー

上記のコードでは、最初に 5 つのショッピングバスケットの内容を含むデータセットを定義します。次に、mlxtend ライブラリの apriori 関数を使用して、頻繁に使用される項目セットをマイニングします。関数の最初のパラメーターはデータセットで、2 番目のパラメーターは最小サポートしきい値であり、ここでは 0.6 に設定されています。

出力結果では、アルゴリズムが 2 つの頻繁な項目セット ['Bread'] と ['Milk', 'Bread'] を見つけたことがわかります。これは、このデータセットではパンを購入する人が最も多く、次に牛乳とパンが続くことを意味します。サポートのしきい値を調整することで、さまざまなサイズの頻繁なアイテムセットを検出できます。

相関ルールの抽出

頻繁に使用される項目セットを発見した後、引き続き相関ルールの抽出を行うことができます。相関ルールは、特定のアイテムが一緒に出現する確率、またはあるアイテムが出現したときに別のアイテムが出現する確率を理解するのに役立ちます。

mlxtend ライブラリの association_rules 関数を使用して、Python で関連付けルールを抽出できます。以下は簡単なサンプルコードです。

from mlxtend.frequent_patterns import association_rules, apriori

data = [['牛奶', '面包', '啤酒'],
        ['奶酪', '面包', '黄油'],
        ['牛奶', '面包', '黄油', '鸡蛋'],
        ['奶酪', '黄油', '鸡蛋'],
        ['面包', '啤酒']]

# 使用apriori算法挖掘频繁项集
frequent_itemsets = apriori(data, min_support=0.6)

# 使用association_rules函数提取关联规则
rules = association_rules(frequent_itemsets, metric="confidence", min_threshold=0.8)

# 输出关联规则
print(rules)

ログイン後にコピー

上記のコードでは、まず Apriori アルゴリズムを使用して、データセット内で頻繁に使用される項目セットを検索します。次に、 association_rules 関数を使用して関連付けルールを抽出します。関数の最初のパラメータは頻度の高いアイテムセット、2 番目のパラメータは相関ルールを評価するための指標、ここでは信頼度 (信頼度) を選択、3 番目のパラメータは最小信頼しきい値で、ここでは 0.8 に設定されています。

出力では、アルゴリズムが信頼度 1.0 の相関ルール (「パン」 => 「ビール」) を見つけたことがわかります。これは、パンを買った人の100％がビールも買ったことを意味します。この相関ルールは、推奨システムでユーザーに製品を推奨するために使用できます。

FP-Growth アルゴリズム

FP-Growth アルゴリズムは、相関ルールマイニングの分野におけるもう 1 つの古典的なアルゴリズムです。Apriori アルゴリズムよりも高速で、大規模なアルゴリズムを処理できます。データセットの規模。

pyfpgrowth ライブラリを Python で使用して、FP-Growth アルゴリズムを実装できます。以下は簡単なサンプルコードです:

import pyfpgrowth

# 构建数据集
data = [['牛奶', '面包', '啤酒'],
        ['奶酪', '面包', '黄油'],
        ['牛奶', '面包', '黄油', '鸡蛋'],
        ['奶酪', '黄油', '鸡蛋'],
        ['面包', '啤酒']]

# 使用FP-Growth算法挖掘频繁项集
patterns = pyfpgrowth.find_frequent_patterns(data, 2)

# 使用FP-Growth算法提取关联规则
rules = pyfpgrowth.generate_association_rules(patterns, 0.8)

# 输出频繁项集和关联规则
print(patterns)
print(rules)

ログイン後にコピー

上記のコードでは、まずデータセットを定義し、次に pyfpgrowth ライブラリの find_frequent_patterns 関数を使用して、頻繁に使用されるアイテムセットをマイニングします。関数の最初のパラメータはデータセットで、2 番目のパラメータはサポートしきい値です。ここでは、サポートしきい値を 2 に設定します。これは、各アイテムセットが少なくとも 2 つのショッピングバスケットに表示される必要があることを意味します。この関数は、すべての頻繁に使用される項目セットとそのサポート数を含む辞書を返します。

次に、pyfpgrowth ライブラリのgenerate_association_rules 関数を使用して、関連付けルールを抽出します。関数の最初のパラメーターは頻繁に使用される項目セットの辞書であり、2 番目のパラメーターは信頼度のしきい値です。ここでは、信頼度のしきい値を 0.8 に設定します。

出力結果では、アルゴリズムが 2 つの頻繁な項目セット ('bread',) と ('bread', 'milk') を見つけたことがわかります。同時に、アルゴリズムは信頼度 1.0 の相関ルールを抽出しました: ('bread',) => ('beer',)。これは、パンを買う人のうち 100% がビールを買うことを意味します。これに加えて、信頼レベルが 0.8 より高い他の相関ルールも確認できます。

概要

アソシエーションルールマイニングは、データセット内のさまざまな項目間の関係や、これらの関係が他のものに及ぼす影響を発見するために使用できる、非常に便利なデータマイニング手法です。 Python は、Apriori アルゴリズムや FP-Growth アルゴリズムなど、相関ルールマイニングを実装するためのさまざまな方法を提供します。具体的な実装では、頻出項目セットや相関ルールの閾値設定や実際の問題への適用にも注意が必要です。

以上がPython での相関ルールマイニング手法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7455

CakePHP チュートリアル

1375

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

PSが荷重を見せ続ける理由は何ですか？ Apr 06, 2025 pm 06:39 PM

PSの「読み込み」の問題は、リソースアクセスまたは処理の問題によって引き起こされます。ハードディスクの読み取り速度は遅いか悪いです。CrystaldiskInfoを使用して、ハードディスクの健康を確認し、問題のあるハードディスクを置き換えます。不十分なメモリ：高解像度の画像と複雑な層処理に対するPSのニーズを満たすためのメモリをアップグレードします。グラフィックカードドライバーは時代遅れまたは破損しています：ドライバーを更新して、PSとグラフィックスカードの間の通信を最適化します。ファイルパスが長すぎるか、ファイル名に特殊文字があります。短いパスを使用して特殊文字を避けます。 PS独自の問題：PSインストーラーを再インストールまたは修理します。

PSが開始されたときにロードの問題を解決する方法は？ Apr 06, 2025 pm 06:36 PM

ブートがさまざまな理由によって引き起こされる可能性がある場合、「読み込み」に巻き込まれたPS：腐敗したプラグインまたは競合するプラグインを無効にします。破損した構成ファイルの削除または名前変更。不十分なプログラムを閉じたり、メモリをアップグレードしたりして、メモリが不十分であることを避けます。ソリッドステートドライブにアップグレードして、ハードドライブの読み取りをスピードアップします。 PSを再インストールして、破損したシステムファイルまたはインストールパッケージの問題を修復します。エラーログ分析の起動プロセス中にエラー情報を表示します。

PSがファイルを開いたときにロードの問題を解決する方法は？ Apr 06, 2025 pm 06:33 PM

「ロード」は、PSでファイルを開くときに発生します。理由には、ファイルが大きすぎるか破損しているか、メモリが不十分で、ハードディスクの速度が遅い、グラフィックカードドライバーの問題、PSバージョンまたはプラグインの競合が含まれます。ソリューションは、ファイルのサイズと整合性を確認し、メモリの増加、ハードディスクのアップグレード、グラフィックカードドライバーの更新、不審なプラグインをアンインストールまたは無効にし、PSを再インストールします。この問題は、PSパフォーマンス設定を徐々にチェックして使用し、優れたファイル管理習慣を開発することにより、効果的に解決できます。

インストール後にMySQLの使用方法 Apr 08, 2025 am 11:48 AM

この記事では、MySQLデータベースの操作を紹介します。まず、MySQLWorkBenchやコマンドラインクライアントなど、MySQLクライアントをインストールする必要があります。 1. mysql-uroot-pコマンドを使用してサーバーに接続し、ルートアカウントパスワードでログインします。 2。CreatedAtaBaseを使用してデータベースを作成し、データベースを選択します。 3. createTableを使用してテーブルを作成し、フィールドとデータ型を定義します。 4. INSERTINTOを使用してデータを挿入し、データをクエリし、更新することでデータを更新し、削除してデータを削除します。これらの手順を習得することによってのみ、一般的な問題に対処することを学び、データベースのパフォーマンスを最適化することでMySQLを効率的に使用できます。

PSフェザーリングは、遷移の柔らかさをどのように制御しますか？ Apr 06, 2025 pm 07:33 PM

羽毛の鍵は、その漸進的な性質を理解することです。 PS自体は、勾配曲線を直接制御するオプションを提供しませんが、複数の羽毛、マッチングマスク、および細かい選択により、半径と勾配の柔らかさを柔軟に調整して、自然な遷移効果を実現できます。

MySQLインストール後にデータベースのパフォーマンスを最適化する方法 Apr 08, 2025 am 11:36 AM

MySQLパフォーマンスの最適化は、インストール構成、インデックス作成、クエリの最適化、監視、チューニングの3つの側面から開始する必要があります。 1。インストール後、INNODB_BUFFER_POOL_SIZEパラメーターやclose query_cache_sizeなど、サーバーの構成に従ってmy.cnfファイルを調整する必要があります。 2。過度のインデックスを回避するための適切なインデックスを作成し、説明コマンドを使用して実行計画を分析するなど、クエリステートメントを最適化します。 3. MySQL独自の監視ツール（ShowProcessList、ShowStatus）を使用して、データベースの健康を監視し、定期的にデータベースをバックアップして整理します。これらの手順を継続的に最適化することによってのみ、MySQLデータベースのパフォーマンスを改善できます。

PSカードがロードインターフェイスにある場合はどうすればよいですか？ Apr 06, 2025 pm 06:54 PM

PSカードの読み込みインターフェイスは、ソフトウェア自体（ファイルの破損またはプラグインの競合）、システム環境（ドライバーまたはシステムファイルの破損）、またはハードウェア（ハードディスクの破損またはメモリスティックの障害）によって引き起こされる場合があります。まず、コンピューターリソースで十分かどうかを確認し、バックグラウンドプログラムを閉じ、メモリとCPUリソースをリリースします。 PSのインストールを修正するか、プラグインの互換性の問題を確認してください。 PSバージョンを更新またはフォールバックします。グラフィックカードドライバーをチェックして更新し、システムファイルチェックを実行します。上記の問題をトラブルシューティングする場合は、ハードディスク検出とメモリテストを試すことができます。

PSフェザーリングをセットアップする方法は？ Apr 06, 2025 pm 07:36 PM

PSフェザーリングは、イメージエッジブラー効果であり、エッジエリアのピクセルの加重平均によって達成されます。羽の半径を設定すると、ぼやけの程度を制御でき、値が大きいほどぼやけます。半径の柔軟な調整は、画像とニーズに応じて効果を最適化できます。たとえば、キャラクターの写真を処理する際に詳細を維持するためにより小さな半径を使用し、より大きな半径を使用してアートを処理するときにかすんだ感覚を作成します。ただし、半径が大きすぎるとエッジの詳細を簡単に失う可能性があり、効果が小さすぎると明らかになりません。羽毛効果は画像解像度の影響を受け、画像の理解と効果の把握に従って調整する必要があります。

See all articles

Python での相関ルール マイニング手法

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

Python での相関ルールマイニング手法