コホート分析にPythonを適用する方法-Python チュートリアル-php.cn

コホート分析: 類似したグループの変化を経時的に比較します。

製品は、開発とテスト中に繰り返し行われるため、製品リリースの最初の週に参加したユーザーは、その後に参加したユーザーとは異なるエクスペリエンスを得ることができます。たとえば、各ユーザーは、無料試用から有料使用、そして最終的に使用停止というライフサイクルを経ます。同時に、この期間中、ビジネスモデルの調整を常に行っています。したがって、製品発売後最初の 1 か月で「カニを食べる」ユーザーは、4 か月後に入会したユーザーとは異なるオンボーディングエクスペリエンスを体験するはずです。これは解約率にどのような影響を及ぼしますか?それを調べるためにコホート分析を使用しました。

ユーザーの各グループはコホートを形成し、実験プロセス全体に参加します。さまざまなコホートを比較することで、主要な指標の全体的なパフォーマンスが向上しているかどうかを知ることができます。

異なる月に獲得したユーザー、異なるチャネルからの新規ユーザー、異なる特性を持つユーザー (WeChat 上で少なくとも 10 人の友人と通信する WeChat 上のユーザーなど) などのユーザー分析レベルと組み合わせる毎日）。

コホート分析は、時間次元での行動の違いを発見するために、異なる特性を持つこれらの人々のグループを比較分析します。

したがって、コホート分析は主に次の 2 つの点で使用されます。

同じ経験サイクル内の異なるコホートグループのデータ指標を比較して、商品の効果を検証する反復の最適化
同じコホートグループのさまざまなエクスペリエンスサイクル (ライフサイクル) のデータ指標を比較し、長期エクスペリエンスの問題を発見します

## コホート分析を行っていますこのとき、コホートの

グループ化ロジック を決定する工程と、コホート分析の 主要データ指標 を決定する工程に大きく分けられます。

同様の行動特性を持つグループ
同じ期間のグループ

例:

#顧客獲得チャネル別
ユーザーが Web サイトにアクセスした回数や購入回数など、ユーザーが完了した特定のアクションに応じたカテゴリ。
主要なデータ指標に関しては、保持、収益、自己伝播係数などの時間次元に基づく必要があります。

以下は継続率を指標とした事例です:

以下はあるeコマース企業の営業データです。このデータは、Python コホート分析を使用して実証します。コホート分析にPythonを適用する方法

コホート分析ケースの詳細な説明:

データは、e コマースユーザーの支払いログです。ログフィールドには、日付、支払い金額、ユーザー ID が含まれます。鈍感になった。

データの読み取り

import pandas as pd

df = pd.read_csv(&#39;日志.csv&#39;, encoding="gb18030")
df.head()

ログイン後にコピー

分析方向コホート分析にPythonを適用する方法

グループロジック:

ここではユーザーの最初の購入月にのみ基づいていますグループ化の場合、ログにさらに多くの分類フィールド (チャネル、性別、年齢など) が含まれている場合は、さらに多くのグループ化ロジックを検討できます。

主要なデータインジケーター:

このデータでは、分析できるデータインジケーターが少なくとも 3 つあります:

維持率

一人当たりの支払額
一人当たりの購入数
データの前処理

月ごとにグループ化しているため、最初に日付を月にリサンプリングする必要があります:

df[&#39;购买月份&#39;] = pd.to_datetime(df.日期).dt.to_period("M")
df.head()

ログイン後にコピー

各月の各ユーザーの支払い総額を計算します: コホート分析にPythonを適用する方法

order = df.groupby(["uid", "购买月份"], as_index=False).agg(
    月付费总额=("付费金额","sum"),
    月付费次数=("uid","count"),
)
order.head()

ログイン後にコピー

各ユーザーの最初の購入月をコホートグループとして計算し、元のデータにマッピングします: コホート分析にPythonを適用する方法

order["首单月份"] = order.groupby("uid")[&#39;购买月份&#39;].transform("min")
order.head()

ログイン後にコピー

各購入レコードの時刻と最初の購入時刻の間の月差を計算し、月差ラベルをリセットします: コホート分析にPythonを適用する方法

order["标签"] = (order.购买月份-order.首单月份).apply(lambda x:"同期群人数" if x.n==0 else f"+{x.n}月")
order.head()

ログイン後にコピー

コホート分析にPythonを適用する方法両方の月が期間タイプです、減算後、オブジェクト型の列が取得され、この列の各要素の型は pandas._libs.tslibs.offsets.MonthEnd

MonthEnd 型には、特定の差を返すことができる属性 n があります。整数。
コホート分析

分析できるデータ指標が少なくとも 3 つあると前述しました:

定着率

お一人様あたりの支払金額
お一人様あたりの購入数

从留存率角度进行同期群分析

通过数据透视表可以一次性计算所需的数据：

cohort_number = order.pivot_table(index="首单月份", columns="标签",
                             values="uid", aggfunc="count",
                             fill_value=0).rename_axis(columns="留存率")
cohort_number

ログイン後にコピー

コホート分析にPythonを適用する方法

注意：rename_axis(columns=None)用于删除列标签的轴名称。rename_axis(columns=“留存率”)则设置轴名称为留存率。

将本月新增列移动到第一列：

cohort_number.insert(0, "同期群人数", cohort_number.pop("同期群人数"))
cohort_number

ログイン後にコピー

コホート分析にPythonを適用する方法

具体过程是先通过pop删除该列，然后插入到0位置，并命名为指定的列名。

在本次的分析中，留存率的具体计算方式为：+N月留存率=+N月付款用户数/首月付款用户数

cohort_number.iloc[:, 1:] = cohort_number.iloc[:, 1:].divide(cohort_number.本月新增, axis=0)
cohort_number

ログイン後にコピー

コホート分析にPythonを適用する方法

以百分比形式显示，并设置颜色：

out1 = (cohort_number.style
        .format("{:.2%}", subset=cohort_number.columns[1:])
        .bar(subset="同期群人数", color="green")
        .background_gradient("Reds", subset=cohort_number.columns[1:], high=1, axis=None)
        )
out1

ログイン後にコピー

コホート分析にPythonを適用する方法

至此计算完毕。

从人均付款金额角度进行同期群分析

要从从人均付款金额角度考虑，需要考虑同期群基期这个整体。具体计算方式是先计算各月的付款总额，然后除以基期的总人数：

cohort_amount = order.pivot_table(index="首单月份", columns="标签",
                                  values="月付费总额", aggfunc="sum",
                                  fill_value=0).rename_axis(columns="人均付款金额")
cohort_amount.insert(0, "首月人均付费", cohort_amount.pop("同期群人数"))
cohort_amount.insert(0, "同期群人数", cohort_number.同期群人数)
cohort_amount.iloc[:, 1:] = cohort_amount.iloc[:, 1:].divide(cohort_amount.同期群人数, axis=0)
out2 = (cohort_amount.style
        .format("{:.2f}", subset=cohort_amount.columns[1:])
        .background_gradient("Reds", subset=cohort_amount.columns[1:], axis=None)
        .bar(subset="同期群人数", color="green")
        )
out2

ログイン後にコピー

コホート分析にPythonを適用する方法

可以看到，12月份的同期群首月新用户人均消费为703.43元，然后逐月递减，到+4月后这些用户人均消费仅11.41元。而随着版本的迭代发展，新增用户的首月消费并没有较大提升，且接下来的消费趋势反而不如12月份。由此可见产品的发展受到了一定的瓶颈，需要思考增长营收的出路了。

一般来说，通过同期群分析可以比较好指导我们后续更深入细致的数据分析，为产品优化提供参考。

从人均购买次数角度进行同期群分析

依然按照上面一样的套路：

cohort_count = order.pivot_table(index="首单月份", columns="标签",
                                 values="月付费次数", aggfunc="sum",
                                 fill_value=0).rename_axis(columns="人均购买次数")
cohort_count.insert(0, "首月人均频次", cohort_count.pop("同期群人数"))
cohort_count.insert(0, "同期群人数", cohort_number.同期群人数)
cohort_count.iloc[:, 1:] = cohort_count.iloc[:,
                                             1:].divide(cohort_count.同期群人数, axis=0)
out3 = (cohort_count.style
        .format("{:.2f}", subset=cohort_count.columns[1:])
        .background_gradient("Reds", subset=cohort_count.columns[1:], axis=None)
        .bar(subset="同期群人数", color="green")
        )
out3

ログイン後にコピー

コホート分析にPythonを適用する方法

可以得到类似上述一致的结论。

每月总体付费情况

下面我们看看每个月的总体消费情况：

order.groupby("购买月份").agg(
    付费人数=("uid", "count"),
    人均付款金额=("月付费总额", "mean"),
    月付费总额=("月付费总额", "sum")
)

ログイン後にコピー

コホート分析にPythonを適用する方法

可以看到总体付费人数和付费金额都在逐月下降。

将结果导出网页或截图

对于Styler类型，我们可以调用render方法转化为网页源代码，通过以下方式即可将其导入到一个网页文件中：

with open("out.html", "w") as f:
    f.write(out1.render())
    f.write(out2.render())
    f.write(out3.render())

ログイン後にコピー

如果你的电脑安装了谷歌游览器，还可以安装dataframe_image，将这个表格导出为图片。

安装：pip install dataframe_image

import dataframe_image as dfi

dfi.export(obj=out1, filename=&#39;留存率.jpg&#39;)
dfi.export(obj=out2, filename=&#39;人均付款金额.jpg&#39;)
dfi.export(obj=out3, filename=&#39;人均购买次数.jpg&#39;)

ログイン後にコピー

dfi.export的参数：

obj : 被导出的Datafream对象
filename : 文件保存位置
fontsize : 字体大小
max_rows : 最大行数
max_cols : 最大列数
table_conversion : 使用谷歌游览器或原生’matplotlib’, 只要写非’chrome’的值就会使用原生’matplotlib’
chrome_path : 指定谷歌游览器位置

整体完整代码

import pandas as pd
import dataframe_image as dfi

df = pd.read_csv('日志.csv', encoding="gb18030")
df['购买月份'] = pd.to_datetime(df.日期).dt.to_period("M")
order = df.groupby(["uid", "购买月份"], as_index=False).agg(
    月付费总额=("付费金额", "sum"),
    月付费次数=("uid", "count"),
)
order["首单月份"] = order.groupby("uid")['购买月份'].transform("min")
order["标签"] = (
    order.购买月份-order.首单月份).apply(lambda x: "同期群人数" if x.n == 0 else f"+{x.n}月")
cohort_number = order.pivot_table(index="首单月份", columns="标签",
                                  values="uid", aggfunc="count",
                                  fill_value=0).rename_axis(columns="留存率")
cohort_number.insert(0, "同期群人数", cohort_number.pop("同期群人数"))
cohort_number.iloc[:, 1:] = cohort_number.iloc[:,1:].divide(cohort_number.同期群人数, axis=0)
out1 = (cohort_number.style
        .format("{:.2%}", subset=cohort_number.columns[1:])
        .bar(subset="同期群人数", color="green")
        .background_gradient("Reds", subset=cohort_number.columns[1:], high=1, axis=None)
        )
cohort_amount = order.pivot_table(index="首单月份", columns="标签",
                                  values="月付费总额", aggfunc="sum",
                                  fill_value=0).rename_axis(columns="人均付款金额")
cohort_amount.insert(0, "首月人均付费", cohort_amount.pop("同期群人数"))
cohort_amount.insert(0, "同期群人数", cohort_number.同期群人数)
cohort_amount.iloc[:, 1:] = cohort_amount.iloc[:, 1:].divide(cohort_amount.同期群人数, axis=0)
out2 = (cohort_amount.style
        .format("{:.2f}", subset=cohort_amount.columns[1:])
        .background_gradient("Reds", subset=cohort_amount.columns[1:], axis=None)
        .bar(subset="同期群人数", color="green")
        )
cohort_count = order.pivot_table(index="首单月份", columns="标签",
                                 values="月付费次数", aggfunc="sum",
                                 fill_value=0).rename_axis(columns="人均购买次数")
cohort_count.insert(0, "首月人均频次", cohort_count.pop("同期群人数"))
cohort_count.insert(0, "同期群人数", cohort_number.同期群人数)
cohort_count.iloc[:, 1:] = cohort_count.iloc[:,
                                             1:].divide(cohort_count.同期群人数, axis=0)
out3 = (cohort_count.style
        .format("{:.2f}", subset=cohort_count.columns[1:])
        .background_gradient("Reds", subset=cohort_count.columns[1:], axis=None)
        .bar(subset="同期群人数", color="green")
        )
outs = [out1, out2, out3]
with open("out.html", "w") as f:
    for out in outs:
        f.write(out.render())
        display(out)

dfi.export(obj=out1, filename='留存率.jpg')
dfi.export(obj=out2, filename='人均付款金额.jpg')
dfi.export(obj=out3, filename='人均购买次数.jpg')

ログイン後にコピー

コホート分析にPythonを適用する方法

以上がコホート分析にPythonを適用する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

ホットツール

ホットトピック

Gmailメールのログイン入り口はどこですか？

7554

CakePHP チュートリアル

1382

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

PHPおよびPython：コードの例と比較 Apr 15, 2025 am 12:07 AM

PHPとPythonには独自の利点と短所があり、選択はプロジェクトのニーズと個人的な好みに依存します。 1.PHPは、大規模なWebアプリケーションの迅速な開発とメンテナンスに適しています。 2。Pythonは、データサイエンスと機械学習の分野を支配しています。

CentosのPytorchのGPUサポートはどのようにサポートされていますか Apr 14, 2025 pm 06:48 PM

Pytorch GPUアクセラレーションを有効にすることで、CentOSシステムでは、PytorchのCUDA、CUDNN、およびGPUバージョンのインストールが必要です。次の手順では、プロセスをガイドします。CUDAおよびCUDNNのインストールでは、CUDAバージョンの互換性が決定されます。NVIDIA-SMIコマンドを使用して、NVIDIAグラフィックスカードでサポートされているCUDAバージョンを表示します。たとえば、MX450グラフィックカードはCUDA11.1以上をサポートする場合があります。 cudatoolkitのダウンロードとインストール：nvidiacudatoolkitの公式Webサイトにアクセスし、グラフィックカードでサポートされている最高のCUDAバージョンに従って、対応するバージョンをダウンロードしてインストールします。 cudnnライブラリをインストールする：

Python vs. JavaScript：コミュニティ、ライブラリ、リソース Apr 15, 2025 am 12:16 AM

PythonとJavaScriptには、コミュニティ、ライブラリ、リソースの観点から、独自の利点と短所があります。 1）Pythonコミュニティはフレンドリーで初心者に適していますが、フロントエンドの開発リソースはJavaScriptほど豊富ではありません。 2）Pythonはデータサイエンスおよび機械学習ライブラリで強力ですが、JavaScriptはフロントエンド開発ライブラリとフレームワークで優れています。 3）どちらも豊富な学習リソースを持っていますが、Pythonは公式文書から始めるのに適していますが、JavaScriptはMDNWebDocsにより優れています。選択は、プロジェクトのニーズと個人的な関心に基づいている必要があります。

Dockerの原則の詳細な説明 Apr 14, 2025 pm 11:57 PM

DockerはLinuxカーネル機能を使用して、効率的で孤立したアプリケーションランニング環境を提供します。その作業原則は次のとおりです。1。ミラーは、アプリケーションを実行するために必要なすべてを含む読み取り専用テンプレートとして使用されます。 2。ユニオンファイルシステム（UnionFS）は、違いを保存するだけで、スペースを節約し、高速化する複数のファイルシステムをスタックします。 3.デーモンはミラーとコンテナを管理し、クライアントはそれらをインタラクションに使用します。 4。名前空間とcgroupsは、コンテナの分離とリソースの制限を実装します。 5.複数のネットワークモードは、コンテナの相互接続をサポートします。これらのコア概念を理解することによってのみ、Dockerをよりよく利用できます。

ミニオペンCentosの互換性 Apr 14, 2025 pm 05:45 PM

MINIOオブジェクトストレージ：CENTOSシステムの下での高性能展開Minioは、Amazons3と互換性のあるGO言語に基づいて開発された高性能の分散オブジェクトストレージシステムです。 Java、Python、JavaScript、Goなど、さまざまなクライアント言語をサポートしています。この記事では、CentosシステムへのMinioのインストールと互換性を簡単に紹介します。 Centosバージョンの互換性Minioは、Centos7.9を含むがこれらに限定されない複数のCentosバージョンで検証されています。

CentosでPytorchの分散トレーニングを操作する方法 Apr 14, 2025 pm 06:36 PM

Pytorchの分散トレーニングでは、Centosシステムでトレーニングには次の手順が必要です。Pytorchのインストール：PythonとPipがCentosシステムにインストールされていることです。 CUDAバージョンに応じて、Pytorchの公式Webサイトから適切なインストールコマンドを入手してください。 CPUのみのトレーニングには、次のコマンドを使用できます。PipinstalltorchtorchtorchvisionTorchaudioGPUサポートが必要な場合は、CUDAとCUDNNの対応するバージョンがインストールされ、インストールに対応するPytorchバージョンを使用してください。分散環境構成：分散トレーニングには、通常、複数のマシンまたは単一マシンの複数GPUが必要です。場所

CentosでPytorchバージョンを選択する方法 Apr 14, 2025 pm 06:51 PM

PytorchをCentosシステムにインストールする場合、適切なバージョンを慎重に選択し、次の重要な要因を検討する必要があります。1。システム環境互換性：オペレーティングシステム：Centos7以上を使用することをお勧めします。 Cuda and Cudnn：PytorchバージョンとCudaバージョンは密接に関連しています。たとえば、pytorch1.9.0にはcuda11.1が必要ですが、pytorch2.0.1にはcuda11.3が必要です。 CUDNNバージョンは、CUDAバージョンとも一致する必要があります。 Pytorchバージョンを選択する前に、互換性のあるCUDAおよびCUDNNバージョンがインストールされていることを確認してください。 Pythonバージョン：Pytorch公式支店

PytorchをCentosの最新バージョンに更新する方法 Apr 14, 2025 pm 06:15 PM

PytorchをCentosの最新バージョンに更新すると、次の手順に従うことができます。方法1：PIPでPIPを更新する：最初にPIPが最新バージョンであることを確認します。これは、PIPの古いバージョンがPytorchの最新バージョンを適切にインストールできない可能性があるためです。 pipinstall- upgradepipアンインストール古いバージョンのpytorch（インストールの場合）：pipuninstorchtorchtorchvisiontorchaudioインストール最新

See all articles

コホート分析にPythonを適用する方法