Python在同期群分析中的應用方法-Python教學-PHP中文網

同期群分析：比較的是相似群體隨時間的變化。

產品會隨著你的開發和測試而不斷迭代，這就導致在產品發布第一周就加入的用戶和後來才加入的用戶有著不同的體驗。例如，每個用戶都會經歷一個生命週期：從免費試用，到付費使用，最後停止使用。同時，在這段期間裡，你還在不停地對商業模式進行調整。於是，在產品上線第一個月就「吃螃蟹」的用戶勢必與四個月後才加入的用戶有著不同的上手體驗。這對用戶流失率會有什麼影響？我們用同期群分析來找答案。

每一組使用者構成一個同期群，參與整個試驗過程。透過比較不同的同期群，你可以獲知：從整體來看，關鍵指標的表現是否越來越好了。

結合到用戶分析層面，例如不同月份取得的用戶，不同管道新增用戶，具備不同特徵的用戶（例如微信裡每天至少和10個以上朋友微信的用戶）。

同期群分析(Cohort Analysis)，將這些具有不同特徵的族群進行比較分析，以發現他們在時間維度下的行為差異。

因此，同期群分析主要用於以下2點：

對比不同同期群體同一體驗週期的資料指標，驗證產品迭代優化的效果
對比同一同期群體不同體驗週期（生命週期）的資料指標，發現長線體驗的問題

我們在進行同期群分析的時候，大致可以分成2個流程：決定同期群分組邏輯和決定同期群分析的關鍵資料指標。

具有相似行為特徵的群體
具有相同時間週期的群體

例如：

按獲客月份（按週甚至按天分組）
#按獲客頻道
#依照使用者完成的特定行為，例如使用者造訪網站的次數或購買次數來分類。

關於關鍵資料指標，需要是基於時間維度下的例如留存、營收、自傳播係數等等。

以下是以留存率作為指標的案例範例：

Python在同期群分析中的應用方法

#下面是某電商的營運數據，我們將以該數據示範用python進行同期群分析。

同期群分析案例詳解：

資料是某電商使用者付費日誌，日誌欄位包含日期、付費金額和使用者id，已脫敏處理。

資料讀取

import pandas as pd

df = pd.read_csv(&#39;日志.csv&#39;, encoding="gb18030")
df.head()

登入後複製

Python在同期群分析中的應用方法

分析方向

#分組邏輯：

這裡只依照使用者的初始購買月份進行分組，如果日誌包含的分類欄位較多（例如頻道、性別或年齡等），可以考慮更多種分組邏輯。

關鍵數據指標：

針對此份數據，至少有3個數據指標可以進行分析：

。留存率
人均付款金額
人均購買次數

資料預處理

因為我們是依照月份分組，所以需要先將日期重採樣為月份：

df[&#39;购买月份&#39;] = pd.to_datetime(df.日期).dt.to_period("M")
df.head()

登入後複製

Python在同期群分析中的應用方法

#計算每個使用者在每個月的付費總額：

order = df.groupby(["uid", "购买月份"], as_index=False).agg(
    月付费总额=("付费金额","sum"),
    月付费次数=("uid","count"),
)
order.head()

登入後複製

Python在同期群分析中的應用方法

計算每個用戶的首單購買月份作為同期群分組，並將其對應到原始資料：

order["首单月份"] = order.groupby("uid")[&#39;购买月份&#39;].transform("min")
order.head()

登入後複製

Python在同期群分析中的應用方法

計算每筆購買記錄的時間與首單購買時間的月份差，並重置月份差標籤：

order["标签"] = (order.购买月份-order.首单月份).apply(lambda x:"同期群人数" if x.n==0 else f"+{x.n}月")
order.head()

登入後複製

Python在同期群分析中的應用方法

兩個月均為時期類型，相減後得到object類型的列，而該列每個元素的類型是pandas._libs.tslibs.offsets.MonthEnd
MonthEnd類型具有屬性n能傳回具體差值整數。

同期群分析

前面我們說了至少有3個資料指標可以進行分析：

留存率
人均付款金額
人均購買次數

从留存率角度进行同期群分析

通过数据透视表可以一次性计算所需的数据：

cohort_number = order.pivot_table(index="首单月份", columns="标签",
                             values="uid", aggfunc="count",
                             fill_value=0).rename_axis(columns="留存率")
cohort_number

登入後複製

Python在同期群分析中的應用方法

注意：rename_axis(columns=None)用于删除列标签的轴名称。rename_axis(columns=“留存率”)则设置轴名称为留存率。

将本月新增列移动到第一列：

cohort_number.insert(0, "同期群人数", cohort_number.pop("同期群人数"))
cohort_number

登入後複製

Python在同期群分析中的應用方法

具体过程是先通过pop删除该列，然后插入到0位置，并命名为指定的列名。

在本次的分析中，留存率的具体计算方式为：+N月留存率=+N月付款用户数/首月付款用户数

cohort_number.iloc[:, 1:] = cohort_number.iloc[:, 1:].divide(cohort_number.本月新增, axis=0)
cohort_number

登入後複製

Python在同期群分析中的應用方法

以百分比形式显示，并设置颜色：

out1 = (cohort_number.style
        .format("{:.2%}", subset=cohort_number.columns[1:])
        .bar(subset="同期群人数", color="green")
        .background_gradient("Reds", subset=cohort_number.columns[1:], high=1, axis=None)
        )
out1

登入後複製

Python在同期群分析中的應用方法

至此计算完毕。

从人均付款金额角度进行同期群分析

要从从人均付款金额角度考虑，需要考虑同期群基期这个整体。具体计算方式是先计算各月的付款总额，然后除以基期的总人数：

cohort_amount = order.pivot_table(index="首单月份", columns="标签",
                                  values="月付费总额", aggfunc="sum",
                                  fill_value=0).rename_axis(columns="人均付款金额")
cohort_amount.insert(0, "首月人均付费", cohort_amount.pop("同期群人数"))
cohort_amount.insert(0, "同期群人数", cohort_number.同期群人数)
cohort_amount.iloc[:, 1:] = cohort_amount.iloc[:, 1:].divide(cohort_amount.同期群人数, axis=0)
out2 = (cohort_amount.style
        .format("{:.2f}", subset=cohort_amount.columns[1:])
        .background_gradient("Reds", subset=cohort_amount.columns[1:], axis=None)
        .bar(subset="同期群人数", color="green")
        )
out2

登入後複製

Python在同期群分析中的應用方法

可以看到，12月份的同期群首月新用户人均消费为703.43元，然后逐月递减，到+4月后这些用户人均消费仅11.41元。而随着版本的迭代发展，新增用户的首月消费并没有较大提升，且接下来的消费趋势反而不如12月份。由此可见产品的发展受到了一定的瓶颈，需要思考增长营收的出路了。

一般来说，通过同期群分析可以比较好指导我们后续更深入细致的数据分析，为产品优化提供参考。

从人均购买次数角度进行同期群分析

依然按照上面一样的套路：

cohort_count = order.pivot_table(index="首单月份", columns="标签",
                                 values="月付费次数", aggfunc="sum",
                                 fill_value=0).rename_axis(columns="人均购买次数")
cohort_count.insert(0, "首月人均频次", cohort_count.pop("同期群人数"))
cohort_count.insert(0, "同期群人数", cohort_number.同期群人数)
cohort_count.iloc[:, 1:] = cohort_count.iloc[:,
                                             1:].divide(cohort_count.同期群人数, axis=0)
out3 = (cohort_count.style
        .format("{:.2f}", subset=cohort_count.columns[1:])
        .background_gradient("Reds", subset=cohort_count.columns[1:], axis=None)
        .bar(subset="同期群人数", color="green")
        )
out3

登入後複製

Python在同期群分析中的應用方法

可以得到类似上述一致的结论。

每月总体付费情况

下面我们看看每个月的总体消费情况：

order.groupby("购买月份").agg(
    付费人数=("uid", "count"),
    人均付款金额=("月付费总额", "mean"),
    月付费总额=("月付费总额", "sum")
)

登入後複製

Python在同期群分析中的應用方法

可以看到总体付费人数和付费金额都在逐月下降。

将结果导出网页或截图

对于Styler类型，我们可以调用render方法转化为网页源代码，通过以下方式即可将其导入到一个网页文件中：

with open("out.html", "w") as f:
    f.write(out1.render())
    f.write(out2.render())
    f.write(out3.render())

登入後複製

如果你的电脑安装了谷歌游览器，还可以安装dataframe_image，将这个表格导出为图片。

安装：pip install dataframe_image

import dataframe_image as dfi

dfi.export(obj=out1, filename=&#39;留存率.jpg&#39;)
dfi.export(obj=out2, filename=&#39;人均付款金额.jpg&#39;)
dfi.export(obj=out3, filename=&#39;人均购买次数.jpg&#39;)

登入後複製

dfi.export的参数：

obj : 被导出的Datafream对象
filename : 文件保存位置
fontsize : 字体大小
max_rows : 最大行数
max_cols : 最大列数
table_conversion : 使用谷歌游览器或原生’matplotlib’, 只要写非’chrome’的值就会使用原生’matplotlib’
chrome_path : 指定谷歌游览器位置

整体完整代码

import pandas as pd
import dataframe_image as dfi

df = pd.read_csv('日志.csv', encoding="gb18030")
df['购买月份'] = pd.to_datetime(df.日期).dt.to_period("M")
order = df.groupby(["uid", "购买月份"], as_index=False).agg(
    月付费总额=("付费金额", "sum"),
    月付费次数=("uid", "count"),
)
order["首单月份"] = order.groupby("uid")['购买月份'].transform("min")
order["标签"] = (
    order.购买月份-order.首单月份).apply(lambda x: "同期群人数" if x.n == 0 else f"+{x.n}月")
cohort_number = order.pivot_table(index="首单月份", columns="标签",
                                  values="uid", aggfunc="count",
                                  fill_value=0).rename_axis(columns="留存率")
cohort_number.insert(0, "同期群人数", cohort_number.pop("同期群人数"))
cohort_number.iloc[:, 1:] = cohort_number.iloc[:,1:].divide(cohort_number.同期群人数, axis=0)
out1 = (cohort_number.style
        .format("{:.2%}", subset=cohort_number.columns[1:])
        .bar(subset="同期群人数", color="green")
        .background_gradient("Reds", subset=cohort_number.columns[1:], high=1, axis=None)
        )
cohort_amount = order.pivot_table(index="首单月份", columns="标签",
                                  values="月付费总额", aggfunc="sum",
                                  fill_value=0).rename_axis(columns="人均付款金额")
cohort_amount.insert(0, "首月人均付费", cohort_amount.pop("同期群人数"))
cohort_amount.insert(0, "同期群人数", cohort_number.同期群人数)
cohort_amount.iloc[:, 1:] = cohort_amount.iloc[:, 1:].divide(cohort_amount.同期群人数, axis=0)
out2 = (cohort_amount.style
        .format("{:.2f}", subset=cohort_amount.columns[1:])
        .background_gradient("Reds", subset=cohort_amount.columns[1:], axis=None)
        .bar(subset="同期群人数", color="green")
        )
cohort_count = order.pivot_table(index="首单月份", columns="标签",
                                 values="月付费次数", aggfunc="sum",
                                 fill_value=0).rename_axis(columns="人均购买次数")
cohort_count.insert(0, "首月人均频次", cohort_count.pop("同期群人数"))
cohort_count.insert(0, "同期群人数", cohort_number.同期群人数)
cohort_count.iloc[:, 1:] = cohort_count.iloc[:,
                                             1:].divide(cohort_count.同期群人数, axis=0)
out3 = (cohort_count.style
        .format("{:.2f}", subset=cohort_count.columns[1:])
        .background_gradient("Reds", subset=cohort_count.columns[1:], axis=None)
        .bar(subset="同期群人数", color="green")
        )
outs = [out1, out2, out3]
with open("out.html", "w") as f:
    for out in outs:
        f.write(out.render())
        display(out)

dfi.export(obj=out1, filename='留存率.jpg')
dfi.export(obj=out2, filename='人均付款金额.jpg')
dfi.export(obj=out3, filename='人均购买次数.jpg')

登入後複製

Python在同期群分析中的應用方法