Groupby と diff() を使用して Pandas DataFrame の時間ベースの差分を計算する方法-Python チュートリアル-php.cn

Groupby と diff() を使用して Pandas DataFrame の時間ベースの差分を計算する方法

Barbara Streisand

リリース： 2024-10-30 07:45:27

オリジナル

613 人が閲覧しました

How to Calculate Time-Based Differences in Pandas DataFrames Using Groupby and diff()?

Pandas Groupby Multiple Fields for Time-Based Differences

データ分析の領域では、時間の経過に伴う変化を比較することは重要なタスクです。多用途の Python ライブラリである Pandas は、このような操作を処理するための堅牢な機能を提供します。複数のカテゴリフィールドと時間によって整理されたデータを扱う場合、groupby.diff() メソッドが非常に有益であることがわかります。

各サイトが国や日付によって異なるスコアを持つ、提供されているようなデータフレームを考えてみましょう。目標は、サイト/国の組み合わせごとにスコアの 1/3/5 日の差を計算することです。

問題解決

これを達成するには、次の手順:

DataFrame の並べ替え: sort_values() を使用して、サイト、国、日付ごとに一貫した順序でデータを並べ替えます。
サイトと国によるグループ化: groupby() を利用して、サイトと国のフィールドに基づいてグループを作成します。
差異の計算: 各グループ内で diff() を適用してスコアを計算します。

<code class="python">df = df.sort_values(by=['site', 'country', 'date'])
df['diff'] = df.groupby(['site', 'country'])['score'].diff().fillna(0)</code>

ログイン後にコピー

出力:

結果は、計算されたスコアの差を示す DataFrame です:

date	site	country	score	diff
2018-01-01	fb	es	100	0.0
2018-01-02	fb	gb	100	0.0
2018-01-01	fb	us	50	0.0
2018-01-02	fb	us	55	5.0
2018-01-03	fb	us	100	45.0
2018-01-01	google	ch	50	0.0
2018-01-02	google	ch	10	-40.0
2018-01-01	google	us	100	0.0
2018-01-02	google	us	70	-30.0
2018-01-03	google	us	60	-10.0