Python でデータの集計とグループ化を行う方法

WBOY
リリース: 2023-10-18 11:03:46
オリジナル
1110 人が閲覧しました

Python でデータの集計とグループ化を行う方法

Python でデータを集計およびグループ化する方法

データ分析および処理のプロセスでは、多くの場合、データを集計してグループ化する必要があります。 Python は、データの集計とグループ化の操作を容易にするさまざまな強力なライブラリとツールを提供します。この記事では、Python でデータの集計とグループ化に pandas ライブラリを使用する方法を紹介し、具体的なコード例を示します。

1. データ集約
データ集約は、複数のデータを 1 つまたは少数のデータにマージする操作です。 Python では、データ集計に pandas ライブラリの groupby() 関数を使用できます。

サンプルコードは次のとおりです。

import pandas as pd

# 创建一个示例数据集
data = pd.DataFrame({'A': ['apple', 'orange', 'banana', 'apple', 'banana'],
                     'B': ['red', 'orange', 'yellow', 'green', 'yellow'],
                     'C': [1, 2, 3, 4, 5]})

# 按照A列进行聚合,计算C列的总和
result = data.groupby('A')['C'].sum()

print(result)
ログイン後にコピー

上記のコードを実行すると、出力結果は次のようになります。

A
apple     5
banana    8
orange    2
Name: C, dtype: int64
ログイン後にコピー

このうち、groupby()関数は以下のように集計を指定しています。 「A」列に追加すると、sum( ) 関数は列「C」の合計を計算します。

2. データのグループ化
データのグループ化とは、データを一定の基準に従ってグループ化する操作です。同様に、Python では、pandas ライブラリの groupby() 関数を使用してデータをグループ化できます。

import pandas as pd

# 创建一个示例数据集
data = pd.DataFrame({'A': ['apple', 'orange', 'banana', 'apple', 'banana'],
                     'B': ['red', 'orange', 'yellow', 'green', 'yellow'],
                     'C': [1, 2, 3, 4, 5]})

# 按照A列进行分组
grouped_data = data.groupby('A')

# 遍历每个组
for name, group in grouped_data:
    print(name)
    print(group)
    print()
ログイン後にコピー

サンプル コードは次のとおりです。

apple
       A      B  C
0  apple    red  1
3  apple  green  4

banana
        A       B  C
2  banana  yellow  3
4  banana  yellow  5

orange
        A       B  C
1  orange  orange  2
ログイン後にコピー

上記のコードを実行すると、出力結果は次のようになります。

import pandas as pd

# 创建一个示例数据集
data = pd.DataFrame({'Category': ['Fruit', 'Vegetable', 'Fruit', 'Vegetable', 'Fruit'],
                     'Product': ['Apple', 'Carrot', 'Orange', 'Broccoli', 'Banana'],
                     'Sales': [100, 200, 150, 250, 120]})

# 按照Category列进行分组,并计算Sales列的总和
result = data.groupby('Category')['Sales'].sum()

print(result)
ログイン後にコピー

groupby() 関数を使用してデータをグループ化します。 「A」列に移動し、各グループと出力を横断します。ご覧のとおり、データは列「A」のさまざまな値に従って正常にグループ化され、出力されています。

3. データの集約とグループ化の組み合わせ適用
実際のデータ処理では、集約とグループ化を組み合わせることが必要になることがよくあります。たとえば、売上データ セットでは、さまざまな製品カテゴリごとにグループ化し、各カテゴリの総売上高を計算できます。

サンプル コードは次のとおりです。

Category
Fruit        370
Vegetable    450
Name: Sales, dtype: int64
ログイン後にコピー

上記のコードを実行すると、出力結果は次のようになります。

rrreee

上記のコードでは、最初に groupby() を使用します。関数を使用して「Category」列グループに従ってデータを並べ替えてから、sum() 関数を使用して各カテゴリの合計売上高を計算します。

概要:
この記事では、Python でデータの集計とグループ化に pandas ライブラリを使用する方法を紹介します。 groupby() 関数を使用すると、データを集計およびグループ化でき、他の関数と組み合わせてより複雑な操作を実行できます。データの集計とグループ化はデータ処理における重要なステップであり、データ分析と統計に非常に役立ちます。この記事が Python でのデータ集計とグループ化に携わる皆様のお役に立てれば幸いです。

以上がPython でデータの集計とグループ化を行う方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート