Python でデータを集計およびグループ化する方法
データ分析および処理のプロセスでは、多くの場合、データを集計してグループ化する必要があります。 Python は、データの集計とグループ化の操作を容易にするさまざまな強力なライブラリとツールを提供します。この記事では、Python でデータの集計とグループ化に pandas ライブラリを使用する方法を紹介し、具体的なコード例を示します。
1. データ集約
データ集約は、複数のデータを 1 つまたは少数のデータにマージする操作です。 Python では、データ集計に pandas ライブラリの groupby() 関数を使用できます。
サンプルコードは次のとおりです。
import pandas as pd # 创建一个示例数据集 data = pd.DataFrame({'A': ['apple', 'orange', 'banana', 'apple', 'banana'], 'B': ['red', 'orange', 'yellow', 'green', 'yellow'], 'C': [1, 2, 3, 4, 5]}) # 按照A列进行聚合,计算C列的总和 result = data.groupby('A')['C'].sum() print(result)
上記のコードを実行すると、出力結果は次のようになります。
A apple 5 banana 8 orange 2 Name: C, dtype: int64
このうち、groupby()関数は以下のように集計を指定しています。 「A」列に追加すると、sum( ) 関数は列「C」の合計を計算します。
2. データのグループ化
データのグループ化とは、データを一定の基準に従ってグループ化する操作です。同様に、Python では、pandas ライブラリの groupby() 関数を使用してデータをグループ化できます。
import pandas as pd # 创建一个示例数据集 data = pd.DataFrame({'A': ['apple', 'orange', 'banana', 'apple', 'banana'], 'B': ['red', 'orange', 'yellow', 'green', 'yellow'], 'C': [1, 2, 3, 4, 5]}) # 按照A列进行分组 grouped_data = data.groupby('A') # 遍历每个组 for name, group in grouped_data: print(name) print(group) print()
サンプル コードは次のとおりです。
apple A B C 0 apple red 1 3 apple green 4 banana A B C 2 banana yellow 3 4 banana yellow 5 orange A B C 1 orange orange 2
上記のコードを実行すると、出力結果は次のようになります。
import pandas as pd # 创建一个示例数据集 data = pd.DataFrame({'Category': ['Fruit', 'Vegetable', 'Fruit', 'Vegetable', 'Fruit'], 'Product': ['Apple', 'Carrot', 'Orange', 'Broccoli', 'Banana'], 'Sales': [100, 200, 150, 250, 120]}) # 按照Category列进行分组,并计算Sales列的总和 result = data.groupby('Category')['Sales'].sum() print(result)
groupby() 関数を使用してデータをグループ化します。 「A」列に移動し、各グループと出力を横断します。ご覧のとおり、データは列「A」のさまざまな値に従って正常にグループ化され、出力されています。
3. データの集約とグループ化の組み合わせ適用
実際のデータ処理では、集約とグループ化を組み合わせることが必要になることがよくあります。たとえば、売上データ セットでは、さまざまな製品カテゴリごとにグループ化し、各カテゴリの総売上高を計算できます。
サンプル コードは次のとおりです。
Category Fruit 370 Vegetable 450 Name: Sales, dtype: int64
上記のコードを実行すると、出力結果は次のようになります。
rrreee上記のコードでは、最初に groupby() を使用します。関数を使用して「Category」列グループに従ってデータを並べ替えてから、sum() 関数を使用して各カテゴリの合計売上高を計算します。
概要:
この記事では、Python でデータの集計とグループ化に pandas ライブラリを使用する方法を紹介します。 groupby() 関数を使用すると、データを集計およびグループ化でき、他の関数と組み合わせてより複雑な操作を実行できます。データの集計とグループ化はデータ処理における重要なステップであり、データ分析と統計に非常に役立ちます。この記事が Python でのデータ集計とグループ化に携わる皆様のお役に立てれば幸いです。
以上がPython でデータの集計とグループ化を行う方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。