Python でデータの集計とグループ化を行う方法
Python でデータを集計およびグループ化する方法
データ分析および処理のプロセスでは、多くの場合、データを集計してグループ化する必要があります。 Python は、データの集計とグループ化の操作を容易にするさまざまな強力なライブラリとツールを提供します。この記事では、Python でデータの集計とグループ化に pandas ライブラリを使用する方法を紹介し、具体的なコード例を示します。
1. データ集約
データ集約は、複数のデータを 1 つまたは少数のデータにマージする操作です。 Python では、データ集計に pandas ライブラリの groupby() 関数を使用できます。
サンプルコードは次のとおりです。
import pandas as pd # 创建一个示例数据集 data = pd.DataFrame({'A': ['apple', 'orange', 'banana', 'apple', 'banana'], 'B': ['red', 'orange', 'yellow', 'green', 'yellow'], 'C': [1, 2, 3, 4, 5]}) # 按照A列进行聚合,计算C列的总和 result = data.groupby('A')['C'].sum() print(result)
上記のコードを実行すると、出力結果は次のようになります。
A apple 5 banana 8 orange 2 Name: C, dtype: int64
このうち、groupby()関数は以下のように集計を指定しています。 「A」列に追加すると、sum( ) 関数は列「C」の合計を計算します。
2. データのグループ化
データのグループ化とは、データを一定の基準に従ってグループ化する操作です。同様に、Python では、pandas ライブラリの groupby() 関数を使用してデータをグループ化できます。
import pandas as pd # 创建一个示例数据集 data = pd.DataFrame({'A': ['apple', 'orange', 'banana', 'apple', 'banana'], 'B': ['red', 'orange', 'yellow', 'green', 'yellow'], 'C': [1, 2, 3, 4, 5]}) # 按照A列进行分组 grouped_data = data.groupby('A') # 遍历每个组 for name, group in grouped_data: print(name) print(group) print()
サンプル コードは次のとおりです。
apple A B C 0 apple red 1 3 apple green 4 banana A B C 2 banana yellow 3 4 banana yellow 5 orange A B C 1 orange orange 2
上記のコードを実行すると、出力結果は次のようになります。
import pandas as pd # 创建一个示例数据集 data = pd.DataFrame({'Category': ['Fruit', 'Vegetable', 'Fruit', 'Vegetable', 'Fruit'], 'Product': ['Apple', 'Carrot', 'Orange', 'Broccoli', 'Banana'], 'Sales': [100, 200, 150, 250, 120]}) # 按照Category列进行分组,并计算Sales列的总和 result = data.groupby('Category')['Sales'].sum() print(result)
groupby() 関数を使用してデータをグループ化します。 「A」列に移動し、各グループと出力を横断します。ご覧のとおり、データは列「A」のさまざまな値に従って正常にグループ化され、出力されています。
3. データの集約とグループ化の組み合わせ適用
実際のデータ処理では、集約とグループ化を組み合わせることが必要になることがよくあります。たとえば、売上データ セットでは、さまざまな製品カテゴリごとにグループ化し、各カテゴリの総売上高を計算できます。
サンプル コードは次のとおりです。
Category Fruit 370 Vegetable 450 Name: Sales, dtype: int64
上記のコードを実行すると、出力結果は次のようになります。
rrreee上記のコードでは、最初に groupby() を使用します。関数を使用して「Category」列グループに従ってデータを並べ替えてから、sum() 関数を使用して各カテゴリの合計売上高を計算します。
概要:
この記事では、Python でデータの集計とグループ化に pandas ライブラリを使用する方法を紹介します。 groupby() 関数を使用すると、データを集計およびグループ化でき、他の関数と組み合わせてより複雑な操作を実行できます。データの集計とグループ化はデータ処理における重要なステップであり、データ分析と統計に非常に役立ちます。この記事が Python でのデータ集計とグループ化に携わる皆様のお役に立てれば幸いです。
以上がPython でデータの集計とグループ化を行う方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











Linux Systemsに付属するPythonインタープリターを削除する問題に関して、多くのLinuxディストリビューションは、インストール時にPythonインタープリターをプリインストールし、パッケージマネージャーを使用しません...

Pythonプログラミングでカスタムデコレーターを使用する場合、Pylance Type検出問題解決策デコレーターは、行を追加するために使用できる強力なツールです...

Pythonasyncioについて...

ループ内で印刷を使用する場合、PythonのTQDMライブラリを使用する場合、PythonのTQDMでの印刷によって引き起こされる進行状況バーの問題を避けてください...

Python 3.6のピクルスファイルの読み込みエラー:modulenotfounderror:nomodulenamed ...

PythonのHTTPXライブラリを使用してHTTP/2を送信します...

Pythonの非同期ライブラリ間の互換性の問題Python、非同期プログラミングは、高い並行性とI/Oのプロセスになりました...
