データ分析の効率を向上させるための pandas のヒントとコツ
はじめに
最新のデータ分析の分野では、pandas は非常に広く使用されている Python ライブラリです。 。効率的で柔軟かつ豊富なデータ構造とデータ処理ツールを提供し、データ分析をよりシンプルかつ効率的にします。ただし、パンダの可能性を真に理解するには、いくつかのヒントとコツを知ることが重要です。この記事では、データ分析の効率を向上させるためのパンダのテクニックをいくつか紹介し、具体的なコード例を示します。
データ分析では、加算、減算、乗除算、平均計算など、データに対してさまざまな計算や演算を実行する必要があることがよくあります。 、グループ統計など。ベクトル化操作を使用すると、データ処理の速度が大幅に向上します。 pandas の多くの関数は、加算演算 add、減算演算 sub、乗算演算 mul、除算演算 div などのベクトル化演算をサポートしています。以下は簡単な例です:
import pandas as pd df = pd.DataFrame({'A': [1, 2, 3, 4], 'B': [5, 6, 7, 8]}) df['C'] = df['A'] + df['B'] # 使用向量化的加法操作 print(df)
出力:
A B C 0 1 5 6 1 2 6 8 2 3 7 10 3 4 8 12
データを処理するときは、多くの場合、データに基づいて特定の条件でデータセットから必要な部分を選択します。この機能は、条件付き選択を使用して簡単に実現できます。 Pandas は、ブール インデックスを使用して、条件を使用してデータを選択する方法を提供します。以下は例です:
import pandas as pd df = pd.DataFrame({'A': [1, 2, 3, 4], 'B': [5, 6, 7, 8]}) df_selected = df[df['A'] > 2] # 选择A列中大于2的行 print(df_selected)
出力:
A B 2 3 7 3 4 8
パンダのピボット テーブルは非常に便利ですデータのグループ化および集計ツール。ピボット テーブルを使用すると、指定した列に従ってデータを簡単にグループ化し、他の列の集計統計を実行できます。以下に例を示します。
import pandas as pd df = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar'], 'B': ['one', 'one', 'two', 'two', 'two', 'one'], 'C': [1, 2, 3, 4, 5, 6]}) df_pivot = df.pivot_table(values='C', index='A', columns='B', aggfunc='sum') print(df_pivot)
出力:
B one two A bar 7 6 foo 6 8
データの一部のカスタマイズが必要な操作がある場合があります。 。 pandas では、apply 関数を使用してこの目的を達成できます。 apply 関数は、カスタム関数をパラメータとして受け入れ、それをデータ セットの各行または列に適用できます。以下は例です:
import pandas as pd df = pd.DataFrame({'A': [1, 2, 3, 4], 'B': [5, 6, 7, 8]}) def custom_operation(row): return row['A'] + row['B'] df['C'] = df.apply(custom_operation, axis=1) print(df)
出力:
A B C 0 1 5 6 1 2 6 8 2 3 7 10 3 4 8 12
結論
この記事では、ベクトル化操作の使用など、データ分析の効率を向上させるためのパンダのヒントとテクニックをいくつか紹介します。条件付きでデータを選択し、データのグループ化と集計にピボット テーブルを使用し、カスタム操作に適用関数を使用します。これらのスキルを習得することで、データ分析作業をより効率的に行うことができ、業務効率を向上させることができます。もちろん、これはパンダの機能の一部にすぎません。他にも多くの強力な機能が私たちの探索を待っています。この記事が読者にインスピレーションを与え、日々のデータ分析作業でより大きな役割を果たすことができれば幸いです。
以上がpandas データ分析を最適化するためのヒントと方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。