Pandas をデータ フィルタリングに使用するための実践的なヒント
Pandas は、データ分析とデータ サイエンスで広く使用されている強力なデータ処理ライブラリです。データのフィルタリングは、データ処理中の一般的なタスクです。この記事では、Pandas を使用してデータ フィルタリングを行う方法を紹介し、具体的なコード例を示します。
1. 条件に基づいてデータをフィルタリングする
Pandas には、条件に基づいてデータをフィルタリングするためのさまざまな条件演算子が用意されています。 。一般的に使用される演算子には、等しい (==)、等しくない (!=)、より大きい (>)、より小さい (=)、以下 (
たとえば、生徒の名前 (name)、年齢 (age)、およびスコア (score) を含む DataFrame オブジェクト df があると仮定すると、次のコードを使用して、スコアが大きい生徒データをフィルターで除外できます。 90 ポイント以上 :
df_filtered = df[df['score'] >= 90]
Pandas は、単一の条件に加えて、データ フィルタリングに複数の条件を使用することもサポートしています。論理演算子 and、or、not を使用して条件を組み合わせることができます。
たとえば、18 ~ 25 歳でスコアが 80 点以上の生徒のデータをフィルターで除外するとします。次のコードを使用できます:
df_filtered = df[(df['age'] >= 18) & (df['age'] <= 25) & (df['score'] >= 80)]
2. インデックスに基づいてデータをフィルタリングする
Pandas の DataFrame オブジェクトは、デフォルトで整数インデックスを自動的に生成し、そのインデックスを使用してデータをフィルタリングできます。
iloc 属性を使用すると、行と列の位置インデックスに基づいてデータをフィルタリングできます。
たとえば、行 2 から 5 のデータをフィルターで除外すると仮定すると、次のコードを使用できます:
df_filtered = df.iloc[2:6, :]
DataFrame オブジェクトにラベル インデックスが設定されている場合は、loc 属性を使用して、ラベル インデックスに基づいてデータをフィルタリングできます。
たとえば、20 歳以上の学生データをフィルターで除外すると仮定すると、次のコードを使用できます:
df_filtered = df.loc[df['age'] >= 20, :]
3. フィールドに基づいてデータをフィルターする
条件とインデックスによるフィルターを使用することに加えて、フィールドに基づいてデータをフィルターすることもできます。
列名を使用して、指定した列データをフィルタリングして除外できます。
たとえば、名前と成績の 2 つの列のデータのみをフィルターで除外すると仮定すると、次のコードを使用できます:
df_filtered = df[['name', 'score']]
フィールドの値を使用して、フィールド値に対応するデータをフィルターで除外できます。
たとえば、スコアが 80 ~ 90 点の生徒データをフィルターで除外したいとします。次のコードを使用できます。
df_filtered = df[df['score'].between(80, 90)]
上記は、Pandas をデータ フィルターに使用するための実用的なテクニックです。 、条件、インデックス、フィールドを柔軟に使用することで、必要なデータを簡単にフィルタリングできます。この記事がデータ処理プロセスに役立つことを願っています。
以上がPandas データ フィルタリングの実践的なヒントと例の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。