列の値に基づいて DataFrame からデータを選択する方法
SQL では、列の値に基づいて行を選択する一般的なクエリは次のようになります。 like:
SELECT * FROM table WHERE column_name = some_value
Pandas で同じ結果を達成するには、いくつかの方法があります。アプローチ:
正確な値の一致
列の値が特定の値 (some_value) に等しい行を選択するには、.loc 内で == 演算子を使用します:
df.loc[df['column_name'] == some_value]
価値の包含と除外
列の値がリスト (some_values) に含まれる行を選択するには、isin 関数を使用します。
df.loc[df['column_name'].isin(some_values)]
特定の値を除外するには、返されたブール値系列を否定します。 by isin:
df = df.loc[~df['column_name'].isin(some_values)] # Note: This is not an in-place operation
結合条件
& (AND) や | などの論理演算子を使用して複数の条件を組み合わせることができます。 (OR):
df.loc[(df['column_name'] >= A) & (df['column_name'] <= B)]
演算子の優先順位を正しくするには括弧が必要であることに注意してください。
例
DataFrame を考えてみましょう:
import pandas as pd import numpy as np df = pd.DataFrame({'A': 'foo bar foo bar foo bar foo foo'.split(), 'B': 'one one two three two two one three'.split(), 'C': np.arange(8), 'D': np.arange(8) * 2})
「A」が等しい行を選択するには'foo':
print(df.loc[df['A'] == 'foo'])
Yields:
A B C D 0 foo one 0 0 2 foo two 2 4 4 foo two 4 8 6 foo one 6 12 7 foo three 7 14
複数の値選択の最適化
複数の値に基づいて行を選択する場合、インデックスを作成し、.loc を df.index.isin とともに使用する方が効率的です。これにより、isin への複数の呼び出しが回避され、パフォーマンスが向上します。
df = df.set_index(['B']) print(df.loc[df.index.isin(['one','two'])])
結果:
A C D B one foo 0 0 one bar 1 2 one foo 6 12 two foo 2 4 two foo 4 8 two bar 5 10
以上が列の値に基づいて Pandas DataFrame からデータを効率的に選択する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。