如何根据列值从 DataFrame 中选择数据
在 SQL 中,根据列值选择行的典型查询如下所示比如:
SELECT * FROM table WHERE column_name = some_value
要在 Pandas 中达到相同的结果,有几种方法:
精确值匹配
要选择列值等于特定值 (some_value) 的行,请在 .loc 中使用 == 运算符:
df.loc[df['column_name'] == some_value]
价值包容和排除
要选择列值包含在列表(some_values)中的行,请使用 isin 函数:
df.loc[df['column_name'].isin(some_values)]
要排除特定值,请对返回的布尔系列取反by isin:
df = df.loc[~df['column_name'].isin(some_values)] # Note: This is not an in-place operation
组合条件
可以使用 & (AND) 和 | 等逻辑运算符组合多个条件(OR):
df.loc[(df['column_name'] >= A) & (df['column_name'] <= B)]
请注意,括号是确保正确的运算符优先级所必需的。
示例
考虑 DataFrame:
import pandas as pd import numpy as np df = pd.DataFrame({'A': 'foo bar foo bar foo bar foo foo'.split(), 'B': 'one one two three two two one three'.split(), 'C': np.arange(8), 'D': np.arange(8) * 2})
选择“A”等于的行'foo':
print(df.loc[df['A'] == 'foo'])
产量:
A B C D 0 foo one 0 0 2 foo two 2 4 4 foo two 4 8 6 foo one 6 12 7 foo three 7 14
多值选择优化
对于基于多个值选择行,它是创建索引并将 .loc 与 df.index.isin 结合使用会更有效。这可以避免多次调用 isin,从而提高性能。
df = df.set_index(['B']) print(df.loc[df.index.isin(['one','two'])])
产量:
A C D B one foo 0 0 one bar 1 2 one foo 6 12 two foo 2 4 two foo 4 8 two bar 5 10
以上是如何根据列值从 Pandas DataFrame 中高效选择数据?的详细内容。更多信息请关注PHP中文网其他相关文章!