如何使用多个标准有效过滤 Pandas 数据帧和系列-Python教程-PHP中文网

如何使用多个标准有效过滤 Pandas 数据帧和系列

Susan Sarandon

发布： 2024-10-20 12:18:30

原创

303 人浏览过

How to Efficiently Filter Pandas DataFrames and Series Using Multiple Criteria

高效地将多个过滤器应用于 Pandas 数据帧和系列

在 Pandas 中处理数据时，通常需要根据多个条件进行过滤。虽然传统方法涉及链接多个 reindex() 操作，但这种技术会创建新对象并复制数据，从而导致效率低下。

另一种方法是利用布尔索引，这明显更有效。 Pandas 允许布尔索引，从而能够根据 True/False 评估直接对数据进行子集化。

<code class="python">df.loc[df['col1'] >= 1, 'col1']</code>

登录后复制

这种技术避免了创建新对象和不必要的复制，提供了更有效的数据过滤方法。

为了进一步提高效率，可以为此目的编写辅助函数：

<code class="python">def b(x, col, op, n): 
     return op(x[col],n)

def f(x, *b):
     return x[(np.logical_and(*b))]</code>

登录后复制

使用这些辅助函数，应用多个过滤器变得简单：

<code class="python">b1 = b(df, 'col1', ge, 1)
b2 = b(df, 'col1', le, 1)
f(df, b1, b2)</code>

登录后复制

对于 Pandas 版本0.13 及更高版本，专用查询方法提供了一种更有效的方法来应用多个过滤器，利用 numexpr 进行优化：

<code class="python">df.query('col1 <= 1 & 1 <= col1')</code>

登录后复制

以上是如何使用多个标准有效过滤 Pandas 数据帧和系列的详细内容。更多信息请关注PHP中文网其他相关文章！