在 Pandas 中处理数据时,通常需要根据多个条件进行过滤。虽然传统方法涉及链接多个 reindex() 操作,但这种技术会创建新对象并复制数据,从而导致效率低下。
另一种方法是利用布尔索引,这明显更有效。 Pandas 允许布尔索引,从而能够根据 True/False 评估直接对数据进行子集化。
<code class="python">df.loc[df['col1'] >= 1, 'col1']</code>
这种技术避免了创建新对象和不必要的复制,提供了更有效的数据过滤方法。
为了进一步提高效率,可以为此目的编写辅助函数:
<code class="python">def b(x, col, op, n): return op(x[col],n) def f(x, *b): return x[(np.logical_and(*b))]</code>
使用这些辅助函数,应用多个过滤器变得简单:
<code class="python">b1 = b(df, 'col1', ge, 1) b2 = b(df, 'col1', le, 1) f(df, b1, b2)</code>
对于 Pandas 版本0.13 及更高版本,专用查询方法提供了一种更有效的方法来应用多个过滤器,利用 numexpr 进行优化:
<code class="python">df.query('col1 <= 1 & 1 <= col1')</code>
以上是如何使用多个标准有效过滤 Pandas 数据帧和系列的详细内容。更多信息请关注PHP中文网其他相关文章!