pandas:索引資料框時的多個條件- 非直觀行為
根據涉及多個的條件從資料框中選擇行時列中,使用者可能會遇到意外行為。特別是,OR 和 AND 運算子的行為似乎與其預期角色相反。
考慮以下程式碼:
<code class="python">import pandas as pd df = pd.DataFrame({'a': range(5), 'b': range(5) }) # Insert -1 values df.loc[1, 'a'] = -1 df.loc[1, 'b'] = -1 df.loc[3, 'a'] = -1 df.loc[4, 'b'] = -1 df1 = df[(df.a != -1) & (df.b != -1)] df2 = df[(df.a != -1) | (df.b != -1)] df_combined = pd.concat([df, df1, df2], axis=1, keys=['Original', 'AND', 'OR']) print(df_combined)</code>
結果:
<code class="python"> Original AND OR a b a b a b 0 0 0 0 0 0 0 1 -1 -1 NaN NaN NaN NaN 2 2 2 2 2 2 2 3 -1 3 NaN NaN -1 3 4 4 -1 NaN NaN 4 -1</code>
如觀察到的,當使用OR 運算子(df2) 時,其中一個或兩個值為-1 的行將被保留,而當使用AND 運算子(df1) 時,任何值為-1 的行將被丟棄。這種行為與直覺預期相矛盾。
解釋
看似相反的行為源自於每個操作員的情況所採取的視角。對於 AND 運算子:
<code class="python">(df.a != -1) & (df.b != -1)</code>
條件讀取為“保留 df.a 和 df.b 均不同於 -1 的行”,有效地排除具有至少一個 -1 值的行。
相反,OR 運算符:
<code class="python">(df.a != -1) | (df.b != -1)</code>
讀作“保留df.a 或df.b 不同於-1 的行”,有效地排除兩個值為-1 的行。
因此,該行為符合選擇要保留的行而不是要排除的行的意圖。
鍊式存取注意事項
程式碼片段 df不建議使用 ['a'][1] = -1 來修改儲存格值。為了清晰和一致性,建議使用 df.loc[1, 'a'] = -1 或 df.iloc[1, 0] = -1。
以上是為什麼在 pandas 索引中使用 OR 運算子會保留值為 -1 的行,而 AND 運算子會丟棄它們,這與直覺的預期相矛盾?的詳細內容。更多資訊請關注PHP中文網其他相關文章!