Pandas: Datenrahmen mit mehreren Bedingungen filtern
In Pandas kann das Filtern von Datenrahmen nach Werten in mehreren Spalten schwierig sein. Wenn Sie den UND-Operator (&) verwenden, können Sie erwarten, dass er sich wie der ODER-Operator (|) verhält und umgekehrt.
Bedenken Sie den folgenden Testcode:
<code class="python">df = pd.DataFrame({'a': range(5), 'b': range(5) }) df['a'][1] = -1 df['b'][1] = -1 df['a'][3] = -1 df['b'][4] = -1 df1 = df[(df.a != -1) & (df.b != -1)] df2 = df[(df.a != -1) | (df.b != -1)] print(pd.concat([df, df1, df2], axis=1, keys=[ 'original df', 'using AND (&)', 'using OR (|)',]))</code>
Das Unerwartete Verhalten tritt in den Ergebnissen auf:
original df using AND (&) using OR (|) a b a b a b 0 0 0 0 0 0 0 1 -1 -1 NaN NaN NaN NaN 2 2 2 2 2 2 2 3 -1 3 NaN NaN -1 3 4 4 -1 NaN NaN 4 -1 [5 rows x 6 columns]
Der UND-Operator (&) löscht jede Zeile, in der mindestens ein Wert -1 ist, während der ODER-Operator (|) nur Zeilen löscht, in denen beide Werte -1 sind. Dieses Verhalten ist das Gegenteil von dem, was erwartet wird.
Der Grund für dieses Verhalten liegt in der Art und Weise, wie diese Operatoren verwendet werden. In der AND-Bedingung geben Sie an, Zeilen beizubehalten, in denen beide Bedingungen wahr sind. Dies entspricht dem Löschen von Zeilen, in denen mindestens eine Bedingung falsch ist. Im Gegensatz dazu gibt die ODER-Bedingung an, Zeilen beizubehalten, in denen eine der Bedingungen wahr ist, was dem Löschen von Zeilen entspricht, in denen beide Bedingungen falsch sind.
Um Klarheit zu gewährleisten und Verwirrung zu vermeiden, wird empfohlen, für Bedingungen eine explizite Notation zu verwenden mit mehreren Spalten. Anstatt mehrere Bedingungen mit Operatoren zu verketten, verwenden Sie Klammern, um Bedingungen zu gruppieren und ihre logische Beziehung explizit zu machen.
Zum Beispiel gibt der folgende Code explizit die UND-Bedingungen an:
<code class="python">df1 = df[(df.a != -1) & (df.b != -1)]</code>
Während der folgende Der Code gibt die ODER-Bedingungen explizit an:
<code class="python">df2 = df[(df.a != -1) | (df.b != -1)]</code>
Durch die Verwendung expliziter Notation können Sie sicherstellen, dass Ihre Bedingungen wie beabsichtigt interpretiert werden und unerwartetes Verhalten verhindern.
Das obige ist der detaillierte Inhalt vonWarum verhält sich der UND-Operator (&) in Pandas beim Filtern von Datenrahmen nach mehreren Bedingungen wie der ODER-Operator (|)?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!