pandas: 데이터 프레임을 인덱싱하는 동안 여러 조건 - 비직관적인 동작
여러 관련 조건을 기반으로 데이터 프레임에서 행을 선택하는 경우 열을 사용하면 사용자에게 예상치 못한 동작이 발생할 수 있습니다. 특히 OR 및 AND 연산자는 예상되는 역할과 반대로 동작하는 것 같습니다.
다음 코드를 고려하세요.
<code class="python">import pandas as pd df = pd.DataFrame({'a': range(5), 'b': range(5) }) # Insert -1 values df.loc[1, 'a'] = -1 df.loc[1, 'b'] = -1 df.loc[3, 'a'] = -1 df.loc[4, 'b'] = -1 df1 = df[(df.a != -1) & (df.b != -1)] df2 = df[(df.a != -1) | (df.b != -1)] df_combined = pd.concat([df, df1, df2], axis=1, keys=['Original', 'AND', 'OR']) print(df_combined)</code>
결과:
<code class="python"> Original AND OR a b a b a b 0 0 0 0 0 0 0 1 -1 -1 NaN NaN NaN NaN 2 2 2 2 2 2 2 3 -1 3 NaN NaN -1 3 4 4 -1 NaN NaN 4 -1</code>
관찰한 대로 , OR 연산자를 사용하면 값 중 하나 또는 둘 다 -1인 행이 유지되고(df2), AND 연산자를 사용하면 값이 -1인 행은 삭제됩니다(df1). 이 동작은 직관적인 기대와 모순됩니다.
설명
겉보기에 반대되는 동작은 각 연산자의 조건에 채택된 관점에서 비롯됩니다. AND 연산자의 경우:
<code class="python">(df.a != -1) & (df.b != -1)</code>
조건은 "df.a와 df.b가 모두 -1과 다른 행 유지"로 읽혀 하나 이상의 -1 값이 있는 행을 효과적으로 제외합니다.
반대로, OR 연산자:
<code class="python">(df.a != -1) | (df.b != -1)</code>
"df.a 또는 df.b가 -1과 다른 행 유지"로 읽혀 두 값이 모두 -1인 행을 효과적으로 제외합니다.
따라서 이 동작은 제외할 행이 아니라 유지할 행을 선택하려는 의도와 일치합니다.
체인 액세스에 대한 참고 사항
코드 조각 df ['a'][1] = -1로 셀 값을 수정하는 것은 권장되지 않습니다. 명확성과 일관성을 위해 대신 df.loc[1, 'a'] = -1 또는 df.iloc[1, 0] = -1을 사용하는 것이 좋습니다.
위 내용은 Pandas 인덱싱에서 OR 연산자를 사용하면 값이 -1인 행을 유지하는 반면 AND 연산자는 이를 삭제하여 직관적인 기대와 모순되는 이유는 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!