데이터 조작 작업에서는 여러 조건이 포함된 복잡한 선택 기준이 자주 발생합니다. Pandas는 이러한 시나리오를 효율적으로 처리하기 위한 방법과 관용구를 제공합니다.
예:
다음 DataFrame을 고려하세요.
import pandas as pd from random import randint df = pd.DataFrame({'A': [randint(1, 9) for x in range(10)], 'B': [randint(1, 9)*10 for x in range(10)], 'C': [randint(1, 9)*100 for x in range(10)]})
문제:
'A'에서 값을 선택하세요. 'B'에 해당하는 값은 50보다 크고 'C'는 900이 아닙니다.
해결책:
열 연산을 적용하여 부울 시리즈 객체를 얻을 수 있습니다. 각 조건에 대해:
df["B"] > 50 (df["B"] > 50) & (df["C"] != 900)
또는 동등하게:
(df["B"] > 50) & ~(df["C"] == 900)
이러한 부울 시리즈를 사용하여 DataFrame에 색인을 생성할 수 있습니다:
df["A"][(df["B"] > 50) & (df["C"] != 900)]
또는 .loc를 사용하여:
df.loc[(df["B"] > 50) & (df["C"] != 900), "A"]
참고:
쓰기 액세스의 경우 다음을 사용하는 것이 좋습니다. 인덱스를 연결하는 대신 .loc를 사용하면 복사본 대신 보기가 발생하여 잠재적인 문제가 발생할 수 있습니다.
위 내용은 여러 복잡한 기준을 사용하여 Pandas DataFrame에서 데이터를 효율적으로 선택하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!