열 값을 기준으로 DataFrame에서 데이터를 선택하는 방법
SQL에서 열 값을 기준으로 행을 선택하는 일반적인 쿼리는 다음과 같습니다. like:
SELECT * FROM table WHERE column_name = some_value
Pandas에서 동일한 결과를 얻으려면 몇 가지 방법이 있습니다. 접근 방식:
정확한 값 일치
열 값이 특정 값(some_value)과 동일한 행을 선택하려면 .loc 내에서 == 연산자를 사용하세요.
df.loc[df['column_name'] == some_value]
가치 포용 및 제외
열 값이 목록(some_values)에 포함된 행을 선택하려면 isin 함수를 사용하세요.
df.loc[df['column_name'].isin(some_values)]
특정 값을 제외하려면 반환된 부울 시리즈를 무효화하세요. 작성자: isin:
df = df.loc[~df['column_name'].isin(some_values)] # Note: This is not an in-place operation
결합 조건
&(AND) 및 |와 같은 논리 연산자를 사용하여 여러 조건을 결합할 수 있습니다. (OR):
df.loc[(df['column_name'] >= A) & (df['column_name'] <= B)]
올바른 연산자 우선 순위를 보장하려면 괄호가 필요합니다.
예
DataFrame을 고려하세요.
import pandas as pd import numpy as np df = pd.DataFrame({'A': 'foo bar foo bar foo bar foo foo'.split(), 'B': 'one one two three two two one three'.split(), 'C': np.arange(8), 'D': np.arange(8) * 2})
'A'가 동일한 행을 선택하려면 'foo':
print(df.loc[df['A'] == 'foo'])
수율:
A B C D 0 foo one 0 0 2 foo two 2 4 4 foo two 4 8 6 foo one 6 12 7 foo three 7 14
여러 값 선택을 위한 최적화
여러 값을 기반으로 행을 선택하는 경우 다음과 같습니다. 인덱스를 생성하고 df.index.isin과 함께 .loc를 사용하는 것이 더 효율적입니다. 이렇게 하면 isin을 여러 번 호출하는 것을 방지하여 성능이 향상됩니다.
df = df.set_index(['B']) print(df.loc[df.index.isin(['one','two'])])
수익률:
A C D B one foo 0 0 one bar 1 2 one foo 6 12 two foo 2 4 two foo 4 8 two bar 5 10
위 내용은 열 값을 기반으로 Pandas DataFrame에서 데이터를 효율적으로 선택하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!