Pandas 데이터 그룹 필터링: SQL의 GROUP BY HAVING과 동일
데이터 분석에서는 데이터 그룹에 적용된 조건에 따라 데이터를 필터링해야 하는 경우가 많습니다. SQL에서 HAVING 절은 이러한 유형의 조건부 필터링을 허용합니다. Pandas에서는 그룹별 및 필터 작업을 조합하여 유사한 기능을 구현할 수 있습니다.
Pandas에서 그룹화된 데이터에 필터를 적용하려면 groupby 개체에 제공되는 필터 메소드를 사용할 수 있습니다. 이 방법은 함수를 입력으로 받아들이고 이를 각 그룹에 적용합니다. 함수가 그룹에 대해 True를 반환하면 그룹은 유지되고, 그렇지 않으면 제외됩니다.
다음 예를 고려해 보세요.
<code class="language-python">import pandas as pd df = pd.DataFrame([[1, 2], [1, 3], [5, 6]], columns=['A', 'B']) # 按列 A 分组数据框 g = df.groupby('A') # 过滤以包含超过 1 行的组 filtered_df = g.filter(lambda x: len(x) > 1) print(filtered_df)</code>
출력:
<code> A B 0 1 2 1 1 3</code>
이 예에서 groupby 작업은 A열의 각 고유 값에 대한 그룹 개체를 생성합니다. 그런 다음 필터 방법이 각 그룹 개체에 적용되고 len(x) 함수를 사용하여 그룹을 유지해야 할지 제외해야 할지 결정합니다. 이 예에서는 행이 2개 이상인 그룹이 유지되어 필터링된 데이터 프레임이 생성됩니다.
부울 값을 반환하는 한 더 복잡한 필터 함수를 만들 수도 있습니다. 예를 들어 B열 값의 합계를 기준으로 그룹을 필터링하려면 다음을 사용합니다.
<code class="language-python">filtered_df = g.filter(lambda x: x['B'].sum() == 5)</code>
필터 기능에서 그룹화에 사용되는 열에 접근할 수 없는 잠재적인 버그가 있을 수 있습니다. 한 가지 해결 방법은 열 이름을 사용하여 데이터프레임을 수동으로 그룹화하는 것입니다.
위 내용은 Pandas 조건부 필터링으로 기능을 사용하여 SQL의 GROUP을 달성하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!