Pandas에서 SQL의 GROUP BY HAVING 함수 구현
SQL의 GROUP BY HAVING
절을 사용하면 사용자가 그룹 수준 조건에 따라 데이터를 필터링할 수 있어 강력한 데이터 집계 및 분석 방법을 제공합니다. Pandas에서는 groupby
및 filter
메서드를 결합하여 동일한 기능을 구현할 수 있습니다.
그룹별 방식
groupby
메서드는 지정된 열을 기준으로 DataFrame을 여러 그룹으로 나눕니다. 각 그룹에는 그룹화 열에 동일한 값이 있는 행이 포함되어 있습니다. 예:
<code class="language-python">import pandas as pd df = pd.DataFrame([[1, 2], [1, 3], [5, 6]], columns=['A', 'B']) g = df.groupby('A')</code>
생성된 'g' 개체는 각 그룹을 별도의 엔터티로 나타내는 GroupBy 개체입니다.
필터 방식
filter
메서드를 사용하면 사용자가 GroupBy 개체에 부울 필터를 적용할 수 있습니다. 이 필터는 각 그룹에 대해 개별적으로 작동하므로 사용자 정의 기준에 따라 특정 그룹을 선택할 수 있습니다.
SQL의 HAVING 절을 시뮬레이션하려면 그룹 자체의 조건을 평가하는 필터 함수를 정의할 수 있습니다. 이 함수는 그룹이 조건을 충족하면 True를 반환하고, 그렇지 않으면 False를 반환해야 합니다. 예:
<code class="language-python">def filter_condition(group): return len(group) > 1 g.filter(filter_condition)</code>
이 작업은 길이(예: 행 수)가 1보다 큰 그룹만 선택합니다.
실적 노트
최상의 성능을 위해 filter
메서드는 각 그룹을 순차적으로 처리한다는 점에 유의하세요. 따라서 대규모 데이터 세트의 경우 최적화된 필터 함수를 사용하고 함수에서 중첩 루프나 복잡한 계산을 사용하지 않는 것이 좋습니다.
위 내용은 Pandas에서 기능을 사용하여 SQL GROUP을 어떻게 얻을 수 있나요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!