SQL의 COUNT(DISTINCT)를 Pandas로 변환
데이터 조작 영역에서 Pandas는 테이블 형식 관리를 위한 강력한 도구로 떠올랐습니다. 데이터. Oracle 및 SQL Server와 같은 다양한 데이터 소스를 처리할 때 사용자는 SQL 쿼리를 효율적인 Pandas 작업으로 변환하는 데 어려움을 겪을 수 있습니다. 일반적인 작업 중 하나는 고유 값의 수를 계산하는 것입니다. 이 작업은 SQL의 COUNT(DISTINCT) 함수와 "동등한" 함수를 요구합니다.
Pandas에서 이를 달성하려면 열이 있는 테이블 탐색을 시작하겠습니다. YEARMONTH, CLIENTCODE 및 기타 다양한 속성을 나타냅니다. SQL에서는 다음 쿼리를 사용하여 연간 고유 클라이언트 수를 계산할 수 있습니다.
SELECT count(distinct CLIENTCODE) FROM table GROUP BY YEARMONTH;
이 쿼리는 각 연도의 고유 클라이언트 수를 표시하는 결과를 생성합니다. Pandas에서 이 기능을 어떻게 복제할 수 있습니까?
해결책은 nunique() 메서드를 활용하는 것입니다.
table.groupby('YEARMONTH').CLIENTCODE.nunique()
이 표현식은 YEARMONTH 열을 기준으로 데이터를 그룹화하고 nunique()를 적용합니다. 각 그룹 내의 CLIENTCODE 시리즈에 대한 메소드입니다. 결과는 각 연도의 개별 클라이언트 수와 함께 YEARMONTH 값을 나열하는 DataFrame입니다.
설명하기 위해 table이라는 샘플 DataFrame을 고려해 보세요.
CLIENTCODE YEARMONTH 0 1 201301 1 1 201301 2 2 201301 3 1 201302 4 2 201302 5 2 201302 6 3 201302
nunique( ) 메서드의 결과는 다음과 같습니다.
YEARMONTH 201301 2 201302 3
따라서 Pandas의 nunique() 메서드는 지정된 열 내의 고유 값을 효율적으로 계산하기 위해 SQL의 COUNT(DISTINCT)와 동일한 기능을 제공합니다.
위 내용은 SQL의 COUNT(DISTINCT)를 Pandas로 변환: nunique() 메서드를 사용하는 방법?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!