skimpy : 데이터 요약을 위해 팬더를 대안으로 설명합니다 ()-일체 포함-php.cn

데이터 요약은 모든 데이터 분석 워크 플로에서 필수적인 첫 단계입니다. Pandas 'Second () 함수는 많은 사람들에게는 도구가되었지만 기능은 숫자 데이터로 제한되며 기본 통계 만 제공합니다. 모든 열 유형에 대해 상세하고 시각적으로 매력적이며 포괄적 인 데이터 요약을 제공하도록 설계된 파이썬 라이브러리 인 Skimpy를 입력하십시오.

이 기사에서는 Skimpy가 Pandas Describ ()의 가치있는 대안 인 이유를 살펴 보겠습니다. Squimpy를 설치하고 사용하는 방법을 배우고 기능을 탐색하며 예제를 통해 Spection ()과 출력을 비교합니다. 결국, EDA (Exploratory Data Analysis)를 어떻게 향상시키는 지에 대한 완전히 이해할 수 있습니다.

학습 결과

Pandas 'exply () 함수의 한계를 이해하십시오.
파이썬에서 squimpy를 설치하고 구현하는 방법을 알아보십시오.
Skimpy의 상세한 출력과 예제와 통찰력을 탐색하십시오.
Squimpy와 Pandas의 출력을 비교하십시오 ().
Squimpy를 데이터 분석 워크 플로에 통합하는 방법을 이해하십시오.

팬더가 ()가 충분하지 않은 이유는 무엇입니까?

팬더의 Spection () 함수는 데이터를 신속하게 요약하는 데 널리 사용됩니다. EDA (Exploratory Data Analysis)를위한 강력한 도구 역할을하지만 유틸리티는 여러 측면에서 제한됩니다. 다음은 단점에 대한 자세한 고장과 사용자가 종종 불안과 같은 대안을 찾는 이유입니다.

기본적으로 숫자 데이터에 중점을 둡니다

기본적으로 설명 ()은 명시 적으로 달리 구성되지 않는 한 숫자 열에서만 작동합니다.

예:

 팬더를 PD로 가져옵니다  

데이터 = {  
    "이름": [ "Alice", "Bob", "Charlie", "David"],  
    "나이": [25, 30, 35, 40],  
    "City": [ "New York", "Los Angeles", "Chicago", "Houston"],  
    "급여": [70000, 80000, 120000, 90000],  
}  

df = pd.dataframe (데이터)  
print (df.describe ())

로그인 후 복사

산출:

 연령 연봉  
Count 4.000000 4.000000  
평균 32.500000 90000.000000  
STD 6.454972 20000.000000  
최소 25.000000 70000.000000  
25% 28.750000 77500.000000  
50% 32.500000 85000.000000  
75% 36.250000 97500.000000  
최대 40.000000 120000.000000

로그인 후 복사

주요 문제 :

비수체 열 (이름과 도시)은 설명을 명시 적으로 호출하지 않으면 (포함 = 'all') 무시됩니다. 그럼에도 불구하고 출력은 비수막 열에 대한 범위가 제한되어 있습니다.

숫자가 아닌 데이터에 대한 제한된 요약

include = 'all'을 사용하여 숫자가 아닌 열이 포함되면 요약이 최소화됩니다. 그것은 단지 보여줍니다 :

카운트 : 비 이동 값 수.
고유 : 고유 한 가치 수.
상단 : 가장 자주 발생하는 값.
FREQ : 최고 값의 주파수.

예:

 print (df.describe (포함 = "all"))

로그인 후 복사

산출:

 이름을 지명 도시 급여  
계산 4 4.0 4 4.000000  
독특한 4 Nan 4 Nan  
최고 앨리스 난 뉴욕 난  
freq 1 nan 1 nan  
평균 NAN 32.5 NAN 90000.000000  
STD NAN 6.5 NAN 20000.000000  
Min Nan 25.0 NAN 70000.000000  
25% NAN 28.8 NAN 77500.000000  
50% NAN 32.5 NAN 85000.000000  
75% NAN 36.2 NAN 97500.000000  
Max Nan 40.0 NAN 120000.000000

로그인 후 복사

주요 문제 :

문자열 열 (이름과 도시)은 지나치게 기본적인 메트릭 (예 : 상단, freq)을 사용하여 요약됩니다.
문자열 길이, 패턴 또는 누락 된 데이터 비율에 대한 통찰력이 없습니다.

누락 된 데이터에 대한 정보가 없습니다

Pandas 'sec장 ()은 각 열에 대한 누락 데이터의 백분율을 명시 적으로 표시하지 않습니다. 누락 데이터를 식별하려면 별도의 명령이 필요합니다.

 print (df.isnull (). sum ())

로그인 후 복사

고급 메트릭의 부족

spection ()에서 제공하는 기본 메트릭은 기본입니다. 숫자 데이터의 경우 다음과 같습니다.

계산, 평균 및 표준 편차.
최소, 최대 및 사 분위수 (25%, 50%및 75%).

그러나 다음과 같은 고급 통계 세부 사항이 부족합니다.

첨도 및 왜곡 : 데이터 분포의 지표.
이상치 감지 : 일반적인 범위를 넘어서 극단적 인 값을 표시하지 않습니다.
사용자 정의 집계 : 사용자 정의 기능을 적용 할 수있는 유연성이 제한적입니다.

데이터의 열악한 시각화

설명 ()은 기능적이지만 경우에 따라 시각적으로 매력적이거나 해석하기 쉽지 않은 일반 텍스트 요약을 출력합니다. 트렌드 또는 배포를 시각화하려면 Matplotlib 또는 Seaborn과 같은 추가 라이브러리가 필요합니다.

예 : 히스토그램 또는 박스 플롯은 분포를 더 잘 나타내지 만 설명 ()은 그러한 시각적 기능을 제공하지 않습니다.

불안정으로 시작합니다

Skimpy는 탐색 적 데이터 분석 (EDA)을 단순화하고 향상 시키도록 설계된 파이썬 라이브러리입니다. 데이터에 대한 상세하고 간결한 요약을 제공하여 숫자 및 비수막 열을 효과적으로 처리합니다. Pandas 'Spection ()과 달리 Skimpy에는 고급 메트릭, 누락 데이터 통찰력 및 더 깨끗하고 직관적 인 출력이 포함됩니다. 이를 통해 데이터 세트를 빠르게 이해하고 데이터 품질 문제를 식별하며 심층 분석 준비를위한 훌륭한 도구가됩니다.

PIP를 사용하여 Squimpy 설치 :
터미널 또는 명령 프롬프트에서 다음 명령을 실행하십시오.

 핍을 설치하십시오

로그인 후 복사

설치 확인 :
설치 후 Python 스크립트 또는 Jupyter 노트북으로 가져 와서 Skimpy가 올바르게 설치되었는지 확인할 수 있습니다.

 삐걱 거리는 수입 탈지에서  
print ( "Squimpy Instally Success!")

로그인 후 복사

왜 스키피가 더 낫습니까?

Squimpy를 사용하는 이유에 대한 여러 가지 이유를 자세히 살펴 보겠습니다.

모든 데이터 유형에 대한 통합 요약

Squimpy는 모든 데이터 유형을 동일한 중요성으로 취급하여 단일 통합 테이블에서 숫자 및 비수막 열에 대한 풍부한 요약을 제공합니다.

예:

 삐걱 거리는 수입 탈지에서  
팬더를 PD로 가져옵니다  

데이터 = {  
    "이름": [ "Alice", "Bob", "Charlie", "David"],  
    "나이": [25, 30, 35, 40],  
    "City": [ "New York", "Los Angeles", "Chicago", "Houston"],  
    "급여": [70000, 80000, 120000, 90000],  
}  

df = pd.dataframe (데이터)  
탈지 (DF)

로그인 후 복사

산출:

Skimpy는 다음과 같은 정보를 가진 간결하고 잘 구조화 된 테이블을 생성합니다.

숫자 데이터 : 수, 평균, 중앙값, 표준 편차, 최소, 최대 및 사 분위수.
비 숫자 데이터 : 고유 한 값, 가장 빈번한 값 (모드), 결 측값 및 문자 수 분포.

skimpy : 데이터 요약을 위해 팬더를 대안으로 설명합니다 ()

누락 된 데이터의 내장 처리

Skimpy는 요약에서 누락 데이터를 자동으로 강조하여 각 열의 결 측값의 백분율과 수를 보여줍니다. 이렇게하면 df.isnull (). sum ()과 같은 추가 명령이 필요하지 않습니다.

이것이 중요한 이유 :

사용자가 데이터 품질 문제를 선불로 식별 할 수 있도록 도와줍니다.
누락 된 데이터의 대치 또는 제거에 대한 빠른 결정을 장려합니다.

고급 통계 통찰력

Skimpy는 더 깊은 통찰력을 제공하는 추가 메트릭을 포함하여 기본 설명 통계를 넘어옵니다.

kurtosis : 분포의 "꼬리"를 나타냅니다.
왜곡 : 데이터 분포의 비대칭 측정.
이상적 플래그 : 잠재적 특이점이있는 열을 강조 표시합니다.

텍스트 열에 대한 풍부한 요약

문자열과 같은 숫자가 아닌 데이터의 경우 으르렁 거리는 소리는 팬더가 설명 할 수없는 자세한 요약을 제공합니다.

문자열 길이 분포 : 최소, 최대 및 평균 문자열 길이에 대한 통찰력을 제공합니다.
패턴 및 변형 : 텍스트 데이터의 일반적인 패턴을 식별합니다.
고유 한 가치와 모드 : 텍스트 다양성에 대한 명확한 그림을 제공합니다.

텍스트 열의 출력 예 :

열	고유 한 가치	가장 빈번한 가치	모드 카운트	AVG 길이
이름	4	앨리스	1	5.25
도시	4	뉴욕	1	7.50

작고 직관적 인 비주얼

Skimpy는 특히 큰 데이터 세트에서 해석하기 쉬운 색상 코드 및 표 출력을 사용합니다. 이 비주얼은 강조 :

결 측값.
분포.
요약 통계, 모두 한눈에.

이 시각적 인 매력은 Skimpy의 요약 프레젠테이션 준비가되어 이해 관계자에게 결과를보고하는 데 특히 유용합니다.

범주 형 변수에 대한 내장 지원

Skimpy는 Pandas 'sec장 ()가하지 않는 범주 형 데이터에 대한 특정 메트릭을 제공합니다.

카테고리 분포.
각 카테고리의 빈도 및 비율.

이로 인해 인구 통계, 지리적 또는 기타 범주 형 변수와 관련된 데이터 세트에 특히 Squimpy가 유용합니다.

데이터 요약을 위해 squimpy 사용

아래에서는 데이터 요약에 효과적으로 Squimpy를 사용하는 방법을 살펴 봅니다.

STEP1 : chimpy를 가져 와서 데이터 세트를 준비하십시오

squimpy를 사용하려면 먼저 데이터 세트와 함께 가져와야합니다. Skimpy는 Pandas 데이터 프레임과 완벽하게 통합됩니다.

예제 데이터 세트 :
숫자, 범주 및 텍스트 데이터가 포함 된 간단한 데이터 세트로 작업하겠습니다.

 팬더를 PD로 가져옵니다
삐걱 거리는 수입 탈지에서

# 샘플 데이터 세트
데이터 = {
    "이름": [ "Alice", "Bob", "Charlie", "David"],
    "나이": [25, 30, 35, 40],
    "City": [ "New York", "Los Angeles", "Chicago", "Houston"],
    "급여": [70000, 80000, 120000, 90000],
    "등급": [4.5, 없음, 4.7, 4.8],
}

df = pd.dataframe (데이터)

로그인 후 복사

2 단계 : skim () 함수를 적용하십시오

Squimpy의 핵심 기능은 skim ()입니다. DataFrame에 적용되면 모든 열의 자세한 요약을 제공합니다.

용법:

 탈지 (DF)

로그인 후 복사

skimpy : 데이터 요약을 위해 팬더를 대안으로 설명합니다 ()

3 단계 : Skimpy의 요약을 해석하십시오

Squimpy의 출력의 의미를 분류합시다.

열	데이터 유형	없어진 (%)	평균	중앙값	최소	맥스	고유한	가장 빈번한 가치	모드 카운트
이름	텍스트	0.0%	-	-	-	-	4	앨리스	1
나이	숫자	0.0%	32.5	32.5	25	40	-	-	-
도시	텍스트	0.0%	-	-	-	-	4	뉴욕	1
샐러리	숫자	0.0%	90000	85000	70000	120000	-	-	-
평가	숫자	25.0%	4.67	4.7	4.5	4.8	-	-	-

결 측값 : "등급"열에는 25% 결 측값이있어 잠재적 데이터 품질 문제를 나타냅니다.
숫자 열 : "급여"의 평균 및 중앙값은 가깝고 대략적으로 대칭 분포를 나타내며 "나이"는 그 범위 내에 균등하게 분포됩니다.
텍스트 열 : "City"열에는 "New York"이 가장 빈번한 4 개의 고유 한 값이 있습니다.

4 단계 : 주요 통찰력에 중점을 둡니다

Skimpy는 특히 식별하는 데 유용합니다.

데이터 품질 문제 :
- "등급"과 같은 열의 결 측값.
- 최소, 최대 및 사 분위수와 같은 지표를 통한 특이 치.
범주 형 데이터의 패턴 :
- "City"와 같은 열에서 가장 빈번한 카테고리.
문자열 길이 통찰력 :
- 텍스트가 많은 데이터 세트의 경우 Skimpy는 평균 문자열 길이를 제공하여 토큰 화와 같은 전처리 작업을 도와줍니다.

STEP 5 : 삐걱 거리는 출력을 사용자 정의합니다

Skimpy는 필요에 따라 출력을 조정할 수있는 약간의 유연성을 허용합니다.

서브 세트 열 : 데이터 프레임의 서브 세트로 전달하여 특정 열만 분석합니다.

 탈지 (df [[ "Age", "Salary"]])))

로그인 후 복사

누락 데이터에 중점을 두십시오 : 누락 된 데이터 비율을 신속하게 식별하십시오.

 skim (df) .loc [:, "column", "missing (%)"]]]]

로그인 후 복사

불쾌한 사용의 장점

올인원 요약 : 삐걱 거리는 소리는 숫자 및 비 수수께끼 통찰력을 단일 테이블로 통합합니다.
시간 절약 : 다른 데이터 유형을 탐색하기 위해 여러 줄의 코드를 작성할 필요가 없습니다.
가독성 향상 : 깨끗하고 시각적으로 매력적인 요약을 통해 트렌드와 특이 치를 쉽게 식별 할 수 있습니다.
대형 데이터 세트의 효율적 : Skimpy는 사용자를 압도하지 않고 수많은 열로 데이터 세트를 처리하도록 최적화됩니다.

결론

Squimpy는 모든 유형의 데이터 세트에 대한 상세하고 인간이 읽을 수있는 통찰력을 제공하여 데이터 요약을 단순화합니다. Pandas Seciple ()과 달리 숫자 데이터로의 초점을 제한하지 않으며보다 풍부한 요약 경험을 제공합니다. 데이터 청소, 트렌드 탐색 또는 보고서 준비에 관계없이 Skimpy의 기능은 데이터 전문가에게 없어서는 안될 도구가됩니다.