데이터 요약은 모든 데이터 분석 워크 플로에서 필수적인 첫 단계입니다. Pandas 'Second () 함수는 많은 사람들에게는 도구가되었지만 기능은 숫자 데이터로 제한되며 기본 통계 만 제공합니다. 모든 열 유형에 대해 상세하고 시각적으로 매력적이며 포괄적 인 데이터 요약을 제공하도록 설계된 파이썬 라이브러리 인 Skimpy를 입력하십시오.
이 기사에서는 Skimpy가 Pandas Describ ()의 가치있는 대안 인 이유를 살펴 보겠습니다. Squimpy를 설치하고 사용하는 방법을 배우고 기능을 탐색하며 예제를 통해 Spection ()과 출력을 비교합니다. 결국, EDA (Exploratory Data Analysis)를 어떻게 향상시키는 지에 대한 완전히 이해할 수 있습니다.
팬더의 Spection () 함수는 데이터를 신속하게 요약하는 데 널리 사용됩니다. EDA (Exploratory Data Analysis)를위한 강력한 도구 역할을하지만 유틸리티는 여러 측면에서 제한됩니다. 다음은 단점에 대한 자세한 고장과 사용자가 종종 불안과 같은 대안을 찾는 이유입니다.
기본적으로 설명 ()은 명시 적으로 달리 구성되지 않는 한 숫자 열에서만 작동합니다.
예:
팬더를 PD로 가져옵니다 데이터 = { "이름": [ "Alice", "Bob", "Charlie", "David"], "나이": [25, 30, 35, 40], "City": [ "New York", "Los Angeles", "Chicago", "Houston"], "급여": [70000, 80000, 120000, 90000], } df = pd.dataframe (데이터) print (df.describe ())
산출:
연령 연봉 Count 4.000000 4.000000 평균 32.500000 90000.000000 STD 6.454972 20000.000000 최소 25.000000 70000.000000 25% 28.750000 77500.000000 50% 32.500000 85000.000000 75% 36.250000 97500.000000 최대 40.000000 120000.000000
주요 문제 :
비수체 열 (이름과 도시)은 설명을 명시 적으로 호출하지 않으면 (포함 = 'all') 무시됩니다. 그럼에도 불구하고 출력은 비수막 열에 대한 범위가 제한되어 있습니다.
include = 'all'을 사용하여 숫자가 아닌 열이 포함되면 요약이 최소화됩니다. 그것은 단지 보여줍니다 :
예:
print (df.describe (포함 = "all"))
산출:
이름을 지명 도시 급여 계산 4 4.0 4 4.000000 독특한 4 Nan 4 Nan 최고 앨리스 난 뉴욕 난 freq 1 nan 1 nan 평균 NAN 32.5 NAN 90000.000000 STD NAN 6.5 NAN 20000.000000 Min Nan 25.0 NAN 70000.000000 25% NAN 28.8 NAN 77500.000000 50% NAN 32.5 NAN 85000.000000 75% NAN 36.2 NAN 97500.000000 Max Nan 40.0 NAN 120000.000000
주요 문제 :
Pandas 'sec장 ()은 각 열에 대한 누락 데이터의 백분율을 명시 적으로 표시하지 않습니다. 누락 데이터를 식별하려면 별도의 명령이 필요합니다.
print (df.isnull (). sum ())
spection ()에서 제공하는 기본 메트릭은 기본입니다. 숫자 데이터의 경우 다음과 같습니다.
그러나 다음과 같은 고급 통계 세부 사항이 부족합니다.
설명 ()은 기능적이지만 경우에 따라 시각적으로 매력적이거나 해석하기 쉽지 않은 일반 텍스트 요약을 출력합니다. 트렌드 또는 배포를 시각화하려면 Matplotlib 또는 Seaborn과 같은 추가 라이브러리가 필요합니다.
예 : 히스토그램 또는 박스 플롯은 분포를 더 잘 나타내지 만 설명 ()은 그러한 시각적 기능을 제공하지 않습니다.
Skimpy는 탐색 적 데이터 분석 (EDA)을 단순화하고 향상 시키도록 설계된 파이썬 라이브러리입니다. 데이터에 대한 상세하고 간결한 요약을 제공하여 숫자 및 비수막 열을 효과적으로 처리합니다. Pandas 'Spection ()과 달리 Skimpy에는 고급 메트릭, 누락 데이터 통찰력 및 더 깨끗하고 직관적 인 출력이 포함됩니다. 이를 통해 데이터 세트를 빠르게 이해하고 데이터 품질 문제를 식별하며 심층 분석 준비를위한 훌륭한 도구가됩니다.
PIP를 사용하여 Squimpy 설치 :
터미널 또는 명령 프롬프트에서 다음 명령을 실행하십시오.
핍을 설치하십시오
설치 확인 :
설치 후 Python 스크립트 또는 Jupyter 노트북으로 가져 와서 Skimpy가 올바르게 설치되었는지 확인할 수 있습니다.
삐걱 거리는 수입 탈지에서 print ( "Squimpy Instally Success!")
Squimpy를 사용하는 이유에 대한 여러 가지 이유를 자세히 살펴 보겠습니다.
Squimpy는 모든 데이터 유형을 동일한 중요성으로 취급하여 단일 통합 테이블에서 숫자 및 비수막 열에 대한 풍부한 요약을 제공합니다.
예:
삐걱 거리는 수입 탈지에서 팬더를 PD로 가져옵니다 데이터 = { "이름": [ "Alice", "Bob", "Charlie", "David"], "나이": [25, 30, 35, 40], "City": [ "New York", "Los Angeles", "Chicago", "Houston"], "급여": [70000, 80000, 120000, 90000], } df = pd.dataframe (데이터) 탈지 (DF)
산출:
Skimpy는 다음과 같은 정보를 가진 간결하고 잘 구조화 된 테이블을 생성합니다.
Skimpy는 요약에서 누락 데이터를 자동으로 강조하여 각 열의 결 측값의 백분율과 수를 보여줍니다. 이렇게하면 df.isnull (). sum ()과 같은 추가 명령이 필요하지 않습니다.
이것이 중요한 이유 :
Skimpy는 더 깊은 통찰력을 제공하는 추가 메트릭을 포함하여 기본 설명 통계를 넘어옵니다.
문자열과 같은 숫자가 아닌 데이터의 경우 으르렁 거리는 소리는 팬더가 설명 할 수없는 자세한 요약을 제공합니다.
텍스트 열의 출력 예 :
열 | 고유 한 가치 | 가장 빈번한 가치 | 모드 카운트 | AVG 길이 |
---|---|---|---|---|
이름 | 4 | 앨리스 | 1 | 5.25 |
도시 | 4 | 뉴욕 | 1 | 7.50 |
Skimpy는 특히 큰 데이터 세트에서 해석하기 쉬운 색상 코드 및 표 출력을 사용합니다. 이 비주얼은 강조 :
이 시각적 인 매력은 Skimpy의 요약 프레젠테이션 준비가되어 이해 관계자에게 결과를보고하는 데 특히 유용합니다.
Skimpy는 Pandas 'sec장 ()가하지 않는 범주 형 데이터에 대한 특정 메트릭을 제공합니다.
이로 인해 인구 통계, 지리적 또는 기타 범주 형 변수와 관련된 데이터 세트에 특히 Squimpy가 유용합니다.
아래에서는 데이터 요약에 효과적으로 Squimpy를 사용하는 방법을 살펴 봅니다.
squimpy를 사용하려면 먼저 데이터 세트와 함께 가져와야합니다. Skimpy는 Pandas 데이터 프레임과 완벽하게 통합됩니다.
예제 데이터 세트 :
숫자, 범주 및 텍스트 데이터가 포함 된 간단한 데이터 세트로 작업하겠습니다.
팬더를 PD로 가져옵니다 삐걱 거리는 수입 탈지에서 # 샘플 데이터 세트 데이터 = { "이름": [ "Alice", "Bob", "Charlie", "David"], "나이": [25, 30, 35, 40], "City": [ "New York", "Los Angeles", "Chicago", "Houston"], "급여": [70000, 80000, 120000, 90000], "등급": [4.5, 없음, 4.7, 4.8], } df = pd.dataframe (데이터)
Squimpy의 핵심 기능은 skim ()입니다. DataFrame에 적용되면 모든 열의 자세한 요약을 제공합니다.
용법:
탈지 (DF)
Squimpy의 출력의 의미를 분류합시다.
열 | 데이터 유형 | 없어진 (%) | 평균 | 중앙값 | 최소 | 맥스 | 고유한 | 가장 빈번한 가치 | 모드 카운트 |
---|---|---|---|---|---|---|---|---|---|
이름 | 텍스트 | 0.0% | - | - | - | - | 4 | 앨리스 | 1 |
나이 | 숫자 | 0.0% | 32.5 | 32.5 | 25 | 40 | - | - | - |
도시 | 텍스트 | 0.0% | - | - | - | - | 4 | 뉴욕 | 1 |
샐러리 | 숫자 | 0.0% | 90000 | 85000 | 70000 | 120000 | - | - | - |
평가 | 숫자 | 25.0% | 4.67 | 4.7 | 4.5 | 4.8 | - | - | - |
Skimpy는 특히 식별하는 데 유용합니다.
Skimpy는 필요에 따라 출력을 조정할 수있는 약간의 유연성을 허용합니다.
탈지 (df [[ "Age", "Salary"]])))
skim (df) .loc [:, "column", "missing (%)"]]]]
Squimpy는 모든 유형의 데이터 세트에 대한 상세하고 인간이 읽을 수있는 통찰력을 제공하여 데이터 요약을 단순화합니다. Pandas Seciple ()과 달리 숫자 데이터로의 초점을 제한하지 않으며보다 풍부한 요약 경험을 제공합니다. 데이터 청소, 트렌드 탐색 또는 보고서 준비에 관계없이 Skimpy의 기능은 데이터 전문가에게 없어서는 안될 도구가됩니다.
A. 포괄적 인 데이터 요약을 위해 설계된 Python 라이브러리로, Pandas exply () 이상의 통찰력을 제공합니다.
Q2. skimpy가 spection ()을 대체 할 수 있습니까?A. 예, 기능이 향상된 기능을 제공하며 설명 ()을 효과적으로 교체 할 수 있습니다.
Q3. Squimpy는 대형 데이터 세트를 지원합니까?A. 예, 대형 데이터 세트를 효율적으로 처리하는 데 최적화됩니다.
Q4. Squimpy를 어떻게 설치합니까?A. PIP를 사용하여 설치 : PIP 설치 불안감.
Q5. specimpy가 secip ()보다 낫게 만드는 것은 무엇입니까?A. 모든 데이터 유형을 요약하고, 결 측값 통찰력을 포함하며,보다 사용자 친화적 인 형식의 출력을 제공합니다.
위 내용은 skimpy : 데이터 요약을 위해 팬더를 대안으로 설명합니다 ()의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!