데이터 시각화 기초-파이썬 튜토리얼-php.cn

데이터 시각화를 사용하는 이유

방대한 양의 데이터가 포함된 새로운 데이터 소스로 작업해야 하는 경우 데이터 시각화를 사용하여 데이터를 더 잘 이해하는 것이 중요할 수 있습니다.
데이터 분석 과정은 대부분 5단계로 이루어집니다:

추출 - 스프레드시트, SQL, 웹 등에서 데이터를 얻습니다.
Clean - 여기에서는 탐구적인 시각 자료를 사용할 수 있습니다. 
탐색 - 여기서는 탐색적 시각 자료를 사용합니다. 
분석 - 여기에서는 탐구적이거나 설명적인 시각적 자료를 사용할 수 있습니다. 
공유 - 설명 영상이 있는 곳입니다.

데이터 유형

특정 측정값에 적합한 플롯을 선택하려면 어떤 데이터를 다루고 있는지 아는 것이 중요합니다.

질적 유형(범주형 유형)

명목상 정성적 데이터

항목 자체와 관련된 순서나 순위가 없는 라벨입니다.
예: 성별, 결혼 여부, 메뉴 항목

서수 정성적 데이터

순서나 순위가 있는 라벨입니다.
예: 문자 등급, 평가

숫자 유형이라고도 불리는 정량적 유형

이산적 양적 값

숫자는 더 작은 단위로 나눌 수 없습니다
예: 책의 페이지 수, 공원에 있는 나무의 수

연속적인 정량적 가치

숫자를 더 작은 단위로 나눌 수 있습니다
예: 키, 나이, 소득, 근무시간

요약 통계

수치 데이터

평균: 평균값입니다.
중앙값: 데이터를 정렬했을 때 중간값입니다.
모드: 가장 자주 발생하는 값
분산/표준편차: 퍼짐 또는 분산 정도를 측정합니다.
범위: 최대값과 최소값의 차이

범주형 데이터

빈도: 각 카테고리의 발생 횟수
모드: 가장 자주 사용되는 카테고리

시각화

새로운 데이터 소스에 대한 통찰력을 매우 빠르게 얻을 수 있으며 다양한 데이터 유형 간의 연결도 더 쉽게 확인할 수 있습니다.
데이터를 요약하기 위해 표준 통계만 사용하면 최소값, 최대값, 평균값, 중앙값 및 최빈값을 얻을 수 있지만 이는 다른 측면에서 오해의 소지가 있을 수 있습니다. Anscombe's Quartet에 표시된 것처럼 평균과 편차는 항상 동일하지만 데이터 분포는 항상 다릅니다.

데이터 시각화에는 두 가지 유형이 있습니다.

탐색적 데이터 시각화 우리는 이를 사용하여 데이터에 대한 통찰력을 얻습니다. 시각적으로 매력적일 필요는 없습니다.
설명 데이터 시각화 이러한 시각화는 사용자에게 제공되므로 정확하고 통찰력이 있으며 시각적으로 매력적이어야 합니다.

차트 정크, 데이터 잉크 비율 및 디자인 무결성

차트 정크

플롯을 통해 제공되는 정보를 방해받지 않고 읽을 수 있으려면 차트 정크를 피하는 것이 중요합니다. 좋아요:

두꺼운 그리드선
비주얼 속 사진
색상
3D 구성 요소
장신구
불필요한 텍스트

데이터 잉크 비율

시각적 차트 정크가 낮을수록 데이터 잉크 비율이 높아집니다. 이는 데이터의 메시지를 전달하는 데 시각적 개체의 "잉크"가 더 많이 사용될수록 더 좋다는 의미입니다.

디자인 무결성

거짓말 요인은 다음과 같이 계산됩니다.

$$
text{거짓말 인자} = frac{text{그래픽에 표시된 효과 크기}}{text{데이터에 나타나는 효과 크기}}
$$

델타는 차이를 의미합니다. 따라서 이는 그래픽에 표시된 상대적 변화를 데이터의 실제 상대적 변화로 나눈 것입니다. 이상적으로는 1이어야 합니다. 그렇지 않은 경우 데이터 표시 방식과 실제 변경 사항에 약간의 불일치가 있음을 의미합니다.

Data Visualisation Basics
위키에서 가져온 위의 예에서 각 의사의 픽셀을 비교할 때 거짓말 요인은 3이며 캘리포니아의 의사 수를 나타냅니다.

Data Visualisation Basics

깔끔한 데이터

데이터가 제대로 정리되어 사용할 준비가 되었는지 확인하세요.

각 변수는 열입니다
각 관찰은 행입니다
각 유형의 관측 단위는 테이블입니다

데이터의 일변량 탐색

데이터세트의 단일 변수(또는 특성)를 분석하는 것을 말합니다.

막대 차트

항상 0부터 시작하여 실제 비교 가능한 방식으로 값을 표시합니다.
명목 데이터 정렬
서수 데이터를 정렬하지 마세요. 여기서는 가장 자주 나타나는 카테고리보다 가장 중요한 카테고리가 얼마나 자주 나타나는지 아는 것이 더 중요합니다
카테고리가 많은 경우 가로 막대 차트를 사용하세요. 카테고리를 y축에 배치하면 더 쉽게 읽을 수 있습니다.

Data Visualisation Basics

히스토그램

막대 차트의 정량적 버전입니다. 이는 숫자 값을 플롯하는 데 사용됩니다.
값은 연속 구간으로 그룹화되고 각각에 대해 하나의 막대가 표시됩니다.

KDE - 커널 밀도 추정

각 지점의 밀도를 추정하기 위해 가우스 또는 정규 분포를 사용하는 경우가 많습니다.
KDE 도표는 특히 균일하게 분포되지 않은 데이터의 경우 경향과 분포 형태를 더 명확하게 나타낼 수 있습니다.

원형 차트 및 도넛 도표

데이터는 상대 빈도에 있어야 합니다
원형 차트는 최대 3개의 조각에서 가장 잘 작동합니다. 표시할 웨지가 더 많으면 읽을 수 없게 되고 다른 양을 비교하기가 어렵습니다. 그렇다면 막대 차트를 선호할 것입니다.

데이터의 이변량 탐색

데이터세트에 있는 두 변수 간의 관계를 분석합니다.

클러스터된 막대 차트

두 범주 값 사이의 관계를 표시합니다. 막대는 첫 번째 변수의 수준을 기준으로 클러스터로 구성됩니다.

산점도

각 데이터 포인트는 개별적으로 하나의 포인트로 표시되며, x 위치는 하나의 특성 값에 해당하고 y 위치는 두 번째 특성 값에 해당합니다.
플롯이 과도하게 표시되는 경우(너무 많은 데이터 포인트가 겹치는 경우): 투명도와 지터를 사용할 수 있습니다(모든 포인트가 실제 값에서 약간 이동됨)

히트맵

히스토그램의 2D 버전
데이터 포인트는 하나의 특성 값에 해당하는 x 위치와 두 번째 특성 값에 해당하는 y 위치에 배치됩니다.
그리는 영역이 그리드로 나누어져 있고 거기에 포인트 개수가 합산되어 개수가 색상으로 표시됩니다.

바이올린 플롯

낮은 추상화 수준에서 정량적(수치적) 변수와 정성적(범주형) 변수 사이의 관계를 보여줍니다.
분포는 커널 밀도 추정치처럼 표시되므로 명확한 정보를 얻을 수 있습니다
주요 통계를 동시에 표시하려면 바이올린 플롯에 상자 플롯을 삽입할 수 있습니다.

상자 그림

또한 낮은 수준의 추상화에서 정량적(수치적) 변수와 정성적(범주형) 변수 사이의 관계를 표시합니다.
바이올린 플롯에 비해 상자 플롯은 데이터 요약에 더 중점을 두며 주로 각 범주 수준의 숫자 값에 대한 기술 통계 세트를 보고합니다.
최소값, 1분위수(Q1), 중앙값(Q2), 3분위수(Q3), 최대값 등 데이터의 5개 숫자 요약을 시각화합니다.

상자 그림의 핵심 요소:
상자: 플롯의 중앙 부분은 1사분위수(Q1, 25번째 백분위수)와 3분위수(Q3, 75번째 백분위수) 사이의 범위인 사분위수 범위(IQR)를 나타냅니다. 여기에는 데이터의 중간 50%가 포함되어 있습니다.

중앙선: 상자 안의 선은 데이터 세트의 중앙값(2분기, 50번째 백분위수)을 나타냅니다.

수염: "수염"이라고 알려진 상자에서 확장된 선은 Q1과 Q3의 IQR의 1.5배 내에 있는 데이터 범위를 나타냅니다. 일반적으로 이 범위 내에서 가장 작은 값과 가장 큰 값으로 확장됩니다.

이상값: IQR의 1.5배를 벗어나는 모든 데이터 포인트는 이상값으로 간주되며 수염 너머의 개별 점이나 표시로 표시되는 경우가 많습니다.
Data Visualisation Basics

결합된 바이올린과 상자 그림

바이올린 플롯은 다양한 범주에 걸쳐 밀도를 보여주고 상자 플롯은 요약 통계를 제공합니다
Data Visualisation Basics

패싯

데이터는 서로 다른 하위 집합으로 나누어지며, 대부분 범주형 변수의 다양한 수준에 따라 분류됩니다. 데이터의 각 하위 집합에 대해 동일한 플롯 유형이 다른 변수에 렌더링됩니다. 즉, 서로 다른 범주 값을 가진 더 많은 히스토그램이 나란히 표시됩니다.

선 도표

두 번째 변수에 대한 한 숫자 변수의 추세를 그리는 데 사용됩니다.

분위수-분위수(Q-Q) 도표

은 데이터 세트의 분포를 이론적 분포(정규 분포와 같은)와 비교하거나 두 데이터 세트가 동일한 분포를 따르는지 확인하기 위해 사용되는 플롯 유형입니다.

스웜 플롯

산점도와 마찬가지로 각 데이터 포인트는 표시되는 두 변수의 값에 따라 위치로 표시됩니다. 일반 산점도에서처럼 점이 무작위로 흔들리는 대신 점은 겹치는 것을 허용하지 않고 가능한 한 실제 값에 가깝게 배치됩니다.

스파이더 플롯

방사형 그리드에서 여러 범주에 걸쳐 여러 변수를 비교합니다. 레이더 차트라고도 합니다.

유용한 링크

내 샘플 노트

샘플 코드

샘플 플롯에 사용된 Libs:

Matplotlib: 시각화를 위한 다목적 라이브러리이지만 일반적인 시각화를 통합하려면 약간의 코드 노력이 필요할 수 있습니다.
Seaborn: matplotlib를 기반으로 구축되어 일반적인 통계 시각화를 더 쉽게 생성할 수 있도록 다양한 기능을 추가합니다.
pandas: 이 라이브러리에는 matplotlib에 연결되는 데이터를 시각화하기 위한 몇 가지 편리한 방법이 포함되어 있지만 주로 데이터 작업을 위한 일반 도구로 주요 목적으로 사용할 것입니다(https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf). ).

추가 자료:

Anscombes Quartett: 데이터 통계는 동일하지만 분포가 다릅니다: https://en.wikipedia.org/wiki/Anscombe%27s_quartet
차트청크: https://en.wikipedia.org/wiki/Chartjunk
데이터 잉크 비율: https://infovis-wiki.net/wiki/Data-Ink_Ratio
거짓말 요인: https://infovis-wiki.net/wiki/Lie_Factor
정확한 데이터: https://cran.r-project.org/web/packages/tidyr/vignettes/tidy-data.html
색맹을 위한 시각화: https://www.tableau.com/blog/examining-data-viz-rules-dont-use-red-green-together

위 내용은 데이터 시각화 기초의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!