본문 바로가기
수학 및 통계/PSDS

[PSDS] 데이터 분포 탐색하기

by 11car28z 2023. 9. 21.

데이터가 전반적으로 어떻게 분포하고 있는지 확인하기

 

백분위수와 상자그램

전체 분포 확인 => 백분위수(사분위수 + 십분위수): 분포의 꼬리 부분(외측 범위) 묘사에 좋음.

 

백분위수를 이용해 데이터의 분산을 쉽게 시각화 => 상자그림

수염(점선부분): 사분위범위의 1.5배 이상 더 멀리 나가지 않도록 함.

아웃라이어: 하나의 점 또는 원으로 표시

 

도수분포표와 히스토그램

구간을 나눠 데이터 살펴보기 -> 사분위수/십분위수 : 구간에 같은 수 데이터 포함[크기가 다르게 구간 나누기]

-> 도수분포표 : 구간 안에 다른 개수 데이터 포함[같은 크기의 구간]

 

구간의 크기 -> 너무 크다 : 분포를 나타내는 중요한 특징을 놓침

-> 너무 작음 : 결과가 너무 쪼개져있어 더 큰 그림을 볼 수 없음

 

히스토그램 : 도수분포표 시각화하기(DataFrame.plot.hist)

x축 – 구간 표시

y축 – 구간별 데이터의 개수 표시

 

히스토그램에 표현할 수 있는 정보

(1) 빈구간 표현

(2) 구간은 동일한 크기

(3) 구간의 수는 사용자가 결정가능

(4) 빈 구간이 아니면 막대 사이 공간은 없음.

 

밀도 그림과 추정

밀도그림: 데이터의 분포를 연속된 선으로 표현

 

히스토그램과 차이 -> y축 값의 단위가 아닌 비율 표시

밀도 곡선 아래의 면적은 1

구간의 개수 대신 x축의 두 점 사이의 곡선 아래 면적 계산