데이터가 전반적으로 어떻게 분포하고 있는지 확인하기
백분위수와 상자그램
전체 분포 확인 => 백분위수(사분위수 + 십분위수): 분포의 꼬리 부분(외측 범위) 묘사에 좋음.
백분위수를 이용해 데이터의 분산을 쉽게 시각화 => 상자그림

수염(점선부분): 사분위범위의 1.5배 이상 더 멀리 나가지 않도록 함.
아웃라이어: 하나의 점 또는 원으로 표시
도수분포표와 히스토그램
구간을 나눠 데이터 살펴보기 -> 사분위수/십분위수 : 구간에 같은 수 데이터 포함[크기가 다르게 구간 나누기]
-> 도수분포표 : 구간 안에 다른 개수 데이터 포함[같은 크기의 구간]
구간의 크기 -> 너무 크다 : 분포를 나타내는 중요한 특징을 놓침
-> 너무 작음 : 결과가 너무 쪼개져있어 더 큰 그림을 볼 수 없음
히스토그램 : 도수분포표 시각화하기(DataFrame.plot.hist)
x축 – 구간 표시
y축 – 구간별 데이터의 개수 표시
히스토그램에 표현할 수 있는 정보
(1) 빈구간 표현
(2) 구간은 동일한 크기
(3) 구간의 수는 사용자가 결정가능
(4) 빈 구간이 아니면 막대 사이 공간은 없음.
밀도 그림과 추정
밀도그림: 데이터의 분포를 연속된 선으로 표현
히스토그램과 차이 -> y축 값의 단위가 아닌 비율 표시
밀도 곡선 아래의 면적은 1
구간의 개수 대신 x축의 두 점 사이의 곡선 아래 면적 계산
'수학 및 통계 > PSDS' 카테고리의 다른 글
| [PSDS] 이진 데이터와 범주 데이터 탐색하기 (0) | 2023.09.23 |
|---|---|
| [PSDS] 데이터 분포 탐색하기 실습 (0) | 2023.09.22 |
| [PSDS] 예제:인구에 따른 살인 비율의 위치 추정 (0) | 2023.09.18 |
| [PSDS] 위치 추정 (0) | 2023.09.17 |
| [PSDS] 테이블 데이터 (0) | 2023.09.16 |