백분위수와 상자그림 | 도수분포표와 히스토그램 | 밀도그림과 추정¶
1단계 : 데이터 로드하기¶
In [ ]:
from google.colab import drive
drive.mount('/content/drive')
Mounted at /content/drive
2단계: 데이터 확인하기¶
In [ ]:
STATE_CSV = '/content/drive/MyDrive/통계공부/PSDS/data/state.csv'
In [ ]:
import pandas as pd
state = pd.read_csv(STATE_CSV)
print(state.head(8))
State Population Murder.Rate Abbreviation 0 Alabama 4779736 5.7 AL 1 Alaska 710231 5.6 AK 2 Arizona 6392017 4.7 AZ 3 Arkansas 2915918 5.6 AR 4 California 37253956 4.4 CA 5 Colorado 5029196 2.8 CO 6 Connecticut 3574097 2.4 CT 7 Delaware 897934 5.8 DE
3단계: 계산하기¶
In [ ]:
#백분위수
state['Murder.Rate'].quantile([0.05,0.25,0.5,0.75,0.95])
Out[ ]:
0.05 1.600 0.25 2.425 0.50 4.000 0.75 5.550 0.95 6.510 Name: Murder.Rate, dtype: float64
- 5% 백분위수는 1.6에 불과한 반면, 95% 백분위수는 6.51에 달하는 등 약간의 변동폭이 있지만 중간값은 10만명당 4건의 살인 존재
In [ ]:
#상자그림
ax = (state['Population']/1_000_000).plot.box()
ax.set_ylabel('Popluation (millions)')
Out[ ]:
Text(0, 0.5, 'Popluation (millions)')
- 주별 인구의 중간값이 500만, 주 절반이 약 200만에서 700만 사이이며 인구수가 높은 이상치가 있음을 바로 알 수 있음
In [ ]:
#도수분포표
binnedPopulation = pd.cut(state['Population'], 10)
binnedPopulation.value_counts()
Out[ ]:
(526935.67, 4232659.0] 24 (4232659.0, 7901692.0] 14 (7901692.0, 11570725.0] 6 (11570725.0, 15239758.0] 2 (15239758.0, 18908791.0] 1 (18908791.0, 22577824.0] 1 (22577824.0, 26246857.0] 1 (33584923.0, 37253956.0] 1 (26246857.0, 29915890.0] 0 (29915890.0, 33584923.0] 0 Name: Population, dtype: int64
- 가장 인구가 적은 곳은 와이오밍주, 563626명이고 인구가 많은 곳은 캘리포니아주 37253956명
- 범위가 563626명 - 37253956명 = 36690330명
- 10개의 동일한 구간으로 나누기 위해서 각 구간의 크기가 3669033이어야함.
- 빈구간이 발생하는데 중요한 정보임.
In [ ]:
#히스토그램
ax = (state['Population']/1_000_000).plot.hist(figsize=(4,4))
ax.set_xlabel('Popluation(millions)')
Out[ ]:
Text(0.5, 0, 'Popluation(millions)')
In [ ]:
#밀도그림
ax = state['Murder.Rate'].plot.hist(density=True, xlim=[0,12],bins=range(1,12))
state['Murder.Rate'].plot.density(ax=ax)
ax.set_xlabel('Murder Rate (per 100,000)')
Out[ ]:
Text(0.5, 0, 'Murder Rate (per 100,000)')
'수학 및 통계 > PSDS' 카테고리의 다른 글
| [PSDS] 이진 데이터와 범주 데이터 탐색하기 실습 (0) | 2023.09.24 |
|---|---|
| [PSDS] 이진 데이터와 범주 데이터 탐색하기 (0) | 2023.09.23 |
| [PSDS] 데이터 분포 탐색하기 (0) | 2023.09.21 |
| [PSDS] 예제:인구에 따른 살인 비율의 위치 추정 (0) | 2023.09.18 |
| [PSDS] 위치 추정 (0) | 2023.09.17 |