본문 바로가기
수학 및 통계/PSDS

[PSDS] 위치 추정

by 11car28z 2023. 9. 17.

데이터를 살펴보는 기초적인 단계 : 각 피처의 대푯값 찾기 = 값이 어디쯤 위치하는지 나타내는 추정값

 

평균

가중평균

median

백분위수

가중 중간값

절사평균

robust

outlier

 

평균은 데이터의 중간을 대표하는 가장 좋은 방법이 아님.

 

평균

평균

모든 값의 총합을 값의 개수로 나누기

 

절사 평균

값을 크기순으로 정렬한 후 양끝에서 일정한 개수의 값들을 삭제한 뒤 남은 값들을 가지고 구한 평균

극단값의 영향을 제거

 

가중 평균

각 데이터 값에 사용자가 지정한 가중치를 곱한 값들의 총합을 다시 가중치의 총합으로 나누기

 

사용 이유

-> 어떤 값이 다른 값들에 비해 큰 변화량을 가지면 해당 관측값에 대해 더 작은 가중치 부여

-> 데이터가 부족한 소수 그룹에 대해 높은 가중치 적용

 

중간값과 로버스트 추정

중간값

데이터를 일렬로 정렬해 홀수면 한가운데 위치하는 값, 짝수면 가운데 있는 두 값의 평균

데이터에 매우 민감한 평균보다 중간값이 위치 추정에 더 유리

 

가중 중간값

데이터를 정렬하고 각 데이터 값이 가중치를 가지고 있음.

상위 절반의 가중치 합이 하위 절반의 가중치 합과 동일

특잇값에 robust

 

특잇값

어떤 데이터 집합에서 다른 값들과 매우 멀리 떨어져 있는 값

정확한 정의가 다소 주관적일 수 있음.

데이터 값 자체가 유효하지않다/잘못되었다는 뜻이 아님

 

이상검출 타겟 => 예외적으로 측정된 특잇값

 

중간값은 robust한 측정방법

절사평균은 데이터가 많다면 robust한 측정방법