유튜브에 HSM - edu 통계 채널의 '손으로 푸는 통계' 를 보면 잘 설명되어 있다.
주요 키워드들로 간단히 요약해보면,
- 표본을 뽑아서 무언가를 하는 목적은, 대부분 모수를 추정하기 위함이다.
- 표본에서 뽑은 통계값 (평균, 분산) 을 추정량 이라고 한다.
- 그 중에, 불편 추정량 (unbiased estimator) 이라는 말이 있는데, 추정량의 기댓값이 모수가 되는 추정량이라는 말이다.
- 즉, 표본 평균의 기댓 값 = 모수의 평균
- 표본 분산의 기댓 값 = 모수의 분산이 되면, 이 표본 추정량은 불편 추정량이라고 할 수 있다.
- 표본 평균의 기댓값은, 표본들을 가지고 평균을 내면 모수의 평균으로 딱 나오는 반면,
표본들을 가지고 분산을 내면 모수의 분산으로 딱 나오지 않는다.- 즉, 표본 평균과 표본 분산은 불편 추정량이 아니다.
- 근데, 우리는 표본 분산도 불편 추정량, 즉 unbiased 하게 만들고 싶다.
- 표본 분산의 정의에서, n이 아니라 n-1로 나누어주면, 모수의 분산이 딱하고 도출된다.
- 즉 n-1로 나눠주는 이유는, 표본 분산을 불편 추정량으로 만들어 주기 위해서다.
- 이는 표본 분산의 자유도가 n-1 인 것과도 일맥 상통한다.
'데이터와 함께 탱고를 > 통계 기초 공부' 카테고리의 다른 글
두 집단의 평균차이에 대한 가설 검정 (1) | 2019.04.22 |
---|---|
가설검정 단계 (지금까지) (0) | 2019.04.18 |
L1, L2 Regularization (Lasso, Ridge) (0) | 2019.04.09 |
Normal equation 과 Gradient Descent (0) | 2019.04.09 |
헷갈리는 .reshape 과 broadcasting (3) | 2019.04.04 |