본문 바로가기

데이터와 함께 탱고를/통계 기초 공부

표본 분산은 왜 n-1로 나눌까?

유튜브에 HSM - edu 통계 채널의 '손으로 푸는 통계' 를 보면 잘 설명되어 있다.

주요 키워드들로 간단히 요약해보면,

  • 표본을 뽑아서 무언가를 하는 목적은, 대부분 모수를 추정하기 위함이다.
  • 표본에서 뽑은 통계값 (평균, 분산) 을 추정량 이라고 한다.
  • 그 중에, 불편 추정량 (unbiased estimator) 이라는 말이 있는데, 추정량의 기댓값이 모수가 되는 추정량이라는 말이다.
    • 즉, 표본 평균의 기댓 값 = 모수의 평균
    • 표본 분산의 기댓 값 = 모수의 분산이 되면, 이 표본 추정량은 불편 추정량이라고 할 수 있다.
  • 표본 평균의 기댓값은, 표본들을 가지고 평균을 내면 모수의 평균으로 딱 나오는 반면,
    표본들을 가지고 분산을 내면 모수의 분산으로 딱 나오지 않는다.
    • 즉, 표본 평균과 표본 분산은 불편 추정량이 아니다.
    • 근데, 우리는 표본 분산도 불편 추정량, 즉 unbiased 하게 만들고 싶다.
  • 표본 분산의 정의에서, n이 아니라 n-1로 나누어주면, 모수의 분산이 딱하고 도출된다.
    • 즉 n-1로 나눠주는 이유는, 표본 분산을 불편 추정량으로 만들어 주기 위해서다.
  • 이는 표본 분산의 자유도가 n-1 인 것과도 일맥 상통한다.