본문 바로가기

데이터와 함께 탱고를/통계 기초 공부

세 집단 이상의 평균차이에 대한 가설 검정

이전에는 단일 집단 혹은 두 집단의 평균 비교분석을 공부했었다.
이제 그 다음 단계로 세 집단 이상의 평균 비교분석에 대해 공부해본다.

대부분의 글들과 내용은 Sapientia a Dei님 유튜브 에 있고, 이 글은 이 강의를 보고 개인적으로 정리해놓은 내용이다.

 

세 집단 이상의 평균차이에 대한 가설 검정

예를 들면, 이런 식이다.

어떤 금융회사에서 고객의 총 지출금액이 지불방법에 따라 차이가 나는지 알고싶어 한다.
지불 방법은 다음과 같은 방법이 있다.

  1. 실시간 계좌 이체
  2. 신용카드
  3. 무통장 입금

지불 방법에 따라 세 집단이 등장하고, 각 방법에 따른 총 지출금액의 평균이 등장한다.

 

ANOVA (ANalysis Of Variance), 분산 분석

Z-test, T-test 가 안되는 이유

두 개 이하의 집단을 비교, 분석할 때는 Z-test 나 T-test 를 이용하였다. 짧게 요약하자면, 표본 평균과 분포를 Z 분포, 혹은 T 분포로 정규화한뒤, Z-value, T-value 로 만들어, 기각역 혹은 p-value 와 비교하여 검정하였다.

세 개 이상의 집단을 비교 분석할 때는 Z-test 나 T-test 를 이용하지 않는다. 아니, 할 수 없다.
만약 사용한다면, 여러 개의 집단을 두개씩 묶어 T-test 를 진행하는 식으로 할 수 있을 것이다. 하지만, 이렇게 여러번 진행할 경우, 1종 오류 식에 의해, 1종 오류를 범할 확률이 매우 높아진다고 한다.

따라서, ANOVA, 즉 분산 분석이라는 새로운 기법을 사용해서 검정해나간다.

 

왜 분산을 분석하는가?, F-value

평균을 구하는데 왜 분산 분석이라는 이름이 붙었을까? 한 마디로 표현하자면, 우리는 F-value 라는 것을 구할건데, 이 값은 분산 값들로 이루어져있기 때문이다.

우리가 이전에 Z-value, T-value 를 구했듯, ANOVA 라는 기법에서는 F-value 라는걸 사용한다. F-value 를 구한 뒤에는 이전 테스트와 과정이 동일하다. F 분포표에서 해당 임계치를 찾고, 기각역 혹은 p-value 와 F-value 를 비교하여 검정한다.

 
2가지의 분산 값

F-value에 대한 설명에 앞서, 먼저 2가지의 분산을 살펴본다. 먼저 다음 그림을 보자.

하나씩 살펴보면,

  • 4개의 집단(독립변수)과 각 집단에서의 어떤 값(종속변수)들이 있다.
  • 우리는 각 집단의 평균과 M1… M4 를 구할 수 있고, 또 집단 전체의 평균 GM 도 구할 수 있다.
  • (각 집단의 평균 - 전체 평균) 제곱의 합 / 자유도 = 분산으로 볼 수 있다.
  • 이 때 자유도 = 집단의 수 - 1 이다.
  • 이 분산을 첫 번째 분산, df1, Between Variance 라고 한다.
  • 이 분산이 크다는 것의 의미는, 적어도 어떤 그룹 한 개는 다른 그룹과 평균 차이가 크다는 것을 의미한다.

그렇다면, 얼마나 커야 통계적으로 큰걸까? 좀 더 통계스러운 질문은, 이 차이가 우연히 클 가능성은 얼마나 될까?
이는 곧, 이 분산과 비교할 다른 대상이 필요성을 느끼게 해준다. 다른 대상도 곧 분산이 된다.

하나씩 살펴보면,

  • 4개의 집단에서 우리는 각 집단 내 분산을 구할 수 있다.
  • (각 집단의 데이터 - 각 집단의 평균) 제곱의 합 / 자유도 = 분산 으로 볼 수 있다.
  • 이 때 자유도 = 전체 데이터 수 - 집단의 수 이다.
  • 이 분산을 두 번째 분산, df2, Within Variance 라고 한다.
 
F-value

우리는 이전에 3개 집단 비교분석에 F-value 라는 애를 사용한다고 했다.
F-value 는 위 두 분산을 이용하여 정의 한다.

 

가설 검정

이제 본격 가설검정을 해보자.

먼저 귀무가설과 대립가설을 세워야 한다.

위 사진에서 주목해봐야할 부분은, 우리가 세울 수 있는 대립가설은 "적어도 한 그룹의 평균은 다르다" 이다.
이게 다다. 어떤 집단, 그룹이 얼마나 다른지는 알 수 없다. 그건 사후검정 이라는 것을 통해 가능하고, 아무튼 ANOVA, 정확히 말하자면 1-way ANOVA 를 통해서 알 수 있는 정보는 위 대립가설이 맞느냐 틀리냐 정도이다.

유튜브 영상에서는 다음과 같은 예로 설명해주고 있는데, 다음의 예시 데이터를 보며 진행해보자.

먼저, Between Varince 를 계산해준다.

다음, Within Variance 를 계산해준다.

이제 각 자유도로 나누어주어 F-value 를 구해준다.

이제 F-table 에서 각 자유도에와 유의수준 5% 에 해당하는 임계 값(critical value)를 찾는다.

임계 값이 4.74이고, 우리가 구한 F-value 는 10.216 이므로, F-value 가 기각역 안에 들어간다.
즉, 대립가설이 유의하다는 뜻이다.

 

사후 검정

ANOVA 를 통해 "적어도 어떤 그룹 한 개는 다른 그룹과 평균 차이가 크다는 사실" 을 알았다.
그럼 도대체 어떤 그룹이 다른 그룹과 얼마나 차이가 있다는 것일까? 이에 대한 대답을 얻어내는 것이 사후 검정이다.

사후 검정의 종류로는 아래와 같은 것들이 있다고 한다.

  • Fisher's LSD
  • Bonferroni
  • Shelf
  • Turkey
  • Duncan

그리고, 대부분 프로그램이 계산해서 내어준다고 한다. (아마 사후 검정이 대한 내용은 강의에서 깊이 다루지는 않는 듯 하다.)

여하튼 사후검정으로 나온 각 값들이 유의 수준보다 작으면, 차이가 있다는 것이고 이를 위와 같은 테이블로 표현할 수 있다.

그리고 오른쪽 그림과 같이 박스 플롯을 통해, 어떤 그룹이 차이가 나는지 시각화할 수 있다. (이런게 일반적이라고 한다.)

 

출처

모든 사진과 내용에 대한 출처는 Sapientia a Dei님 유튜브, 일원 배치 분산분석 에 있다.