이전에는 단일 집단 혹은 두 집단의 평균 비교분석을 공부했었다.
이제 그 다음 단계로 세 집단 이상의 평균 비교분석에 대해 공부해본다.
대부분의 글들과 내용은 Sapientia a Dei님 유튜브 에 있고, 이 글은 이 강의를 보고 개인적으로 정리해놓은 내용이다.
세 집단 이상의 평균차이에 대한 가설 검정
예를 들면, 이런 식이다.
어떤 금융회사에서 고객의 총 지출금액이 지불방법에 따라 차이가 나는지 알고싶어 한다.
지불 방법은 다음과 같은 방법이 있다.
- 실시간 계좌 이체
- 신용카드
- 무통장 입금
지불 방법에 따라 세 집단이 등장하고, 각 방법에 따른 총 지출금액의 평균이 등장한다.
ANOVA (ANalysis Of Variance), 분산 분석
Z-test, T-test 가 안되는 이유
두 개 이하의 집단을 비교, 분석할 때는 Z-test 나 T-test 를 이용하였다. 짧게 요약하자면, 표본 평균과 분포를 Z 분포, 혹은 T 분포로 정규화한뒤, Z-value, T-value 로 만들어, 기각역 혹은 p-value 와 비교하여 검정하였다.
세 개 이상의 집단을 비교 분석할 때는 Z-test 나 T-test 를 이용하지 않는다. 아니, 할 수 없다.
만약 사용한다면, 여러 개의 집단을 두개씩 묶어 T-test 를 진행하는 식으로 할 수 있을 것이다. 하지만, 이렇게 여러번 진행할 경우, 1종 오류 식에 의해, 1종 오류를 범할 확률이 매우 높아진다고 한다.
따라서, ANOVA, 즉 분산 분석이라는 새로운 기법을 사용해서 검정해나간다.
왜 분산을 분석하는가?, F-value
평균을 구하는데 왜 분산 분석이라는 이름이 붙었을까? 한 마디로 표현하자면, 우리는 F-value 라는 것을 구할건데, 이 값은 분산 값들로 이루어져있기 때문이다.
우리가 이전에 Z-value, T-value 를 구했듯, ANOVA 라는 기법에서는 F-value 라는걸 사용한다. F-value 를 구한 뒤에는 이전 테스트와 과정이 동일하다. F 분포표에서 해당 임계치를 찾고, 기각역 혹은 p-value 와 F-value 를 비교하여 검정한다.
2가지의 분산 값
F-value에 대한 설명에 앞서, 먼저 2가지의 분산을 살펴본다. 먼저 다음 그림을 보자.
하나씩 살펴보면,
- 4개의 집단(독립변수)과 각 집단에서의 어떤 값(종속변수)들이 있다.
- 우리는 각 집단의 평균과 M1… M4 를 구할 수 있고, 또 집단 전체의 평균 GM 도 구할 수 있다.
(각 집단의 평균 - 전체 평균) 제곱의 합 / 자유도 = 분산
으로 볼 수 있다.- 이 때
자유도 = 집단의 수 - 1
이다. - 이 분산을 첫 번째 분산, df1, Between Variance 라고 한다.
- 이 분산이 크다는 것의 의미는, 적어도 어떤 그룹 한 개는 다른 그룹과 평균 차이가 크다는 것을 의미한다.
그렇다면, 얼마나 커야 통계적으로 큰걸까? 좀 더 통계스러운 질문은, 이 차이가 우연히 클 가능성은 얼마나 될까?
이는 곧, 이 분산과 비교할 다른 대상이 필요성을 느끼게 해준다. 다른 대상도 곧 분산이 된다.
하나씩 살펴보면,
- 4개의 집단에서 우리는 각 집단 내 분산을 구할 수 있다.
(각 집단의 데이터 - 각 집단의 평균) 제곱의 합 / 자유도 = 분산
으로 볼 수 있다.- 이 때
자유도 = 전체 데이터 수 - 집단의 수
이다. - 이 분산을 두 번째 분산, df2, Within Variance 라고 한다.
F-value
우리는 이전에 3개 집단 비교분석에 F-value 라는 애를 사용한다고 했다.
F-value 는 위 두 분산을 이용하여 정의 한다.
가설 검정
이제 본격 가설검정을 해보자.
먼저 귀무가설과 대립가설을 세워야 한다.
위 사진에서 주목해봐야할 부분은, 우리가 세울 수 있는 대립가설은 "적어도 한 그룹의 평균은 다르다" 이다.
이게 다다. 어떤 집단, 그룹이 얼마나 다른지는 알 수 없다. 그건 사후검정 이라는 것을 통해 가능하고, 아무튼 ANOVA, 정확히 말하자면 1-way ANOVA 를 통해서 알 수 있는 정보는 위 대립가설이 맞느냐 틀리냐 정도이다.
유튜브 영상에서는 다음과 같은 예로 설명해주고 있는데, 다음의 예시 데이터를 보며 진행해보자.
먼저, Between Varince 를 계산해준다.
다음, Within Variance 를 계산해준다.
이제 각 자유도로 나누어주어 F-value 를 구해준다.
이제 F-table 에서 각 자유도에와 유의수준 5% 에 해당하는 임계 값(critical value)를 찾는다.
임계 값이 4.74이고, 우리가 구한 F-value 는 10.216 이므로, F-value 가 기각역 안에 들어간다.
즉, 대립가설이 유의하다는 뜻이다.
사후 검정
ANOVA 를 통해 "적어도 어떤 그룹 한 개는 다른 그룹과 평균 차이가 크다는 사실" 을 알았다.
그럼 도대체 어떤 그룹이 다른 그룹과 얼마나 차이가 있다는 것일까? 이에 대한 대답을 얻어내는 것이 사후 검정이다.
사후 검정의 종류로는 아래와 같은 것들이 있다고 한다.
- Fisher's LSD
- Bonferroni
- Shelf
- Turkey
- Duncan
그리고, 대부분 프로그램이 계산해서 내어준다고 한다. (아마 사후 검정이 대한 내용은 강의에서 깊이 다루지는 않는 듯 하다.)
여하튼 사후검정으로 나온 각 값들이 유의 수준보다 작으면, 차이가 있다는 것이고 이를 위와 같은 테이블로 표현할 수 있다.
그리고 오른쪽 그림과 같이 박스 플롯을 통해, 어떤 그룹이 차이가 나는지 시각화할 수 있다. (이런게 일반적이라고 한다.)
출처
모든 사진과 내용에 대한 출처는 Sapientia a Dei님 유튜브, 일원 배치 분산분석 에 있다.
'데이터와 함께 탱고를 > 통계 기초 공부' 카테고리의 다른 글
네이버 커넥티드 연수원 간다~! (0) | 2019.06.07 |
---|---|
두 집단의 평균차이에 대한 가설 검정 (1) | 2019.04.22 |
가설검정 단계 (지금까지) (0) | 2019.04.18 |
표본 분산은 왜 n-1로 나눌까? (0) | 2019.04.18 |
L1, L2 Regularization (Lasso, Ridge) (0) | 2019.04.09 |