두 집단의 평균차이에 대한 가설 검정
가설 검정을 배우는 이유는, 실제로 써먹기 위함이고, 써먹으려면 실제 현실의 여러 상황에 맞게 배워야 한다. 고로, 현실의 여러 상황들을 정의하고 분류한 뒤, 각 상황에 맞는 테스트를 배우는 것이 가설검정의 목표라고 할 수 있겠다. 대부분의 글들과 내용은 Sapientia a Dei님 유튜브 를 참고한다. (매우 잘 설명되어있어서, 금방 볼 수 있다.) 한 집단의 가설검정 이전까지의 가설검정은 하나의 집단, 즉 단일 집단에 대한 가설 검정 내용이었다. 예를 들어, 다음과 같은 상황과 질문이었다. 배터리 A의 수명은 1년이라고 알려져있는데, 최근 소비자들로부터 1년이 아닌 것 같다는 말이 나오고 있다. 이에, 배터리 A 25개를 표본으로 뽑아 조사하였더니, 평균 수명이 11개월이 나왔다고 한다. 어느 의견..
가설검정 단계 (지금까지)
유튜브 HSM - edu 통계 채널의 '손으로 푸는 통계', 27. Z검정의 한계(정규성,t,비모수검정의 출현+디시전트리) 에 나오는 강의 영상 중 하나로 한 눈에 봐보자. 요약하면, 일단 모수의 분산을 아느냐 모르느냐로, Z검정, T검정으로 나눈다. 모수의 분산을 알고, 표본 분포가 정규성을 만족하는 경우, Z검정을 한다. 모수의 분산을 모르고, 표본 분포가 정규성을 만족하는 경우, T검정을 한다. 일반적으로 정규성을 만족하지 않는 경우, 비모수 검정을 한다. 정규성을 만족한다는 말은, 말 그대로 정규분포를 따른다고 알려져있거나, 알려져 있지 않더라도, 데이터 개수 n이 30이상인 경우, 중심극한정리에 의해 정규본포를 따른다. 데이터 개수 n이 30 미만인 경우, 별도의 정규성 테스트를 ..
표본 분산은 왜 n-1로 나눌까?
유튜브에 HSM - edu 통계 채널의 '손으로 푸는 통계' 를 보면 잘 설명되어 있다. 주요 키워드들로 간단히 요약해보면, 표본을 뽑아서 무언가를 하는 목적은, 대부분 모수를 추정하기 위함이다. 표본에서 뽑은 통계값 (평균, 분산) 을 추정량 이라고 한다. 그 중에, 불편 추정량 (unbiased estimator) 이라는 말이 있는데, 추정량의 기댓값이 모수가 되는 추정량이라는 말이다. 즉, 표본 평균의 기댓 값 = 모수의 평균 표본 분산의 기댓 값 = 모수의 분산이 되면, 이 표본 추정량은 불편 추정량이라고 할 수 있다. 표본 평균의 기댓값은, 표본들을 가지고 평균을 내면 모수의 평균으로 딱 나오는 반면, 표본들을 가지고 분산을 내면 모수의 분산으로 딱 나오지 않는다. 즉, 표본 평균과 표본 분산은..
헷갈리는 .reshape 과 broadcasting
이번엔 numpy 공부 중, 가장 헷갈렸던 .reshape() 과 이와 연관된 브로드캐스팅을 잠깐 복습 겸 기록해두려고 한다. 1. Reshape 사용법 너무나 당연한 이야기지만, .reshape 은 numpy array의 모양을 바꿔주는 역할을 한다. 잠깐 살펴보면 import numpy as np a = np.array([[1,1,1,1], [2,2,2,2]]) print(a) b = a.reshape((2,2,2)) print(b) # output: # [[1 1 1 1], # [2 2 2 2]] # [[[1 1], # [1 1]] # [[2 2], # [2 2]]] .reshape(2, 2, 2) 일 경우, 가장 안쪽부터 2개의 원소로 하나의 리스트 (ex. [2, 2]) 를 만들고 이런 리스트를..