Char :: 통계 - t-분포와 Normal 분포

통계 - t-분포와 Normal 분포

07.AI 2024. 5. 14. 00:14

728x90

중심극한정리(Central limit theorem)에 의해 sampling distribution은 sqrt(N)에 scaled되어서(=곱해져서) Normal분포로 접근한다는 것이 알려져 있습니다. 그런데, 모집단의 분산이 알려져 있지 않은 경우에는 평균에 대한 가설검정을 할 때 Normal분포를 사용하지 않고 t-분포를 사용하는 데 이는 귀무가설이 덜(less) 기각되도록 하는 안전한 접근, 즉 보수적인(conservative) 접근이며 t-분포를 사용한다는 것은 Normal분포를 사용해 가설검정을 하는 것과 큰 차이가 있는 것은 아닙니다.

이해를 위해 t-분포와 standard Normal분포의 관계에 대해 그래프를 그려보면 다음과 같은데 자유도(=N-1)가 각각 5, 10, 30인 t-분포와 standard Normal분포의 PDF입니다. t-분포에서 자유도가 5로 작더라도 standard Normal분포에 어느정도 접근한다는 것을 알 수 있습니다. 그런데, 자유도가 작을수록 양쪽 끝부분이 standard Normal분포에 비해 두텁다는 것을 알 수 있습니다. 양쪽 끝 부분이 두터우면 기각역이 분포의 바깥쪽으로 이동하게 됩니다. 즉, 귀무가설이 그만큼 덜(less) 기각되도록 하는 것입니다. t-분포는 자유도가 100이상이면 standard Normal분포와 거의 같습니다.

자유도가 100 이상이면 2-t-rule('/two-t-rule/')이라고 하여 검정통계량의 절대값이 약 2이상이면 유의수준 5%에서 귀무가설을 기각하면 됩니다. 자유도가 100인 경우의 정확한 임계치(critical value)는 약 +-1.98인데 Ms-Excel을 사용해서 자유도가 100인 t-분포의 임계치를 구하기 위해서는 =tinv function을 사용하면 되는데 다음과 같습니다. 참고로, Ms-Excel의 function에 대한 syntax 및 의미는 keyboard의 F1버튼을 눌러서 실행시킬 수 있는 도움말 기능을 참고하세요.

=tinv(5%, 100) = 약 1.983972

728x90

저작자표시 (새창열림)

'07.AI' 카테고리의 다른 글

모델 성능 평가 - 데이터 분류 - ROC 커브 (0)	2024.05.14
데이터 분류 모델 - 혼동행렬 (0)	2024.05.14
통계 - 기술 통계와 추론 통계 (0)	2024.05.13
LLM - 테스트 (0)	2024.05.13
LLM - 서비스 레벨 목표(SLO) (0)	2024.05.10

Posted by Mr. Slumber

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

Char

통계 - t-분포와 Normal 분포

'07.AI' 카테고리의 다른 글

카테고리

태그목록

최근에 올라온 글

최근에 달린 댓글

글 보관함

달력

링크

티스토리툴바