중심 극한 정리
>>
주의점
예전부터 중심극한정리를 표본의 수가 충분히 크면 정규분포를 따른다는 것으로 알고 있었다.
다시 보니 핵심내용은 '표본 평균'이 정규분포를 따른다는 것이다. 표본이 정규분포를 따른다는 것이 아니다.
.
모집단의 분포가 어떤 형태이든지, 표본은 최빈값이나 분포에 따라 다른 빈도로 추출될 수 있으나
표본의 평균 X bar는 정규분포를 따른다. 충분한 수를 추출했다는 전제 하에 모집단이 어떤 형태이든지 Xbar는 정규분포에 근접함.
예를 들어 극단적인 long-tail을 가지고 있는 모집단의 분포에서 표본 4개씩 여러 번 추출한다고 할 때,
표본 자체는 (1,2,3,100) (2,3,200,300) (4,3,2,1) 등으로 표본 자체는 분포에 따라 추출된다 해도 여러 번 추출한 표본값의 평균은 정규 분포를 따르는 것이다.
통계학에서 가장 중요한 것 중 하나가 표본의 특성에서 모집단의 특성, 모수를 추정하는 것이다.
그리고 많은 가설 검정에서 정규성이 전제되어야만 적용할 수 있다.
실제 현장에서 표본을 샘플링하여 모수를 분석할 때 이러한 중심극한의 정리는 매우 유용하게 활용할 수 있는 중요한 정리인 것이다.
푲
조금 다른얘기지만, 중심극한이 표본평균의 분포에 관한 이야기라면
표준오차는 표본평균의 산포도이다. 표본 평균들이 얼마나 흩어져있는가?
사실 나도 표준오차와 표준편차가 매번 용어가 헷갈리는데 세트로 외우면 안헷갈린다.
표본평균의 분포를 나타내는 두가지 요소.
1. 표본평균의 평균(표본수가 충분히 크면 모평균으로 수렴)
2. 표본평균의 산포도 =표준오차
그리고 중심극한 정리에 따라 위 분포는 정규분포 모양을 따른다.
모집단의 표준편차 σ를 √n으로 나눈 값
모집단 모를 땐 표준편차 s를 √n으로 나눈 값
(TIP. 데이터 세트값에서 표본평균들 추출하고..거기서 또 표준편차 구하는 손계산과정에서 √n으로 나눠주는 과정 두번 들어간다. 표준편차 구할 때 한번 표준오차 구할 때 한번)
(TIP. N-1아니다. N으로 나누는거다.)
'Data science > 통계 지식' 카테고리의 다른 글
릿지, 라쏘, 일반화 회귀 등 다양한 회귀 분석 모델의 선택 (0) | 2022.09.24 |
---|---|
회귀분석, 분산분석의 분산분석표와 자유도 (0) | 2022.04.07 |
가설검정 - 두 변수 간의 가설 검정 (0) | 2022.03.31 |
가설검정 - 1종 오류, 2종 오류 (0) | 2022.03.31 |
모수적 검정과 비모수적 검정의 차이 (0) | 2022.03.18 |
댓글