본문 바로가기
Data science/통계 지식

중심극한정리와 표준오차

by 보늴 2022. 3. 31.
표본평균에 대한 분포.
 

중심 극한 정리

평균이 m이고 분산이 s^2인 임의의 모집단으로부터의 크기n인 확률 표본에서의 표본 평균 n이 충분히 크면 근사적으로 정규분포를 따른다. n이 충분히 클 때 중심극한정리가 성립한다.
중심극한정리에 의하면, 확률변수 X가 정규분포를 따르지 않더라도 표본 평균의 분포는 n이 커질 때(30 이상) 정규분포 N(m, s2/n)에 수렴한다.

 

>>

 

주의점

예전부터 중심극한정리를 표본의 수가 충분히 크면 정규분포를 따른다는 것으로 알고 있었다.

다시 보니 핵심내용은 '표본 평균'이 정규분포를 따른다는 것이다. 표본이 정규분포를 따른다는 것이 아니다.

이미지출처 - https://ballpen.blog/%ED%91%9C%EC%A4%80-%EC%98%A4%EC%B0%A8-%EA%B0%9C%EB%85%90-%EA%B3%84%EC%82%B0-%EB%B0%A9%EB%B2%95/

.

1)모집단이 정규분포이면 X-bar는 표본크기에 상관없이 언제나 정규분포를 한다. 
2)모집단이 적어도 대칭형이고, 표본 크기가 5~20이면  X-bar는 정규분포에 가까워진다.
3)최악의 경우: 모집단이 정규분포에서 얼마나 벗어났느냐에 상관없이 X-bar 를 정규분포에 가깝게 하기 위해서는 표본 크기가 30이면 충분하다. 

 

 

 

모집단의 분포가 어떤 형태이든지, 표본은 최빈값이나 분포에 따라 다른 빈도로 추출될 수 있으나

표본의 평균 X bar는 정규분포를 따른다. 충분한 수를 추출했다는 전제 하에 모집단이 어떤 형태이든지 Xbar는 정규분포에 근접함.

 

예를 들어 극단적인 long-tail을 가지고 있는 모집단의 분포에서 표본 4개씩 여러 번 추출한다고 할 때,

표본 자체는 (1,2,3,100) (2,3,200,300) (4,3,2,1) 등으로 표본 자체는 분포에 따라 추출된다 해도 여러 번 추출한 표본값의 평균은 정규 분포를 따르는 것이다.

 

통계학에서 가장 중요한 것 중 하나가 표본의 특성에서 모집단의 특성, 모수를 추정하는 것이다.

그리고 많은 가설 검정에서 정규성이 전제되어야만 적용할 수 있다.

실제 현장에서 표본을 샘플링하여 모수를 분석할 때 이러한 중심극한의 정리는 매우 유용하게 활용할 수 있는 중요한 정리인 것이다.

 푲

조금 다른얘기지만, 중심극한이 표본평균의 분포에 관한 이야기라면

표준오차표본평균의 산포도이다. 표본 평균들이 얼마나 흩어져있는가?

사실 나도 표준오차와 표준편차가 매번 용어가 헷갈리는데 세트로 외우면 안헷갈린다.

 

표본평균의 분포를 나타내는 두가지 요소. 

1. 표본평균의 평균(표본수가 충분히 크면 모평균으로 수렴)

2. 표본평균의 산포도 =표준오차

그리고 중심극한 정리에 따라 위 분포는 정규분포 모양을 따른다.

표준오차는 표본평균의 표준편차다.

모집단의 표준편차 σ를 √n으로 나눈 값

모집단 모를 땐 표준편차 s를 √n으로 나눈 값

(TIP. 데이터 세트값에서 표본평균들 추출하고..거기서 또 표준편차 구하는 손계산과정에서 √n으로 나눠주는 과정 두번 들어간다. 표준편차 구할 때 한번 표준오차 구할 때 한번)

(TIP. N-1아니다. N으로 나누는거다.)

댓글