본문 바로가기

Data science/통계 지식7

AI/머신러닝/확통 요약본 (Stanford Cheatsheet) 출처 : https://stanford.edu/~shervine/ Shervine Amidi stanford.edu 전반적으로 개념 파악하기 아주 좋다. 공부용 스크랩 2023. 6. 28.
릿지, 라쏘, 일반화 회귀 등 다양한 회귀 분석 모델의 선택 내가 참고하려고 메모하는 글 1. 일반 선형 회귀: 실제 값 - 예측 값 간의 RSS(Residual Sum of Squares)를 최소화할 수 있도록 회귀 계수를 최적화. 규제 적용 X 2.릿지(Ridge): 일반 선형회귀에 L2 규제를 추가 L2규제란? 상대적으로 큰 회귀 계수의 예측 영향도를 감소시키기 위해 회귀 게수값을 더 작게 만드는 규제 모델 Ridge regression was among the first of the penalized regression methods proposed (Hoerl 1962; Hoerl and Kennard 1970). Ridge regression does not shrink coefficients to zero, so it does not perform v.. 2022. 9. 24.
회귀분석, 분산분석의 분산분석표와 자유도 특히 자유도 헷갈려서 메모하는 글 자유도는 불편추정의 법칙을 위해 씀 표본표준편차의 경우 얼마나 산포할 수 있는지? 고정된 하나값을 기준으로 나머지의 산포를 설명하기에 n-1개 어떨 때 어떤 분석/검정을 사용할 것인가? 단순 회귀분석 다중 회귀분석 n= 표본수, k = 집단 수나 설명항의 수, 잔차 = n-k-1 예시: 2차항까지 들어간 애 분산분석 LOT 5개가 요인, LOT당 5병으로 25병인 데이터 ANOVA하면 2022. 4. 7.
가설검정 - 두 변수 간의 가설 검정 두 변수 간의 가설검정할 때 어떤 검정법을 취해야 하는가? 범주형,수치형, 각각의 독립변수 종속변수 케이스에 따른 검정법의 선택 범주형X와 수치형Y의 검정에서 정규성,등분산성,집단수에 따라 선택하는 적절한 검정법 JMP에서 기능찾기 2022. 3. 31.
가설검정 - 1종 오류, 2종 오류 기존 가설검정의 내용과 공식을 알고 있었으나 직관적인 이해가 부족한 듯 하여 나름의 정리를 해보았다. 새삼 악필인 것을 느낀다. 2022. 3. 31.
중심극한정리와 표준오차 표본평균에 대한 분포. 중심 극한 정리 평균이 m이고 분산이 s^2인 임의의 모집단으로부터의 크기n인 확률 표본에서의 표본 평균 는 n이 충분히 크면 근사적으로 정규분포를 따른다. 즉 n이 충분히 클 때 중심극한정리가 성립한다. 중심극한정리에 의하면, 확률변수 X가 정규분포를 따르지 않더라도 표본 평균의 분포는 n이 커질 때(30 이상) 정규분포 N(m, s2/n)에 수렴한다. >> 주의점 예전부터 중심극한정리를 표본의 수가 충분히 크면 정규분포를 따른다는 것으로 알고 있었다. 다시 보니 핵심내용은 '표본 평균'이 정규분포를 따른다는 것이다. 표본이 정규분포를 따른다는 것이 아니다. . 1)모집단이 정규분포이면 X-bar는 표본크기에 상관없이 언제나 정규분포를 한다. 2)모집단이 적어도 대칭형이고, 표본.. 2022. 3. 31.