회귀모형에서 또 하나의 가정은 오차가 정규분포를 따른다는 것이다. 오차의 정규분포 가정은 F 검정, t 검정과 신뢰구간을 구하는데 필요하다. 이 정규성 가정에 대한 검정을 마지막으로 알아보자.
h0(귀무가설) : 오차항의 분포가 정규분포이다. / h1: 오차항의 분포가 정규분포가 아니다.
정규성 또한 그림을 보고 우선 판단하고 확신이 서지 않으면 검정을 하는 식의 프로세스를 거치면 된다!
1.정규확률그림 ↓
만약 표본이 정규분포에서 얻은 것이라면 직선에 가깝게 데이터들이 위치한다.
* 직선에서 벗어난 패턴에 따라 정규분포에 비해 어떤 모양을 띄고 있는지를 예측할 수도 있다.
ex) 정규분포에 비해 오른쪽으로 치우침, 정규분포에 비해 꼬리가 두꺼움 등
2. Shapiro-Wilk (w 통계량)
이 통계량은 sas 를 이용하여 정확히 계산할 수 있다.
w 통계량이 크다는 것은 1에 가깝다는 뜻이고 p-value가 커져서 귀무가설을 기각하지 않는다.
통계량이 충분히 크다는 것의 기준은 뭘까?
shapiro-wilk 검정통계량의 분포표를 참고하면 n과 α(유의수준) 에 따라 값을 얻을 수 있다. 예를 들어 n=45(관측값의 수)이고 유의수준이 5%라면 W통계량이 0.945정도는 되어야 정규성을 만족한다. (0.945 이상일 때 귀무가설 채택)
--- 데이터 불러오기
--- 설명변수 x1 x2 x3로 y 회귀 시키고 잔차 e1 열 만들기 (r1는 스튜던트화 잔차)
--- out2 확인
--- univariate 프로시저와 normal 옵션으로 w 통계량 확인하기
결과는 왼쪽과 같다.
w 통계량은 0.8775 정도로 p 값이 0.05보다 크므로 귀무가설(정규성)을 기각하지 못한다. (n=11일때 유의수준 5%에서 0.850보다 커야 정규성을 만족한다고 볼 수 있다)
"w통계량 ↑ p-value ↑ 귀무가설 기각 x " 의 패턴을 기억!
관측값의 수가 작으면 더 후한(?) 기준으로 정규성을 만족하게 된다고 봐도 된다.
'programming > 통계' 카테고리의 다른 글
회귀분석 - 모형진단(2) (0) | 2018.09.21 |
---|---|
회귀분석 - 모형진단(1) (0) | 2018.09.18 |
기초통계 - 통계적 추론(1) (1) | 2018.09.10 |