본문 바로가기
programming/통계

회귀분석 - 모형진단 (3)

by lightlee 2018. 9. 21.

회귀모형에서 또 하나의 가정은 오차가 정규분포를 따른다는 것이다.  오차의 정규분포 가정은 F 검정, t 검정과 신뢰구간을 구하는데 필요하다. 이 정규성 가정에 대한 검정을 마지막으로 알아보자. 


h0(귀무가설) : 오차항의 분포가 정규분포이다. / h1: 오차항의 분포가 정규분포가 아니다. 


정규성 또한 그림을 보고 우선 판단하고 확신이 서지 않으면 검정을 하는 식의 프로세스를 거치면 된다! 


1.정규확률그림 ↓



만약 표본이 정규분포에서 얻은 것이라면 직선에 가깝게 데이터들이 위치한다. 


* 직선에서 벗어난 패턴에 따라 정규분포에 비해 어떤 모양을 띄고 있는지를 예측할 수도 있다. 

ex) 정규분포에 비해 오른쪽으로 치우침, 정규분포에 비해 꼬리가 두꺼움 등










2. Shapiro-Wilk (w 통계량) 

이 통계량은 sas 를 이용하여 정확히 계산할 수 있다. 

w 통계량이 크다는 것은 1에 가깝다는 뜻이고 p-value가 커져서 귀무가설을 기각하지 않는다. 


통계량이 충분히 크다는 것의 기준은 뭘까? 

shapiro-wilk 검정통계량의 분포표를 참고하면 n과 α(유의수준) 에 따라 값을 얻을 수 있다.  예를 들어 n=45(관측값의 수)이고 유의수준이 5%라면 W통계량이 0.945정도는 되어야 정규성을 만족한다. (0.945 이상일 때 귀무가설 채택) 


--- 데이터 불러오기 




--- 설명변수 x1 x2 x3로 y 회귀 시키고 잔차 e1 열 만들기 (r1는 스튜던트화 잔차) 




--- out2 확인 



--- univariate 프로시저와 normal 옵션으로 w 통계량 확인하기 




결과는 왼쪽과 같다. 


w 통계량은 0.8775 정도로 p 값이 0.05보다 크므로 귀무가설(정규성)을 기각하지 못한다. (n=11일때 유의수준 5%에서 0.850보다 커야 정규성을 만족한다고 볼 수 있다) 


"w통계량 ↑ p-value ↑ 귀무가설 기각 x " 의 패턴을 기억!



관측값의 수가 작으면 더 후한(?) 기준으로 정규성을 만족하게 된다고 봐도 된다. 






'programming > 통계' 카테고리의 다른 글

회귀분석 - 모형진단(2)  (0) 2018.09.21
회귀분석 - 모형진단(1)  (0) 2018.09.18
기초통계 - 통계적 추론(1)  (1) 2018.09.10