본문 바로가기
programming/통계

회귀분석 - 모형진단(2)

by lightlee 2018. 9. 21.

모형진단에서 의심해볼 수 있는 세 가지 가정은 다음과 같다 

(1) 등분산성 가정 

(2) 선형성 가정 --> 선형성에 대한 검정은 잘 하지 않는 편이다. 

(3) 정규성 가정 


(1), (2)의 경우 앞서 살펴본 잔차산점도, 잔차-설명변수 산점도에서 판단해본 바 있다. 그러나 그림만 보고 판단하기 애매할 경우 검정이 필요하다. 검정방법을 알아보자


1. 등분산성 검정을 위한 스코어검정법

가설) H0: 등분산이다 / H1: 등분산이 아니다 


단계 1) 반응변수 Y를 설명변수 X에 회귀시켜 추정회귀선을 구하고 잔차 ei 를 저장한다. 

단계 2) 조정된 제곱잔차 ui=ei^2/σ ̃^2 를 i번째 관측값으로 하는 새로운 변수 U를 구한다.  σ ̃^2는 SSE/n이다. (자유도를 반영하지 않는다) 

단계 3) 반응변수 U를 설명변수 Z로 회귀시키고 회귀제곱합을 SSreg 라고 표시한다. 이때, SSreg에 해당하는 자유도는 Z에 포함되는 설명변수의 수

      이때 Z는 오차의 분산에 영향을 미치는 변수이다. 예를 들어 Z가 설명변수 X의 함수로 나타난다면 Z는 X로 볼 수 있다. 

      ==> 어떤 변수가 Z가 될 것인지에 결정하기 위해 U와 다른 변수들을 하나씩 회귀시켜 나온 분산분석표를 관찰한다. 

      ex)  model u= d; 

              model u= h;

              model u= d h; --> 각각의 s통계량을 계산, 카이제곱분포와 비교 

단계 4) 스코어검정통계를 S는 SSreg/2이다. n 이 크면 S는 카이제곱 분포를 따르며 자유도는 SSreg와 같은 q이다. S가 너무 크면 H0를 기각


(코드)

왼쪽은 위 과정을 sas 통계 패키지로 돌려본 코드이다. 


1) v3 를 반응변수, d, h를 설명변수로 하는 추정회귀식을 구하고 잔차 e를 하나의 열로 가지는 dataset 인 out1을 만든다. (아래 표)





2) u 변수를 새로 정의한다. 

3) z에 어떤 것이 오는 것이 좋을지 회귀시켜본다. 


스코어 검정을 해보기 전에 잔차산점도를 보고 대충 파악해보고 들어가는 것이 좋다. 약간 애매하다 싶으면 검정을 들어가는 것이다. 


(잔차산점도) →     판단하기 애매하다 

 


u 를h 로 회귀시킨 분산분석표: 

S(스코어통계량)= SSreg/2

= 6.47/2= 3.24


카이제곱(1) 의 분포와 비교해봤을 때 

P value가 대략 0.072 정도로 어느정도는

분산이 H의 함수인 것을 보여준다. 








u를 d로 회귀시킨 분산분석표: 




S(스코어통계량)= SSreg/2

= 0.942/2= 0.47


카이제곱(1) 의 분포와 비교해봤을 때 

P value가 너무 커서 분산이 d의 함수라고 보기는 어렵다는 것을 보여준다. 





u를 d와 h로 회귀시킨 분산분석표: 


S(스코어통계량)= SSreg/2

= 6.644/2= 3.322


카이제곱(2) 의 분포와 비교해봤을 때 

P value가 대략 0.2 정도로 d와 h 모두의 함수는 아니라는 것을 알 수 있다. 







선형성에 대한 검정은 잘 하지 않는 편이므로 건너뛰고 다음 포스트에서 정규성에 대한 검정을 알아보자.




'programming > 통계' 카테고리의 다른 글

회귀분석 - 모형진단 (3)  (0) 2018.09.21
회귀분석 - 모형진단(1)  (0) 2018.09.18
기초통계 - 통계적 추론(1)  (1) 2018.09.10