본문 바로가기
programming/통계

회귀분석 - 모형진단(1)

by lightlee 2018. 9. 18.

총괄분석은 설정한 회귀모형과 가정들이 정확하다는 전제 하에 이루어진다. 그러나 제시된 회귀모형과 가정은 얼마든지 틀릴 수 있다.

<-->(개별분석) 회귀진단: 1) 회귀모형의 가정이 타당한가? 2) 각각의 관측값이 모형 및 가정에 어떠한 영향을 미치는가?

 

회귀진단은 다시 모형진단(model diagnostics) 과 자료진단(data diagnostics) 두가지로 구분된다.

 

모형진단: 가정의 타당성 의심

자료진단: 자료에서 모든 관측값의 특징이 모두 같을 수 없기 때문

=> 이 둘을 포함하는 회귀 진단에서 기본적/핵심적으로 사용되는 통계량은 잔차!

 

잔차인가?

잔차의 형태로부터 추정모형이 관측된 자료를 닮은 정도와 모형에 대해 세운 가정이 바람직한지 알 수 있다.

 

먼저 모형진단을 알아보자!  

x1,2,3,4 y1,2,3,4 사이 총괄분석 결과가 똑같다고 가정해보자.

하지만 위와 같이 산점도는 천차만별일 수 있다.

단순선형회귀모형이 적절하다고 생각되는 자료가 있는가 하면 2와 같이 포물선이 더 적절할 수도  있고 3,4 와 같이 이상점을 제거했을 때의 결과가 매우 달라질 수도 있다. 모형진단은 2와 같은 문제를 먼저 다룬다고 볼 수 있다. 등분산성, 정규성, 선형 적합성과 같은 가정에 대한 의심을 하는 단계다.

 

1. 잔차

잔차는 앞서 말했듯이 회귀 진단에서 가장 기본적으로 사용되는 통계량이다

 

 

 

잔차 e는 y와 y의 적합값의 합으로, 각 값은 위의 원리로 H 와 I-H로 구할 수 있다.

 

오차는 관찰할 수 없는 확률 변수로, 기대값 벡터는 0이며 서로 상관관계가 없고 등분산이라 가정했다.  (E(오차)=0, Var(오차)=б^2* I)

 

반면 잔차 e는 위와 같이 계산된 값으로

E(e)=0, Var(e)= б^2(I-H)

 

설명변수가 하나라고 가정해보고 오차와 잔차를 비교해서 관찰해보자

 

 

* H 햇행렬 (y를 적합값으로 만들었던 벡터) 의 성질:

1) 대각원소인 hii의 합은 p'과 같다.

2) 한 행, 한 열을 더하면 1이 된다.

 

var(ei)=б^2(1-hii) 이므로 hii가 크면 var(ei)가 작아진다. hii가 1에 접근하면 yi의 적합값과 yi는 거의 일치하게 된다.

hii ↓ var(ei) ↑ |e| ↑

=> 이처럼 hii가 잔차에 영향을 주게 됨

 

이상하지 않은가? 중심에서 가까우면 더 정확한 값이므로 오차가 작아야 할 것 같은데 오히려 크다!

x의 위치 때문에 분산이 커지고 작아지므로 문제가 발생한다. 따라서 표준화하여 분산을 일정하게 하려는 것이다.

(참고로 저 식에서 hii는 최솟값 1/n, 최댓값 1 임을 알 수 있다. )

 

표준화 2가지 방법:

 

 

2. 잔차산점도

잔차를 이용한 회귀진단에서 가장 보편화된 방법은 잔차 ei나 스튜던트화(내적) 잔차 ri를 y축으로 하고 y적합값(또는 설명변수)을 x축으로 하는 산점도를 그리는 것이다. 이러한 산점도를 잔차산점도(residual plot)이라 한다.

 

가정된 모형이 타당하다면 ri는 평균 0 분산 1을 갖는다

 

왼쪽은 등분산성이 의심, 오른쪽은 비선형성이 의심된다. 하지만 위와 같이 잔차산점도로 명확하게 판단히 어려운 경우 검정을 함께 사용한다.

 

잔차산점도 이외에 회귀진단에 사용될 수 있는 잔차와 관련된 여러 산점도를 알아보자.

 

+ 잔차-설명변수 산점도

e(Y|(X,Z)) (=Y를 반응변수로하고 X,Z를 설명변수로 하여 회귀적합하여 얻어지는 Y의 잔차) 를 y축으로 하고 Z또는 X를 x축으로 하는 그림을 잔차-설명변수 산점도라고 한다.

잘 적합된 경우 위 산점도는 특별한 형태를 띄지 않고 등분산 가정의 위반(z가 증가함에 따라 잔차의 분산이 증가, 감소) 또는 모형에 비선형 변수가 필요(이차항 등)한지 등의 모형 부적합을 찾아내는 데 많이 쓰인다.

 

v를 반응변수, d, h를 반응변수로 회귀시켰다해보자. e(V|D,H)는 D와 H로도 설명되지 않고 남은 부분일 것이다.

다음과 같이 잔차-설명변수 산점도(전체 잔차를 Y축, 설명변수 중 하나를 X축에 둔 것) 가 나왔다면 분명 패턴이 보인다고 할 수 있다.  

 

잘 적합되었다면 이들 산점도는 특별한 형태를 취하지 않아야 하는데, 이차 함수와 같은 모양을 띄고 있으므로 H대신 H^2이 들어가야하지 않을까? 하고 추측을 해볼 수 있다.

cf) 물론 이러한 잔차-설명변수 산점도는 추가변수그림(ex. e(V|D) vs e(H|D))보다 필요성을 적게 강조하는 편이다.

 

'programming > 통계' 카테고리의 다른 글

회귀분석 - 모형진단 (3)  (0) 2018.09.21
회귀분석 - 모형진단(2)  (0) 2018.09.21
기초통계 - 통계적 추론(1)  (1) 2018.09.10