본문 바로가기

programming/통계4

회귀분석 - 모형진단 (3) 회귀모형에서 또 하나의 가정은 오차가 정규분포를 따른다는 것이다. 오차의 정규분포 가정은 F 검정, t 검정과 신뢰구간을 구하는데 필요하다. 이 정규성 가정에 대한 검정을 마지막으로 알아보자. h0(귀무가설) : 오차항의 분포가 정규분포이다. / h1: 오차항의 분포가 정규분포가 아니다. 정규성 또한 그림을 보고 우선 판단하고 확신이 서지 않으면 검정을 하는 식의 프로세스를 거치면 된다! 1.정규확률그림 ↓ 만약 표본이 정규분포에서 얻은 것이라면 직선에 가깝게 데이터들이 위치한다. * 직선에서 벗어난 패턴에 따라 정규분포에 비해 어떤 모양을 띄고 있는지를 예측할 수도 있다. ex) 정규분포에 비해 오른쪽으로 치우침, 정규분포에 비해 꼬리가 두꺼움 등 2. Shapiro-Wilk (w 통계량) 이 통계량은.. 2018. 9. 21.
회귀분석 - 모형진단(2) 모형진단에서 의심해볼 수 있는 세 가지 가정은 다음과 같다 (1) 등분산성 가정 (2) 선형성 가정 --> 선형성에 대한 검정은 잘 하지 않는 편이다. (3) 정규성 가정 (1), (2)의 경우 앞서 살펴본 잔차산점도, 잔차-설명변수 산점도에서 판단해본 바 있다. 그러나 그림만 보고 판단하기 애매할 경우 검정이 필요하다. 검정방법을 알아보자 1. 등분산성 검정을 위한 스코어검정법가설) H0: 등분산이다 / H1: 등분산이 아니다 단계 1) 반응변수 Y를 설명변수 X에 회귀시켜 추정회귀선을 구하고 잔차 ei 를 저장한다. 단계 2) 조정된 제곱잔차 ui=ei^2/σ ̃^2 를 i번째 관측값으로 하는 새로운 변수 U를 구한다. σ ̃^2는 SSE/n이다. (자유도를 반영하지 않는다) 단계 3) 반응변수 U를.. 2018. 9. 21.
회귀분석 - 모형진단(1) 총괄분석은 설정한 회귀모형과 가정들이 정확하다는 전제 하에 이루어진다. 그러나 제시된 회귀모형과 가정은 얼마든지 틀릴 수 있다. (개별분석) 회귀진단: 1) 회귀모형의 가정이 타당한가? 2) 각각의 관측값이 모형 및 가정에 어떠한 영향을 미치는가? 회귀진단은 다시 모형진단(model diagnostics) 과 자료진단(data diagnostics) 두가지로 구분된다. 모형진단: 가정의 타당성 의심 자료진단: 자료에서 모든 관측값의 특징이 모두 같을 수 없기 때문 => 이 둘을 포함하는 회귀 진단에서 기본적/핵심적으로 사용되는 통계량은 잔차! 왜 잔차인가? 잔차의 형태로부터 추정모형이 관측된 자료를 닮은 정도와 모형에 대해 세운 가정이 바람직한지 알 수 있다. 먼저 모형진단을 알아보자! x1,2,3,4 .. 2018. 9. 18.
기초통계 - 통계적 추론(1) 통계적 추론(Statistical Inference) 추론이란?표본으로부터 나온 통계로 모집단을 알아내는 것. 목적과 방법에 따라 추정과 가설검정으로 나뉨 확률변수란? 표본 집단의 결과들을 수치로 바꿔주는 역할 ex. 동전을 두번 던졌을 때 표본공간 = {HH, HT, TH, TT} 이고 X=앞면의 개수라 하면 각 원소들을 X=0, X=1, X=2 일때로 대응시킬 수 있다. 주의! 확률변수는 변수와 다르며, '확률'이라는 말이 붙는 이유는 각 변수의 값이 나올 확률을 알기 때문이다. 위의 예시를 통해 말하자면 X=0, X=1, X=2 일 때의 확률을 알고 있어야 한다. 그래야 확률변수라고 말할 수 있다. 즉, 확률변수를 알려주는 '확률 분포'를 알아내야 한다. 확률분포를 안다는 것은 각 변수의 값에 대한.. 2018. 9. 10.