본문 바로가기
programming/통계

기초통계 - 통계적 추론(1)

by lightlee 2018. 9. 10.

통계적 추론(Statistical Inference) 


추론이란?

표본으로부터 나온 통계로 모집단을 알아내는 것. 목적과 방법에 따라 추정과 가설검정으로 나뉨 


확률변수란

표본 집단의 결과들을 수치로 바꿔주는 역할 

ex

동전을 두번 던졌을 때 표본공간 = {HH, HT, TH, TT} 이고 X=앞면의 개수라 하면 각 원소들을 X=0, X=1, X=2 일때로 대응시킬 수 있다.


주의! 

확률변수는 변수와 다르며, '확률'이라는 말이 붙는 이유는 각 변수의 값이 나올 확률을 알기 때문이다. 

위의 예시를 통해 말하자면 X=0, X=1, X=2 일 때의 확률을 알고 있어야 한다. 그래야 확률변수라고 말할 수 있다. 

즉, 확률변수를 알려주는 '확률 분포'를 알아내야 한다. 확률분포를 안다는 것은 각 변수의 값에 대한 확률을 안다는 것이다! 


참고) 확률변수는 이산형 확률변수와 연속형 확률변수로 나뉜다. 

       이산형 확률변수의 확률 분포의 대표적인 예 → 이항 분포

       연속형 확률변수의 확률 분포의 대표적인 예 → 정규 분포, 카이제곱 분포, T 분포.. 



* 표집분포 

모집단으로부터 같은 크기로 가능한 모든 표본을 뽑았을 때 각 표본들의 통계량의 분포 

ex.

표본 평균에 대한 분포: 모집단이 정규분포인 경우, 표본 평균에 대한 분포는 정규분포를 이루며, 모집단이 정규분포가 아니어도 중심극한정                                리에 의해 표집분포는 정규분포가 된다. 


표본 비율에 대한 분포: 보통 대표본일 때만 언급하여, 마찬가지로 중심극한정리에 의해 정규분포를 이룬다. 



이때, 통계량은 여러개의 값을 가진다는 것을 알 수 있다. 표본을 뽑을 때마다 표본의 통계량이 달라지기 때문이다. (=변수)

표본 평균과 표본 비율, 두가지 예시를 참고하자


(표본 평균) 



결국 추론에 사용할 표본은 1개다 


각 확률표본을 다 더해 표본의 크기인 n으로 나눈 통계량을 표본평균이라 하며, 표본 평균의 분포는 모집단의 분포를 따라 정규분포를 따른다. (모집단이 정규분포가 아니어도 표본의 크기가 어느정도 이상으로 크다면 중심극한정리에 의해) 


 표본 평균의 평균과 분산은 아래 증명을 참고하자




우리는 모평균을 추론할 때 표본 평균을 사용하는 것을 자주 봐왔다. 표본으로부터 나올 수 있는 여러가지 통계량 중 '표본 평균'이라는 통계량이 모평균을 추론하는 데 핵심적인 통계량일까


(표본 비율) 


A 그룹에 속하면 1, 아니면 0 인 확률 변수로 구성된 모집단이 있다고 하자 



이때도 궁금할 수 있다. 모비율을 추정하는데 있어 왜 다른 통계량은 아니고 표본 비율이 가장 의미있는 통계량일까?


앞서 추론이 추정과 가설검정으로 나뉜다했는데, 먼저 추정을 살펴볼 것이다.

표본평균, 표본비율이 모수를 추정하는데 중요한 통계량이라는 것을 다음포스트에서 알아보자. 
















'programming > 통계' 카테고리의 다른 글

회귀분석 - 모형진단 (3)  (0) 2018.09.21
회귀분석 - 모형진단(2)  (0) 2018.09.21
회귀분석 - 모형진단(1)  (0) 2018.09.18