본문 바로가기
연구방법론

표본추출과 표본분포(Sampling and sampling distributions)(추정, 표본 평균 분포, 표준 오차)

by Potatoing 2024. 6. 20.
728x90
반응형

전체 집단 즉 모집단 전체를 연구하기에는 경제적, 시간적, 인력 등의 현실적인 문제가 있다.

따라서, 전체 집단을 대표하는 표본을 통해 자료를 수집하고 분석하여 그 전체집단에 대한 추론을 한다.

 

 

 

이 때, 대표성을 띄는 표본추출이 중요하다. 

가장 이상적인 방법은 "무작위 표본추출법"이다.

표본추출 방법은 이전 글에서 다루었으니 이번 포스팅에서는 생략하겠다.

 

 

 

※ 추정은 모집단에서 측정하여 계산한 값들인(평균 또는 비율 등) 모수와 관련이 있다.

- 모집단의 평균값은 μ, 표준편차는 σ로 표시된다.

- 연구자들은 표본으로부터 언어진 자료를 통하여 이 모수들을 추정한다.

- 표본 평균은 x(바), 표준편차는 s로 표시된다.

 

 


모집단(Population) → 모수(parameter) : 모평균, 모분산, 모표준편차, 모비율

▼sampling

표본(Sample)  → 표본통계량 : 표본평균, 표본 분산, 표본 표준편차, 표본비율


 

728x90

1. 점추정과 구간추정

: 모수를 추정하기 위한 두 가지 방법

 

1) 점추정 : 표본자료로부터 직접 계산된 값

ex) 표본평균

 

2) 구간추정 : 모수가 있을 범위를 제시, 모평균이 있을 것이라고 어느정도 확신할 수 있는 범위를 제시함

- 신뢰구간(Confidence interval, CI)은 표본평균과 표준오차로부터 계산된다. 

- 모평균이 존재할 범위를 넓게 설정할수록 더 신뢰 가능성이 높아지고 이런 신뢰 가능성을 백분율로 표시한다.

ex) 95% 신뢰구간 : 95% CI = 표본평균 ± (1.96)SE

      99% 신뢰구간 : 99% CI = 표본평균 ± (2.58)SE

 

* 95% 신뢰구간이란 이런 결과 값이 우연에 의해 발생했을 가능성이 100번 중 5번임을 나타낸다.

  = 100개의 신뢰구간 중 95개의 신뢰구간은 모수를 포함한다.

 

ex)  "A와 B의 효과가 같지 않다/차이가 있다"는 결과가 우연에 의해 나왔을 가능성이 100번 중 5번

     = 차이가 없는데 차이가 있다고 나올 확율 = 유의수준 α ( = 1종 오류)

 

 

 

 

 

2. 표본 평균 분포(Sampling distribution of the mean)

- 모집단으로부터 같은 크기의 표본을 반복해서 추출할 경우 그때마다 얻어진 각각의 표본들의 평균값들이 모평균과 같기를 기대하기 어렵다.

 

- 이론적으로 '모든 표본평균들로 이루어진 분포'에서 구한 평균(mean of all the sample means)은 모평균과 같다.

 

- '표본평균들로 이루어진 분포' = 표본평균분포(sampling distribution of means)

 

- 표준오차(standard error of the mean, SEM) : 표본평균분포에서의 편차
   SEM = σ/√n

  = 표준편차 나누기 표본크기

  = 표본크기가 커질수록 표준오차는 작아진다.

  (but, 현실적으로 모집단의 표준편차를 알기 어렵다. 따라서, "표본표준편차 나누기 표본크기"를 이용한다.)

 

 

- 중심극한정리, Central Limit Teorem 법칙 : 표본크기(sample size, n)가 크면 클수록 원래 모집단의 분포 모습에 상관없이 표본평균들의 분포 모습은 정규분포를 닮아간다.

☞ 모집단으로부터 추출가능한 모든 표본집단을 추출한 후, 각 표본집단별로 평균값을 구한 다음 분포하는 모습을 보면 궁극적으로 정규분포를 한다. 추출된 각 표본 평균값들의 평균값(mean of all the sample means)을 구하면 그 값은 모집단의 평균값과 동일하다.

☞ 표본 평균들로부터 구한 분산 : 표본평균들의분산(variance of means) = 모분산 ÷ 표본크기

☞ √표본 평균들의 분산 = 표본평균들의 표준편차 = 표준오차(standard error)

 

 

반응형

3. 표준오차의 해석

: 표준오차가 크다는 것은 추정값이 정확하지 않다는 것을 의미

: 작은 표준오차는 추정값이 비교적 정확함을 의미

∴ 표본크기(sample size)가 크고 자료의 변이정도가 작다면 표준오차가 감소 = 좀 더 정확한 추정값 획득 가능

 

- 표준편차는 자룟값의 변이정도

- 표준오차는 표본 평균값의 정확도

728x90
반응형