본문 바로가기
연구방법론

기술통계학(빈도분포, 대푯값, 분포, 산포도)

by Potatoing 2024. 6. 20.
728x90
반응형

 

 

기술통계학은 모양(shape), 중심경향치(central tendency), 일련의 자료 내에서 변이(variability within a set of data)를 기술하는데 이용된다.

 

모수(parameter) : 모집단(population) 특성을 기술하는 측정값

표본통계량(statistic) : 표본의 특징을 나타내는 값, 표본자료로부터 계산된 수치

  ex) 표본평균, 표본분산 등

1. 빈도분포 2. 분포의 모양
  1) 왜도
  2) 첨도
3. 대푯값
  1) 평균값
  2) 중위수
  3) 최빈치
  4) 평균, 중위수, 최빈치의 비교
4. 산포도
  1) 범위
  2) 백분위와 사분위
  3) 분산
  4) 표준편차
  5) 변이계수(변동계수)

 

 


728x90

1. 빈도분포

1) 도수분포(frequency distribution), 퍼센트(%), 누적 퍼센트(cumulative %)를 부가적으로 표시하기도 한다.

2) 시각적 제시
  - 막대그래프(bar chart)

  - 히스토그램 : 막대그래프와 비슷하지만 x축이 연속변수로 막대그래프 사이의 빈공간이 없다.

  - 원그래프(pie chart)

  - 꺽은선그래프(frequency polygon)

  - 줄기-잎 그림(stem0and leaf plot) : 원 자료 모습을 그대로 유지하면서 연속적인 변수 분포의 모양을 나타낼 수 있다.

 

 

 


 

2. 분포의 모양

  1) 정규분포(normal distribution) 혹은 가우스분포(Gauss distribution)
    : 대부분의 점수가 척도의 중앙에 몰리고 양극단으로 갈 수록 점차 감소

 

  2) 왜곡분포(skewed distribution) : 비대칭적

 

  3) 왜도(skewness) : 분포가 대칭에서 얼마나 기울었는지 나타냄 

      = 값들의 분포가 중심으로부터 좌우대칭에서 얼마나 벗어나 있는지를 보여주는 지수
    S = 0 : 대칭

    S > 0 : 오른쪽으로 기울어짐

    S < 0 : 왼쪽으로 기울어짐

 

  4) 첨도(krutosis) : 분포의 뾰족한 정도
    K = 0 : 정규분포

    K > 0 : 정규분포보다 뾰족

 

 

 


반응형

 

3. 대푯값

  1) 평균값(mean, average)
    ① 극단값에 영향 받음

    ② 종류 : 산술평균, 조화평균, 기하평균, 절삭평균(상,하위 5% 제거하고 봄) 등

    ③ μ : 모집단의 평균

    ④ 표본의 평균 나타내는 기호 

 

    ⑤ 평균 ≠ 정상수준 : 정상수준이지만 평균에 못 미칠 수 있다.

    ⑥ 평균은 전체적인 모양을 나타내는 좋은 방법이다. 그러나 평균만으로는 전체를 나타낼 수 없다. 

 

  2) 중위수(median)
    ① 자료를 순위별로 나열하였을 때 두 부분으로 똑같이 나누어 주는 수
      ex) 4,5,6,7,8,9 에서 중위수는 6과 7사이에 놓이므로 6.5

    ② 중심경향치로 중위수를 사용하면 극단값에 의한 영향을 받지 않는다.

    ③ 중위수는 치우친 분포를 나타내는 왜곡된 분포를 기술할 때 유용한 중심경향치이다.

 

  3) 최빈치(mode)

    ① 분포에 있어서 가장 빈도가 높은 수치
    쌍봉분포(bimodal distribution, 최빈치가 두개), 다봉분포(multimodal distribution, 최빈치가 3개 이상)

    ③ 범주형 변수(categorical variable)로 자료가 측정된 경우 유용하다.

    ④ 연속적인 자료에서 최빈치로 중심경향치를 알아보는 경우는 드물다.

 

  4) 평균, 중위수, 최빈치의 비교

    : 어떤 것이 통계학적으로 유용한지 고려해서 제시해야 한다.

      ① 변수의 측정 수준(<측정의 수준 자세히 보기)도 중요한 고려사항 중 하나

      ② 평균이 가장 유용하기는 하지만, 중심경향을 측정하는 세 가지(평균, 중위수, 최빈치) 모두 등간척도 혹은 비척도로 측정되었으면 적용이 가능하다.

      ③ 명목척도로 측정된 자료는 오직 최빈치가 의미가 있다.

      ④ 서열척도 수준에서 측정되었으면 중위수와 최빈치를 구할 수 있다.

      ⑤ 정규분포하는 자료에서는 평균, 중위수, 최빈치 모두 유용

      ⑥ 치우친 분포에서는 평균, 중위수, 최빈치 모두를 보고해야 함.

 

 

 


 

 

4. 산포도

: 측정값들이 대푯값 주변에 얼마나 흩어져 있는가?

 

  1) 범위 Range
    ① 산포도를 가장 간단하게 알아보는 방법

    ② 분포에서 가장 높은 값과 가장 낮은 값 사이의 차

    ③ 표본의 크기가 다른 2개으 ㅣ집단을 비교할 때는 범위를 이용하여 비교하는 것이 어렵다.

    ④ 대략적인 기술통계량을 보고할 때 사용

    ⑤ 실제 연구에서는 주로 다른 산포도 지수와 병행하여 제시됨

 

  2) 백분위와 사분위 Percentiles and quartiles

    ① 백분위 : 한 분포 내에서 특정한 점수의 상대적인 위치를 기술
      ex) A의 시험 점수가 92번째 백분위이다. : 시험을 치른 학생 중 92%는 A의 점수보다 아래에 있다.

    ② 사분위 : 백분위를 네 부분으로 나눈 것
      - 제1사분위 : 25번째 백분위

      - 제2사분위 : 50번째 백분위

      - 제3사분위 : 75번째 백분위

      

  3) 분산 Variance

    ① 각 측정값과 산술평균의 편차를 제곱한 것의 평균

    ② 분산이 작다 = 측정값들의 평균값 가까이에 분포한다

    ③ 분산이 크다 = 측정값들이 평균값을 중심으로 퍼져있다.

    ④ 모집단 분산(σ²) :  ∑(측정값 - 모집단평균값) ² / n         

    ⑤ 표본분산(s²) :  ∑(측정값 - 표본평균값) ² / n-1 (표본자료는 모집단에서의모든 관찰값들을 포함하지 않기 때문에, 실제 모집단 분산보다 표본분산이 더 작게 된다. 이런 차이를  보상하기 위해 n-1로 나눈다.)

    ⑥ 기술통계량으로서 분산은 잘 사용되지 않고 분산분석을 할 때 주로 이용된다.

 

 

 

  4) 표준편차 Standard deviation, SD : 분산의 제곱근형태
    ① 표준편차 = s, 모표준편차 = σ

    ② 표준편차가 크다 = 표본안에서 변이의 정도가 크다

    ③ 표준편차가 작다 = 표본 안에서 측정값들의 변이정도가 작다

    * 표준편차(SD)는 평균을 중심으로 모여있는 정도 즉, 산포도를 나타내는 측정치
    * 표준오차(SE)는 표본평균들의 표준편차, 추정된 모평균의 정밀성(precision)을 나타내는 것으로 기술통계량이 아님!
    * 표준편차(SD)가 표준오차(SE)보다 적게 나온다고 평균±표준편차(SD)로 표현하는 것은 틀린 표현

 

 

  5) 변이계수(변동계수) codfficient of variation, CV

    ① 표준편차를 평균으로 나눈 수치를 의미하는 것으로 x100을 하여 백분율로 나타낸다.

    ② 두 집단의 평균이 다른 경우 표준편차를 이용하여 산포도를 비교하는 것은 적합하지 않으므로 변이계수 사용

    측정단위가 다르거나 대푯값의 차이가 큰 두 자료의 산포도를 비교하기 위하여 사용한다.

    ④ 등간척도 이상에서 측정된 자료를 기술하는 데 사용될 수 있다.

    ⑤ 변이계수가 작다는 것은 자료의 변이가 작다는 것을 의미한다.

 

 

 

 

 

출처: 이충휘, 「물리치료사와 작업치료사를 위한 연구방법론」, 제6판, 계축문화사, 2003.

728x90
반응형