- 산포도에 찍힌 점들을 지나는 최적의 선이 그어질 경우 선형관계가 있다고 한다.
- 이 직선에 가까운 정도를 피어슨적률 상관계수(Pearson product moment correlation coefficient)로 계산한다.
- 피어슨 상관계수는 간단히 상관계수라 부른다.
- 모집단에서의 상관계수를 로(roh, ρ)라고 하고 표본에서의 상관계수는 r이라고 한다.
피어슨 상관계수의 특징
(1) -1부터 +1 사이의 값을 갖는다.
(2) 상관계수 앞에 있는 부호 +는 한 변수가 증가할 때 나머지 한 변수도 같이 증가함을 나타낸다. -는 한 변수가 증가할 때 나머지 변수는 감소함을 나타낸다.
(3) 상관계수의 크기는 산포도에서 최적의 직선에 얼마나 밀접한 지 그 정도를 나타낸다.
- r=+1 또는 r=-1은 산포도의 모든 점들이 일직선상에 놓여 있음을 의미한다.
- r=0이라면 선형적인 상관관계가 전혀 없음을 의미한다.
- 상관계수의 절대값이 1에 가까울수록 선형관계가 큼을 나타낸다.
(4) 상관계수의 측정단위는 없다.
(5) 상관계수는 표본의 x와 y값의 범위 내에서만 의미를 갖는다. 즉 x와 y의 값이 표본에서 갖는 값보다 극단에 있을 때도 같은 상관계수를 가질 것이라고 추정할 수는 없다.
(6) x와 y의 위치를 일제히 바꾸어도 이때 구한 상관계수 값은 바뀌지 않는다.
(7) x와 y의 상관관계가 있더라도 반드시 인과관계를 의미하지는 않는다.
(8) r^2은 상관계수로 설명될 수 있는 총변동 비율을 의미한다.
(9) r값은 서열척도의 특성을 갖는다.
(10) 각각의 상관계수는 상대적인 순위로 해석되어야 한다.
피어슨 상관계수를 사용할 수 없는 경우
(1) 두 변수 간에 직선형 관계(linearity)는 없지만 곡선형 관계가 있는 경우
(2) 이상치(outlier)가 있는 경우
(3) 산포도를 그려 보았을 때 여러 개의 소집단 분포를 보일 때
스피어맨 상관계수
- 피어슨 상관계수와 대응되는 비모수통계방법
- 스피어맨 순위상관계수 또는 스피어맨 상관계수라고 한다.
- 변수 x,y중 하나가 측정 수준에 있어서 서열척도이거나 정규분포를 하지 않거나, 표본크기가 작은경우, 선형관계를 가정할 수 없는 경우에 사용한다.
양류(Point-Biserial) 상관계수
1) 만약 X라는 변수가 예, 아니오 같이 2개로 나뉜 이분형 변수이고 Y라는 변수는 연속형 변수일 때 두 변수 사이에 관련성을 알아보려면 양류 상관계수를 구하면 된다.
2) 구하는 방법은 피어슨 상관계수의 공식과 같다.
회귀분석
: 주어진 변수들 간의 관계를 이용하여 두 변수가 어떠한 규칙적인 관계를 가지고 있느냐에 따라서 한 변수로부터 다른 한 변수의 값을 예측하는 통계적 방법이다.
1) 상관계수에서는 두 변수가 같은 지위를 같지만, 회귀분석에서는 예측하는 X변수를 독립변수라고 하고 예측되는 Y변수를 종속변수라 한다.
2) 상관계수는 회귀분석을 하기 전에 유용한 정보를 제공한다. 상관계수가 높지 않으면 회귀식은 예측력이 높지 않다.
3) 회귀식을 사용할 때 주의 해야 할 점
- 두 변수 간에는 선형상관관계가 있으야 한다.
- 상관관계가 높다고 하여 반드시 인과간계가 있는 것은 아니다
- 종속변수에 영향을 미칠 수 있는 요소들을 모두 포함하여 회귀식을 구할 경우 다중회귀분석이라고 한다.
'연구방법론' 카테고리의 다른 글
다중비교(multiple comparison)와 반복측정 분산분석(Repeated ANOVA) (0) | 2024.06.20 |
---|---|
추측통계학: t-검정(t-test)과 분산분석(ANOVA) (0) | 2024.06.20 |
G*power와 검정력(power)과 표본크기(Power and sample size) (0) | 2024.06.20 |
가설검정(Hypothesis testing or significance testing)과 가설검정의 오류 (0) | 2024.06.20 |
표본추출과 표본분포(Sampling and sampling distributions)(추정, 표본 평균 분포, 표준 오차) (0) | 2024.06.20 |