본문 바로가기

공부/통계학

양적 자료의 연관: 산점도, 공분산, 상관계수

안녕하세요! 눈꽃입니다~

이전 포스팅까지는 하나의 변수를 요약/정리하는 방법으로 그림과 수치의 척도 등을 다뤄보았습니다!

지금부터는 두 변수 사이의 관계를 이해하기 위한 수치의 척도를 살표보오고 하겠습니다!
두 변수 사이의 관계를 파악할 때는 두 가지를 중점적으로 파악하여야 합니다~

① 관계의 방향 

② 관계의 정도

쉽게 풀어서 설명하자면, 다른 변수가 한 변수의 변화로 인해 어떤 방향으로, 얼마큼 변화하는지를 파악해야 한다는 말입니다! 

 

먼저 양적 자료일 때 연관성을 알아보는 방법에 대해 살펴보겠습니다!
1. 산점도: 두 변수가 짝을 이루어 관측된 n개의 자료점이 주어졌을 때, 이들을 좌표평면에 해당하는 점을 찍어 표현한 그림을 산점도라고 합니다! 일반적으로 다음과 같은 형태를 보여줍니다!

산점도를 통해서 우리는 변수 사이의 전체적인 변수 사이의 관계(pattern)과 그 패턴으로부터 떨어져 있는 특이점들을 한눈에 파악할 수 있게 됩니다! 따라서 산점도를 활용하면 두 변수의 관계에 대한 수치적인 요약만으로 보이기 어려운 정보도 경우에 따라서는 어렵지 않게 찾아낼 수 있습니다!

이러한 장점이 있기 때무에 두 변수 사이의 상관관계에 대한 본격적인 통계분석 이전에 산점도를 그려서 검토해보는 것이 바람직하다고 볼 수 있습니다!

 

2. 공분산

: 지금 살펴볼 공분산과 상관계수 모두 상관관계를 수치적으로 표현한 값입니다! 공분산의 공식을 살펴보면 x편차와 y편차의 곱으로 표현되어 있습니다!

(1) 공식: 모집단의 공분산은 첫 번째 식으로 구할 수 있고 표본의 공분산은 두 번째 식으로 구할 수 있습니다!

(2) 특징: 공분산의 부호는 양수가 될 수도 있고, 음수가 될 수도 있습니다! 이는 분산과 대립되는 지점이라고 볼 수 있겠네요! 분산은 음의 값은 가질 수 없죠!

(3) 해석: 공분산이 양의 값을 가지면 두 변수는 양의 상관관계를 가진다고 해석하며, 공분산이 음의 값을 가지는 경우는 음의 상관관계를 가진다고 해석하면 됩니다! 공분산을 계산하면 두 변수의 관계가 정비례인지, 반비례인지를 파악할 수 있겠네요!

(4) 단점: 공분산은 단위에 영향을 받습니다! 따라서 단위가 다른 두 변수의 상관관계의 정도를 비교하는 것은 어렵습니다 이러한 단점을 개선하기 위해서 나온 것이 피어슨의 상관계수, 우리가 흔히 줄여말는 상관계수라고 할 수 있습니다~

 

 2. 상관계수: 양적 자료의 상관관계를 파악할 때 가장 널리 활용되는 피어슨의 상관계수에 대해서 알아봅시다!

(1) 활용: 상관계수는 선형 연관성의 강도를 재는 데 사용됩니다!

(2) 공식

공식을 살펴보면 상관계수= 공분산/(x표준편차*y표준편차) 임을 알 수 있네요!

(분모와 분자를 각각 n 또는 n-1로 나눠보면 왜 그런지 파악하실 수 있으실 겁니다~)

(3) 해석: 상관계수의 값이 양수일 경우, 두 변수는 양의 상관관계를 가지며, 값이 음수일 경우는 음의 상관관계를 가짐을 알 수 있습니다.

(4) 성질

① 상관계수는 -1과 1 사이의 값을 가진다.

② 단위의 영향을 받지 않으며, 위치-척도 변환에 대해 불변성을 갖는다

: 위치 척도 변환이라는 것은 동일한 값만큼 +, -, 곱하기, 나누기를 해주는 변환을 의미합니다!

③ 절댓값이 1에 가까울수록 연관성의 강도가 높다는 것을 의미한다.