본문 바로가기

공부/통계학

자료의 산포_ 분산, 번위, 사분위범위, 변동계수가 무엇이며 어떻게 구할까요?

안녕하세요! 눈꽃입니다~

지난 포스팅에서는 자료의 분포 모양에 따라서 산술평균과 중위수를 비교해보는 시간을 가졌습니다!

대칭인 분포와 대칭이 아닌 분포 중 꼬리가 오른쪽으로 긴 분포, 왼쪽으로 긴 분포에서의 중위수와 산술평균을 따져보았습니다!

2021.04.10 - [교육/통계학] - 대칭인 분포, 왼쪽 오른쪽으로 꼬리가 긴 평균과 중위수를 비교하면?

 

대칭인 분포, 왼쪽 오른쪽으로 꼬리가 긴 평균과 중위수를 비교하면?

안녕하세요! 눈꽃입니다~ 지난 포스팅에서는 양적 자료의 대푯값의 산정에 대해 알아보면서, 평균, 절사평균, 중위수, 최빈값을 알아보았습니다! 그때 평균은 특이값의 영향을 많이 받는다는 단

lucete1504.tistory.com

이번 포스팅에서는 자료의 산포에 대한 요약에 대해서 다뤄봅시다~

자료의 산포를 요약해야 하는 이유는, 자료에 대한 요약을 할 때 대푯값만으로는 충분하지 않습니다. 예를 들면 두 집단 A B 구성원의 성적 분포를 고려해봅시다! 두 집단이 모두 70점이 평균일 때, 한 집단은 대부분의 

 

따라서 대푯값만으로 자료를 요약하는 것에는 한계가 있습니다! 따라서 산포도(자료가 흐트러진 정도)에 대한 내용도 고려를 해주면 더욱 완전한 자료의 요약이 됩니다!

 

그럼 산포도를 나타낼 수 있는 것에는 무엇이 있을까요? 분산, 표준편차, 범위, 사분위 범위, 변동 계수 등이 있습니다! 각 산포도마다 특징이 있으니 잘 구별해서 쓰시면 좋을 것 같아요!

 

1. 분산: 분산은 각 개체가 평균으로부터 떨어진 정도를 측정하는 편차들의 제곱합을 N 혹은 n-1로 나눈 값을 말합니다. 즉 어떤 변수가 평균값을 기준으로 보았을 때 어느 정도 벗어나 있는지를 계산한 것입니다!

공식으로 보면 다음과 같습니다!

 

2. 표준편차: 분산의 제곱근의 형태로 구할 수 있습니다! 또한 분산과 달리 관측값과 같은 단위를 가지므로 통계적 추론에 유용해 가장 널리 이용되는 산포도 값입니다.

     한계: 관측값들 중에서 굉장히 크거나 작은 특이점의 영향을 꽤 받는다는 한계점이 있습니다!

 

3. 범위: 최댓값-최솟값

범위는 자료의 흐트러진 정도를 나타낼 때 활용하는 가장 간단한 척도라고 볼 수 있습니다!
하지만 표준편차와 마찬가지로 특이점이 있는 경우, 훨씬 더 직접적인 영향을 받는다는 단점이 있습니다!

 

 

4. 사분위 범위(IQR)

:사분위 범위에 대해서 알아보기 전에, 먼저 기호에 대해서 설명해보겠습니다!

Q1=25 백분위수=제1 사분위수, Q3=75 백분위수= 제3 사분위수에 해당합니다! Q2를 쓰지 않는 이유는 우리는 Q2대신에 중위값(mediean)의 값을 쓰기 때문입니다!

    (1) 정의: 이제 사분위 범위에 대해서 알아보자면, 사분위 범위란 사분위수 사이의 범위, 즉 IQR=Q3 - Q1으로 정의됩니다! 사분위 범위가 클수록 자료의 흐트러진 정도(산포도)는 크다는 것을 의미합니다! 다시 말하면, 사분위 범위는 전체 자료의 중간 50% 부분이 가지는 범위를 의미한다는 개념입니다!

    (2) 장점: 사분위 범위는 위에서 언급했듯, 전체 자료의 중간 50% 부분이 가지는 범위를 말하므로, 특이점의 큰 영향을 받지 않는다는 것이 사분위 범위의 장점입니다! 

    (3) 구하는 방법(산출 방법):

①자료를 오름차순(작은 것부터 적고, 큰 것이 마지막으로 오게 적는 방식)으로 정리하여 반으로 나누어 줍니다!

② 이때, 자료가 짝수개라면, 개수가 맞게 반으로 나누는 것이 어렵지 않으나, 홀수일 때는 정확히 반으로 나누어지지 않습니다! 따라서 자료의 개수가 홀수개일 때는 중간에 있는 값(중위수)을 위쪽과 아래쪽 모두에 포함시켜서 반으로 나누어 주시면 됩니다!

③ 아래쪽 반 자료의 중위수는  Q1으로, 위쪽 반 자료의 중위수는 Q3로 계산합니다!

 

(중위수의 계산은 앞서 말씀드렸던 것처럼 구하시면 됩니다!)

    사분위 범위를 그림으로 나타낸 것이 상자 그림이며, 상자 그림에는 최솟값, Q1, 중위수, Q3, 최댓값 이렇게 다섯 가지의 내용을 담고 있어서 다섯 숫자 요약(Five-number summary)이라고도 부릅니다!

 

 

5. 변동 계수(coefficient variation): 변동 계수는 표준편차를 산술평균으로 나누어 구할 수 있습니다! 변동 계수가 클수록 평균에 비해 흐트러진 정도(산포도)가 크다는 것을 의미합니다! 즉, 변동 계수의 값과 산포도는 비례하는 값이라고 볼 수 있습니다.

예를 들어, 기업의 매출액을 산업별로 비교해보면, 표준편차는 같으나 평균이 크면 전체 변동계수의 값이 줄어듭니다! 즉 해당 산업의 변동성은 작음을 알 수 있죠!

평균이 크면 변동 계수는 작고(평균과 변동성은 반비례 관계이고 ), 표준편차가 크면 변동 계수도 크다(표준편차와 변동성은 비례관계이다)라고 정리할 수 있겠네요!