본문 바로가기

공부/통계학

대푯값_ 평균, 중위수, 최빈값, 절사평균은 무엇이며 장단점, 예시는 무엇인가요?

안녕하세요! 눈꽃입니다~

지난 포스팅에서는 범주형 자료의 요약 방법으로, 도수분포표와 막대그래프, 파이 차트에 대해 배워보았는데요!

이번에는 양적 자료의 요약 방법에 대해 배워보겠습니다!

 

본격적으로 양적 자료의 요약방법 들어가기 전에, 범주형 자료의 요약 방법이 궁금하신 분은 다음 링크 타고 들어가시면 도움이 되실 거예요!

2021.04.10 - [교육/통계학] - 자료의 요약_ 도수분포표, 막대그래프, 파이 차트 어떻게 쉽게 그리나요?

 

자료의 요약_ 도수분포표, 막대 그래프, 파이차트 어떻게 쉽게 그리나요?

안녕하세요! 눈꽃입니다~ 지난 포스팅에서는 자료의 종류에 대해서 알아보았어요! 그래서 범주형 자료, 양적 자료를 큰 틀로 범주형 자료 내에서는 다시 명목형 변수, 순서형 변수를, 양적 자료

lucete1504.tistory.com

 

2021.04.09 - [교육/통계학] - 통계_범주형 자료, 양적 자료, 명목형 , 순서형, 연속형, 이산형, 구간형, 비율형 자료

 

통계_범주형 자료, 양적 자료, 명목형 , 순서형, 연속형, 이산형, 구간형, 비율형 자료

안녕하세요! 눈꽃입니다~ 이번 시간에는 통계의 원자재라고 볼 수 있는 '자료'에 대해서 알아봅시다! 첫 포스팅에서 자료는 관찰이나 실험 등을 통해 구할 수 있고, 그렇게 얻어진 원시자료는 양

lucete1504.tistory.com

 

 양적 자료는 연산이 가능하다는 특징이 있었죠!(양적 자료, 범주형 자료 잘 이해가 안 되는 분은 위의 링크 들어가서 보고 오세요!) 그러므로 양적 자료는 그래프나 표를 사용하여 정리될 수 있을 뿐만 아니라 수치로도 요약될 수 있습니다~ 그래프에 의한 표현도 범주형 자료에 비해 더욱 다양합니다~

따라서 양적 자료의 요약 방법은 수치를 사용하는 방법과 그래프를 사용하는 방법으로 나누어서 살펴볼 수 있습니다! 그중 오늘의 포스팅은 수치를 사용하는 방법에 대해서만 다뤄볼 거예요!

 

1. 양적 자료의 요약_ 수치를 사용하는 방법

① 자료의 대푯값(중심)에 대한 요약: 주어진 자료를 하나의 수치인 대푯값 'a'로 요약할 때는 모든 자료들과 대푯값 'a'사이에 편차(자료의 값-a)가 발생하며 이 편차를 '최소화'하는 것이 바람직합니다. 그래야 진짜 이 자료들을 '대표'한다고  말할 수 있게 되겠죠!

따라서 편차를 최소화하기 위해서 편차 제곱합이나 절대 편차 합을 최소화하는 점 'a'를 고려할 수 있습니다.

절대편차합
편차제곱합

②평균(mean): 주어진 자료들의 합을 개체수 n으로 나눈 값을 말하며, 산술평균이라고도 일컬어집니다. 평균은 편차 제곱합을 최소화하는 점 'a'이며, 물리적으로는 무게중심의 의미를 갖습니다. 계산이 쉽고 수학적으로 다루기 쉽다는 장점이 있어 널리, 자주 사용됩니다! 다만 모든 관측값을 사용하므로 '특이점(자료 전체의 형태에서 벗어나 매우 크거나 작은 관측값을 특이점이라고 합니다)'의 영향을 많이 받습니다!

 이 단점을 보완하기 위해서 나온 것이 '절사 평균'이며 영어로는 trimmed mean입니다! 영어에서도 알 수 있듯이 평균(mean)을 다듬은(trimmed) 것이 절사 평균입니다. 그렇다면 어떤 점을 다듬은 것일까요?

앞서 평균은 '특이점'의 영향을 많이 받는다는 단점이 있다고 말씀드렸었는데요, 이것을 보완한 것입니다!

즉, 특이점으로 말미암아 편차가 큰 자료가 있는 경우 산술평균은 특이점의 큰 영향을 받게 되며 이는 자료의 대푯값으로 바람직한 성질이 아닙니다. 따라서 전체 자료에서 편차가 갖는 큰 부분과 작은 부분을 일정 비율만큼 제거한 후(제거하여 특이점의 영향을 없앤 후) 평균을 산출하는 것이 바람직하며, 이 값을 절사 평균이라고 하는 것입니다! 

 

그럼 예를 한번 들어보겠습니다!
어떤 피겨스케이팅 경기에서 10명의 심사위원 중에 가장 높은 점수와 낮은 점수를 제외한 나머지 8명 심사위원들의 평균점수로 선수를 평가할 수 있으며, 이 경우 전체 자료의 20%(10명 중 2명)를 제거하였으므로 20% 절사평균이라고 합니다! 이렇게 점수를 반영하면 편파판정으로 너무 낮은 점수나 너무 높은 점수를 주는 심사위원의 의견을 반영하지 않을 수 있어 더욱 공정한 점수 집결 방식이 됩니다!

또한 전체 자료의 몇 퍼센트를 제거하였는지에 따라 몇 퍼센트 절사 평균의 값 인지도 다릅니다. 위 처럼 20% 절사 평균일 수도 있으며, 10% 절사 평균을 사용하기도 합니다!

 

③중위수(median): 주어진 자료를 크기순으로 나열했을 때 가장 중앙에 위치하는 관측값으로 정의됩니다. 중위수는 절대 편차의 합을 최소화하는 점 'a'를 의미합니다! 중위수의 장점으로는 순위를 사용하여 중앙에 있는 값만을 사용하므로 특이점의 영향을 크게 받지 않는다는 부분입니다! 따라서 분포가 한쪽으로 치우쳐있는 경우나 특이점들이 많은 경우는 중위수가 평균보다 대푯값으로 더 타당할 수 있습니다.

 

예를 들어보자면, 어느 스포츠팀의 연봉 분포를 고려하면 소수의 스포츠 팀 선수들의 고액 연봉으로 말미암아 평균 연봉이 높아지는 경우가 있는데 이런 경우 팀 선수 연봉의 대푯값으로 평균을 사용하는 것은 부적절하므로, 중위수를 대푯값으로 사용하는 것이 바람직합니다!

 

④최빈값(mode): 주어진 자료들 중애서 가장 빈도가 높은 값으로 정의됩니다!

 

예시로는 어떤 의류를 사용하는 집단의 신체적 특징(키, 허리둘레 등)의 경우 최빈값은 가장 빈도가 높은 신체적 특성을 의미하며, 의류업자는 다른 대푯값보다 최빈값에 더 흥미를 가지는 경우가 많습니다!

 

 

위 그림은 평균과 중위수를 비교한 것인데요, 평균이 이상치에 영향을 많이 받는다는 것을 파악하는데 도움이 되실 것입니다!

 

글 읽어주셔서 감사합니다!