본문 바로가기

공부/통계학

통계_범주형 자료, 양적 자료, 명목형 , 순서형, 연속형, 이산형, 구간형, 비율형 자료

안녕하세요! 눈꽃입니다~

 

이번 시간에는 통계의 원자재라고 볼 수 있는 '자료'에 대해서 알아봅시다!

첫 포스팅에서 자료는 관찰이나 실험 등을 통해 구할 수 있고, 그렇게 얻어진 원시자료는 양적 축소를 통하여 자료의 특성이 의미 있게 표현됨으로써 필요한 정보를 제공할 수 있어야 합니다. 특히 자료의 양이 클 때에는 자료를 요약하지 않고 그 특성을 파악하는 것은 매우 어려운 일이라고 볼 수 있죠. 이러한 문제에 사용되는 방법으로는 '수치'를 사용하거나 '그래프'를 사용해서 자료를 가공하는 통계적 방법을 고려해 볼 수 있습니다~

 

1. 자료의 종류

: 자료의 종류에 따라 활용할 때, 정리하고 요약하는 방법이 다르게 사용될 수 있습니다! 따라서 자료를 정리하기에 앞서 우리가 가진 자료의 종류의 명확한 구분이 필요합니다!

자료의 종류 구분도

 위 내용을 자세하게 설명해보겠습니다!

 

 ① 범주형 자료: 자료가 가질 수 있는 값이 몇 개의 범주로 국한되는 경우, 이러한 자료를 범주형(categorical)이라고 합니다! 범주형 자료는 다시 명목(nominal)형과 순서(ordinal)형으로 나누어집니다!

 명목형 자료순서가 없는 범주를 가지는 경우를 말하며, 예시로는 남자와 여자로 나누어지는 성별이라든가 A형, B형, AB형, O형으로 나누어지는 혈액형 등을 들 수 있습니다.

 이와 구분되는 개념으로서 고유한 순서를 갖는 자료순서형 자료라고 합니다! 순서형 자료의 예시로는 소형, 중형, 대형 등의 크기나 매우 불만족, 불만족, 보통, 만족, 매우 만족 등의 만족도에 관한 likert 5점 척도 등이 있습니다!

 

명목형 자료와 순서형 자료를 구분해봅시다!

Q1.어떤 집단에 속하는 개체들에 대하여 미혼, 기혼, 사별, 이혼 등으로 결혼상태를 조사하는 경우 이 자료는 어떤 자료형에 해당할까요?

Q2. 기독교, 천주교, 불교 등으로 종교를 조사한 자료는 어떤 자료형에 해당할까요?

Q3. 지체 장애인에 대해 장애 등급을 1급부터 6급까지로 조사한 자료는 어떤 자료형에 해당할까요?

 

정답은 다음과 같습니다!

A1. 명목형 자료

A2. 명목형 자료

A3. 순서형 자료

 

문제가 어렵지 않아서 모두 다 잘 맞추셨을 거라고 생각합니다!!

그럼 다음 자료의 종류에 대해서 알아봅시다!

 

② 양적 자료

: 자료에 수치적인 의미가 있어서 연산이 가능한 경우, 이러한 자료를 양적(quantitive) 자료라고 합니다! 양적 자료는 연속(continuous)형과 이산(discrete)형으로 다시 나누어 지는데, 특정 사건의 횟수 등과 같이 몇 개의 다른 값만을 가지는 경우이산형 자료이고, 키나 몸무게처럼 어떤 구간 내에서 모든 값을 가질 수 있는 경우는 연속형 자료입니다!

 

하지만 연속형 자료를 생각해보면, 현실에서는 특정의 한계 때문에 어떤 구간 내의 모든 값을 가질 수 있는 자료를 만들 수는 없습니다. 예를 들면 몸무게를 측정할 때, 70.3이나 70.7 등으로 소수점 뒷자리를 잘라서 표현하지, 70.375984... 등으로 표현하지는 않습니다! 하지만 본질적으로 구간 내의 모든 값을 가질 수 있는 자료가 양적인 의미를 가지고 측정 되는 경우 흔히 연속형 자료로 간주하게 됩니다! 키도 마찬가지로 생각할 수 있겠죠!

 

:양적 자료는 또 구간형(interval) 자료비율형(ratio) 자료로 나누기도 합니다. 구간형 자료차이는 의미가 있으나, 비율은 의미가 없는 자료를 뜻합니다! 이렇게 설명하면, 무슨 이야기인지 잘 이해하기 힘드실 것 입니다 ㅠ 예시를 들어보면 조금 더 이해가 수월하실 텐데, 구간형 자료는 온도나 연도가 대표적인 예시라고 볼 수 있습니다. 섭씨 20도와 섭씨 10도는 섭씨로 10도 차이가 나지만 20도가 10도보다 2배 더 높은 온도라고 보지 않으며, 서기 2000년이 서기 1000년의 2배라고 보지도 않습니다. (섭씨 0도는 화씨로는 32도이고, 서기 0년은 단기로는 2333년입니다. 이렇게 섭씨와 서기 등 온도나 연도는 임의로 설정한 단위 체계를 사용하므로 '~배'가 의미가 없는 것이죠! 이 말이 '비율은 의미가 없다'라고 이해할 수 있습니다~ 하지만 기상캐스터가 "오늘 날씨는 어제보다 '2도'정도 높습니다"와 같이 얘기하는 건 자주 듣습니다. 그 이유는 구간형 자료인 온도는 '차이'에는 의미가 있기 때문이죠!)

 

구간형 자료의 특징은의 0 값이 아무것도 없는 절대적인 0을 뜻하지 않는다는 것입니다! 이 말이 이해하기 어려우시다면 이렇게 생각해보시면 됩니다! 섭씨 0도가 온도가 없는 상태를 의미하나요? 서기 0년이 시간이 시작된 절대적인 시점인가요? 그건 아니죠! 앞서 말씀드렸듯, 섭씨 0도는 화씨로는 32도이고, 서기 0년은 단기로는 2333년이기 때문입니다~

 

이제 비율형 자료에 대해서 알아봅시다!

비율형 자료값의 차이도 의미가 있고, 동시에 비율도 의미가 있는 자료를 말합니다! 구간형 자료와는 '값의 차이가 의미가 있다는'점은 동일하지만 '비율도 의미가 있는 점'은 차이점이라고 볼 수 있겠죠~ 또한 비율형 자료에서는 0의 값이 아무 것도 없는 상태를 의미한다는 것도 차이가 있습니다! 몸무게 0kg은 무게가 없는 것이고, 이를 파운드로 변환하여도 0lb입니다. 길이 0cm도 길이가 없는 것이고 이를 inch나 mm로 변환해도 값은 0으로 변함없습니다!

이렇듯 대부분의 양적 자료는 비율형이라는 것은 쉽게 알 수 있습니다! 구간형의 자료로 차이(difference)를 구하면 이것은 비율형이 됩니다!
 

  구간형 자료 비율형 자료
0의 값 아무것도 없는 절대적인 0을 뜻 X 아무것도 없는 절대적인 0을 뜻함
차이의 의미 O O
비율의 의미 X O

 

이번 포스팅에서는 자료의 종류에 대해서 범주형 자료와 양적 자료, 그 안에 구분되는 여러 자료의 종류에 대해서 살펴보았는데, 여러분의 궁금증이 조금이나마 해소되었으면 좋겠습니다!

긴 글 읽어주셔서 감사합니다!