본문 바로가기

공부/통계학

자료 수집 방법- 단순 랜덤 표본, 층화 표본 추출, 군집 표본 추출, 계통 표본 추출

안녕하세요! 눈꽃입니다~

지난 포스팅에서 통계학의 기본이라고 볼 수 있는 자료수집에 필요한 기본 개념이나 통계 용어를 정리해 보았는데요, 지난 시간에 예고한 것처럼 이번에는 자료를 수집하는 데에 어떤 표본추출방법이 있는지, 어떻게 하면 올바른 자료를 얻을 수 있는지에 대해 다루어보겠습니다!

 

(혹시 지난 포스팅에서 다뤘던 통계학의 기본이라고 볼 수 있는 자료수집에 필요한 기본 개념이나 통계 용어가 궁금하신 분들은 다음 링크를 클릭하고 들어가서 보고 오시는 것을 추천드립니다~! )

 

2021.03.28 - [교육/통계학] - 통계학-자료 수집 방법: 설명변수, 반응변수, 전수조사(센서스), 모수'

 

통계학-자료 수집 방법: 설명변수, 반응변수, 전수조사(센서스), 모수

안녕하세요~ 눈꽃입니다!! 오늘 통계학에 대해 다뤄볼 내용은 바로 자료의 수집 방법입니다! 통계의 기본이자 전부라고 할 만큼 자료를 수집하는 것은 통계에서 중요한 부분입니다! 어떤 자료가

lucete1504.tistory.com

 

1.단순 랜덤 표본(simple random sample)

: 먼저 가장 유명한 단순 랜덤 표본 추출법에 대해 알아봅시다! 표본조사에서 표본은 표본 추출틀이라고 하는 표본이 추출될 개체들의 목록으로부터 추출됩니다. 만약 표본추출틀이 불완전하게 작성된다면 표본에 뽑힐 가능성이 없는 개체들이 존재하게 되어 표본이 모집단을 제대로 대표할 수 없게 됩니다.

 완전하게 작성된 표본 추출틀을 이용한 단순랜덤표본은 모집단을 잘 대표할 수 있는 표본이라고 할 수 있는데, 크기가 n인 단순랜덤표본은 모집단으로부터 크기가 n인 모든 가능한 모든 집단을 생각했을 때 이들이 표본으로 뽑힐 확률이 동일하도록 뽑는 표본을 말합니다. 

 

 

  1-2. 단순 랜덤 표본은 어떻게 뽑나요?

:  N개의 개체로 이루어져 있는 모집단에서 N개의 개체들을 단순랜덤표본 추출법으로 뽑는 방법은 순차적으로 다음과 같습니다.

① 우선, 모집단에 속하는 개체들에게 1부터 N까지의 번호를 부여합니다.

② 그리고 1부터 N까지의 자연수 하나씩이 쓰여 있는 공들을 큰 항아리에 넣고 잘 섞은 다음,

③ 로또추첨을 하듯이 랜덤하게 n개의 공을 뽑는다고 생각하시면 됩니다.

④ 마지막으로, 뽑힌 공에 쓰여 있는 번호를 가진 개체를 표본에 포함합니다.

 

(실제의 문제에서는 이런 공들과 항아리를 사용하기는 어려우므로, 난수표(random digit table)나 난수 생성 프로그램을 사용하게 되지만 원리는 같다고 볼 수 있습니다. 이와 같은 랜덤화(randomization)는 수리적으로 정의되지 않지만, 불확실성을 가장 잘 나타냅니다.)

 

2. 데이터의 편향?

  :표본을 추출할 때 랜덤표본을 사용하지 않으면 모집단의 일정 부분에 치우치는 편향(bias)이 있을 수 있게 되는데, 이러한 편향이 발생하는 이유는 여러 가지 이유가 있다고 알려져 있습니다. 편의표본추출방법(convenience sampling)은 체계적이고 과학적인 추출법을 사용하지 않으면서, 사용자의 편의에 따라 표본을 추출하는 것인데, TV 뉴스 등에서의 인터뷰, 인터넷 포털사이트에서의 의견조사 등이 이에 해당한다고 볼 수 있습니다. 사회적인 이슈가 등장할 때, 미디어는 사람들이 많이 모이는 기차역이나 지하철역, 번화가 등에서 인터뷰를 통해 보여주고는 하지만, 이러한 방법은 그 시간, 그 장소에 우연히 있었던 사람만이 표본에 해당할 수 있는 편의표본추출방법으로, 이러한 표본은 여러 종류의 투표(poll)를 띄워두고 접속자들이 직접 참여하게 한 후 결과를 보여줍니다. 이렇게 스스로 표본에 들어가겠다고 선택한 사람들을 자발적표본 또는 자기선택표본이라고 합니다.

이는 특정한 인터넷 사이트를 이용하는 사람 중에서 특정한 이슈에 대해 투표에 참여하겠다는 마음이 들 정도로 강한 의견이 있는 사람들만이 표본으로 구성되기 때문에 일반적인 여론을 대표할 수 없게 되는 위험성이 있습니다. 이런 표본들은 모두 편향 표본(biased sample)이라고 간주합니다.

 

표본의 크기가 크다고 해서 모집단을 잘 대표할 수 있는 것이 아니라, 편향이 없는 것이 중요합니다. 매우 큰 크기의 표본이 모집단을 제대로 대표할 수 없었던 역사적인 예시는 생각보다 많습니다. 그 예로는 굉장히 유명한 1936년 미국 대통령 여론조사 등도 포함됩니다.

 

 

데이터를 사용하여 올바른 의사결정을 하기 위해서는 데이터를 수집하는 단계에서부터 체계적이고 과학적인 노력이 필요합니다. 단지 데이터의 양이 많다는 이유만으로 올바른 결과가 얻어진다는 것은 매우 그릇된 생각이라고 생각하셔야 합니다. 때로는 데이터 수집 과정에서 응답편향(response bias)이 발생할 수 있는데, 이것은 민감한 이슈에 대해 거짓을 말하거나, 모호한 질문이나 너무 오래전 일에 대한 질문에 대해 잘못된 응답을 하는 경우 발생할 위험성이 있습니다. 이러한 편향을 막기 위해 설문을 만들 때 질문을 모호하게 만들거나 한쪽의 대답을 유도하는 식으로 만들어서는 안 되며, 너무 오래된 일을 질문해서도 안된다는 점을 유의해야 합니다. 민감한 이슈에 대해서 응답편향을 줄일 수 있는 워너(Warner)의 랜덤화 방법(Warner's Randomized Response Model)이 알려져 있습니다. 이에 대해서와 다른 추출법들은 다음 포스팅에서 다뤄보도록 하겠습니다!

 

긴 글 읽어주셔서 감사합니다~!