통계학 기초 – 1. 모집단과 표본집단 모수와 통계량



이번 시간부터는 통계학 기초에 대해서 다뤄보도록 하겠습니다. 내용이 조금 많아 파트별로 나눠서 쉽게 설명해보겠습니다. 먼저, 이번 포스팅에서는 통계학이라는 학문과 모집단, 표본집단에 대해 알아보도록 하겠습니다.

통계학 기초 1. 모집단과 표본집단

통계학

통계학의 사전적 정의는 사회 현상을 통계에 의하여 관찰ㆍ연구하는 학문으로 수학의 한 분야라고 합니다.

사회 현상이나 경제 현상의 다양한 특성 및 정보를 과학적으로 분석하고 결과를 이끌어 내는 이론과 방법에 관한 학문입니다. 이러한 현상들을 분석하기 위해서는 그 분석 대상이 필요하겠죠?

그 분석 대상을 통계학에서는 ‘모집단(母集團)’이라고 부릅니다.

그래서 사실 통계학은 모집단을 알고자 하는 학문이라고 볼 정도로 무방합니다. 그만큼 많이 쓰이는 단어일텐데요. 과연 모집단은 무엇일까요?

모집단과 표본집단

모집단이란?

모집단(Population)은 일정한 속성을 지닌 개체의 확정된 집합입니다. 예시로 쉽게 설명해드리겠습니다.

선거 여론 조사를 위해 조사 대상자들을 모으려고 합니다. 여러분들이라면 어떤 사람들을 모으시겠나요?

먼저, 대한민국 국적을 가진 사람이고, 투표권을 가진 만 18세 이상이어야 합니다.

또한, 당일 혹은 사전투표를 진행할 예정인 사람들을 조사 대상자로 선정해야겠죠?

이 조건들에 해당하는 ‘모든’ 사람들이 이 조사의 모집단이 되는 것입니다.

모집단과 관련된 보다 자세한 설명은 아래의 버튼을 통해 확인해보세요!

아래의 사진이 선거 여론 조사의 모집단이라고 생각하고 넘어갑시다.

선거 여론 조사 모집단

하지만, 해당하는 모든 사람들을 조사하기 위해선 정말 많은 비용과 시간이 들 것입니다.

그리고 모집단의 정의는 상당히 까다롭습니다. 예를 하나 더 들어서 설명해드리겠습니다.

폐암 환자에 대한 조사를 하려고 합니다. 모집단은 전국의 모든 폐암 환자일 것입니다.

그럼 우리는 이 모집단 자료를 어떻게 수집할 수 있을까요?

전국의 모든 병원을 돌아다니며 폐암 환자 리스트를 받는 방법이 있겠죠.

하지만 폐암 환자 중에서 병원에 입원하지 않은 사람들도 있을 겁니다. 혹은 폐암으로 죽은 환자들은 이 모집단에서 제외되는 건가? 등의 고민을 할 수 있을겁니다.

그래서 우리는 표본(sample)이라는 개념을 사용해 보다 쉽게 조사를 할 수 있습니다.

표본집단이란?

표본집단(Sample)은 모집단의 일부에서 추출한 모집단의 부분집합입니다.

앞에서 언급하였듯이 선거 여론 조사를 위해 조건을 만족하는 사람들 전부를 조사하기엔 제약이 있습니다.

그래서 모집단에서 일부를 추출하여 표본집단을 만듭니다. 그리고 표본집단으로 모집단의 특성을 예측하는 것이지요.

우리는 위에서 선거 여론 조사에 필요한 모집단을 정의했습니다.

선거 여론 조사 표본집단

위의 사진은 우리가 뽑은 표본집단입니다. 이 표본집단을 조사하여 모집단의 특성을 파악하는 것입니다.

즉, 표본을 조사하여 그 결과를 모집단에 적용하는 것입니다.

‘실제로 이번 선거는 A후보가 당선될 것이다. 혹은 B후보가 당선될 것이다.’라는 예측을 하는 것이죠.

현실에서는 모집단을 아는 경우가 거의 없기 떄문에 우리는 표본을 계속해서 사용합니다.

표본을 추출할 때도 주요 원칙들이 있는데요,

먼저, Random입니다.

여기서 Random은 ‘무작위’의 개념보다는 ‘Equally likelihood‘입니다.

모집단에서 표본을 추출할 때, 각각의 표본이 추출될 확률은 반드시 같아야 한다는 것입니다.

또한, 모집단의 특성이 잘 반영되어야 합니다.

예를 들어 설명해드리겠습니다. 어느 고등학교에서 학교 시설물에 대한 설문조사를 하려고 합니다.

이 학교의 정원은 1,000명이고, 남학생 500명, 여학생 500명입니다.

표본으로 20명을 뽑았는데, 모두 남자가 뽑혔고 남학생들 모두가 여자화장실을 없애달라고 건의했습니다.

(이해를 돕기 위한 단순한 예시입니다.)

이러한 표본 추출은 잘못된 표본추출이고 이는 잘못된 조사 결과를 초래할 수 있습니다.

그래서 모집단의 특성을 잘 반영하기 위한 확률추출방법으로 층화추출법 등이 있습니다.

층화추출법과 관련된 설명은 아래의 버튼을 눌러 확인해보세요!

모수와 통계량

모집단과 표본집단에서 사용되는 개념들이 있는데 이들을 각각 모수와 통계량이라고 합니다.

모수

예를 들어, 대한민국의 경제규모를 특정 짓는 수라고 한다면 GDP, 인구수 등이 있겠죠.

이처럼 모수(parameter)는 쉽게 말해 모집단을 특정 짓는 수입니다. 주로 그리스어를 사용합니다. (𝜇, 𝜎, 𝜌)

통계량

통계량(statistic)은 표본을 특정 짓는 수이며, 표본 데이터를 요약하는 데에 쓰는 수입니다.

주로 영어를 사용합니다. (𝑥̅, S,R)

함께 보면 좋은 글들

Leave a Comment