통계학 기초 – 2. 표본 오차 비표본 오차 미국 대선을 통한 사례



통계학 기초와 관련된 두 번째 포스팅입니다. 오늘은 표본 오차와 비표본 오차에 대해서 설명해드리겠습니다.

앞의 두 개념에 대해 설명하기에 앞서 먼저 편의와 변동에 대해 먼저 이야기해보겠습니다.

편의와 변동에 대한 개념을 아시면 표본 오차를 이해하시는 데에 어려움이 없을 것입니다.

편의과 변동

편의

편의(Bias)는 수치가 일정한 기준에서 벗어난 정도를 의미하며, 편차라는 표현으로 더 많이 쓰입니다.

‘표준편차는 분산의 양의 제곱근이다,’ 이런 말을 들어보셨을 겁니다.

통계학에서는 평균이 기준이 되며 평균을 기준으로 하여 벗어난 정도를 파악하게 됩니다.

변동

변동(Variability)은 자료의 흩어지는 정도를 의미합니다. 자료 각각의 수치들의 크고 작음을 나타냅니다.

사진으로 쉽게 이해하실 수 있을겁니다.

편의와 변동의 차이의 비교에 대한 이해를 돕기 위한 사진 자료
편의와 변동의 차이를 비교

어떠한 자료에 대해서 편의가 크다는 의미는 일정한 기준(즉, 통계학에서는 평균)에서 벗어난 정도가 크다는 것으로, 변동이 크다는 의미는 자료의 흩어진 정도가 크다는 것으로 이해할 수 있습니다.

표본추출 과정에서 편의를 줄이기 위해서는 모집단의 특성을 잘 반영한 sampling을 하는 방법이 있고,

변동을 줄이기 위해서는 표본 추출 크기를 늘리는 방법이 있습니다.

표본 오차와 비표본 오차

이젠 본격적으로 표본 오차와 비표본 오차에 대해서 알아보도록 하겠습니다.

표본 오차

표본오차는 모집단으로부터 표본을 추출하여 조사한 자료를 근거로 얻은 결과를 모집단 전체에 대해 일반
화하기 때문에 필연적으로 발생하는 오차입니다.

앞서 설명드렸듯이 모집단에서 추출한 표본집단은 모집단의 특성을 모두 반영할 수 없습니다.

그래서 표본집단의 조사 결과를 모집단에 적용하여 일반화할 때 생기는 오차라고 생각하시면 되겠습니다.

비표본 오차

비표본 오차는 표본오차를 제외한 모든 오차, 즉, 면접이나 조사표 구성방법의 오류, 조사관의 자질, 조사표작
성 및 집계과정에서 나타나는 오차입니다.

결국 조사를 진행하는 주체는 사람입니다. 사람은 완벽할 수 없으니 이러한 오차들이 발생하게 됩니다.

예시

예시1 – 미국의 대선 여론 조사

대표적인 비표본 오차 사례로, 1948년에 있었던 미국 대선 여론 조사를 예시로 들어 설명드리겠습니다.

당시 대선 후보로 출마한 두 인물은 민주당 출신의 ‘해리 S.트루먼’과 공화당 출신의 ‘토마스 E.듀이’입니다.

왼쪽 사진이 해리 S.트루먼, 오른쪽 사진은 토마스 E.듀이

그리고 아래의 표는 두 후보에 대한 여론 조사 결과입니다.

크로슬리와 갤럽, 로우퍼는 모두 당시의 여론 조사 기관입니다.

1948년 3개의 기관에서 예측한 미국 여론 조사 결과

세 기관 모두 듀이의 승리를 예상했지만, 실제 결과는 민주당의 트루먼이 승리하였습니다.

당시 세 기관 모두가 여론 조사 결과 예측을 실패하여 큰 논란이 되었는데 그 이유는 상당히 복합적입니다.

  • 10년마다 수행한 인구조사

당시 미국은 10년마다 인구조사를 실시하여서 비교적 오래된 자료로 모집단을 정의하였습니다.

특히, 1945년 2차 세계대전 종전 이후, 급격한 인구의 이동이 있었습니다.

이러한 이유로 1940년 인구조사 자료는 모집단 정의에 큰 문제를 주었을 것이라는 예측입니다.

  • 여론 조사 부실 및 후보자의 거만함

앞에서 말씀드렸듯이 3개의 기관 모두 공화당 출신의 듀이의 승리를 예측하였습니다.

이에 10월 초부터 여론 기관들이 조사를 수행하지 않았고, 듀이는 10월 중순부터는 선거 활동을 하지 않았죠.

이러한 복합적인 이유들로 민주당의 트루먼이 승리를 할 수 있었습니다.

대선 직후, '듀이가 트루먼을 이겼다'라는 신문을 들고 웃고 있는 트루먼
신문을 들고 있는 트루먼

위의 사진은 이에 신문을 들고 웃으며 사진을 찍은 트루먼 사진입니다.

신문사는 보통 대선 결과가 나오기 전 신문 보도를 합니다. 빨리 신문을 보도해야 그만큼 잘 팔리기 때문이죠.

하지만 여론조사 결과를 믿고 보도한 신문과는 다르게, 대선은 트루먼이 승리하였습니다.

예시2 – 2007년 한나라당 대선 후보 경선

비표본 오차와 관련된 사례는 아니지만, 유사한 사례가 대한민국에서도 존재합니다.

2007년, 한나라당 이명박 후보와 박근혜 후보의 대선 후보 경선을 위한 설문 조사가 있었습니다.

2007년 8월 3일 뉴스 자료 (출처: SBS 뉴스)

설문지 질문 방식에 대해

이 후보 측은 ‘누구를 더 선호 하는가?’, 박 후보 측은 ‘누구를 더 지지 하는가?’ 로 해야한다고 주장한 것입니다.

질문지 방식에 대해서 그들의 경선 결과가 달라지기 때문입니다.

결말은 아시다시피 이명박 후보가 경선에서 승리했고 한국 17대 대통령이 됩니다.

다음 포스팅에서는 통계적 검정에 대해서 알아보도록 하겠습니다. 감사합니다. 🙂

함께 보면 좋은 글들

Leave a Comment