대선 후보 지지율 여론조사의 허와 실
대선 후보 지지율 여론조사의 허와 실
  • 박성현 서울대 통계학과 명예교수·미래한국 편집위원
  • 승인 2017.05.16 11:14
  • 댓글 0
이 기사를 공유합니다

여론조사 지지율의 통계학적 근거

여론조사에서 A 후보에 대해 어떤 시점에서 실제 지지율 p를 추정해 발표할 때 보통 “95% 신뢰수준에서 최대허용 표본오차는 몇 %이다” 라고 발표하는 것을 볼 수 있다. 여기서 최대허용 표본오차를 간단히 표본오차 혹은 오차한계라고 부른다. 이 문장의 의미는

 (표본의 의한 p의 추정비율) ± (표본오차)

구간(이를 신뢰구간이라고 부름)이 실제 비율 p를 포함하고 있을 확률이 95%라는 뜻이다. 표본오차의 크기는, 여론조사를 실시하는 표본의 크기를 n이라고 할 때, n의 제곱근에 역비례하는 것으로 통계학에서는 증명되어 있다.

95% 신뢰수준에서 실제 지지율 p에 대한 추정의 표본오차는 ‘1.96 x [p(1-p)/n]의 제곱근’으로 구한다. 여기서 p의 값을 모르고 있으므로, 전혀 사전 지식이 없을 때에는 0.5를 사용하고, 만약 어느 정도의 정보가 있을 때에는 그 값을 대입할 수도 있다. 만약 0.5를 사용한다면 이 표본오차는 ‘1.96 x [0.25/n]의 제곱근’이 된다.

예를 들어 어떤 여론조사에서 p값에 대한 정보가 없고, 표본의 크기가 1,000 이고, A후보의 지지율이 21.3%가 나왔다면, 이 후보의 실제 지지율의 표본오차는

1.96 x [0.25/1,000}의 제곱근 = 1.96 x 0.016 = 0.031


으로, 3.1%가 되는 셈이다. 이 경우에는 A후보의 지지율 p는 21.3%±3.1%으로 (18.0, 24.4)% 안에 들어 있을 확률이 95%인 것이다. 표본오차의 크기는 표본의 크기가 커지면 점점 작아지며, 1,000명인 경우가 3.1%, 2,000명이면 2.2%, 4,000명이면 1.5%가 된다.

이번 대선의 여론조사 결과

 

이번 대선에서는 5월 3일 이후에 실시된 여론조사에 대해서는 선거일인 5월 9일까지 발표가 금지되었다.

따라서 5월 1∼2일에 실시된 12개의 여론조사 결과를 비교하여 보면 <그림 1>과 같다.

<그림 1>의 결과를 보면 문재인 후보는 13개 조사에서 (38.0%, 43.2%) 구간의 지지율을 보이고 있고, 안철수 후보는 (15.7%, 21.5%), 홍준표 후보는 (13.7%, 20.1%)이다.

문재인 후보는 모든 여론조사 기관에서 단연 1등이고, 안철수 후보는 10개 기관에서 2등이고, 홍준표 후보는 2개 기관에서 2등이었다.

다음으로 주요 5개 정당이 대선 후보 경선을 마친 직후인 지난 4월 7∼8일부터 5월 1∼2일까지 약 한 달 동안 조선일보가 의뢰하여 칸타퍼블릭이 실시한 여론조사결과의 변화추이를 살펴보면 <그림 2>와 같다.

이 그림에서 보면 문재인 후보는 35.7%에서 조금씩 계속 상승하여 38.5%에 이르고, 홍준표 후보는 7.2%에서 시작하여 16.8%까지 급상승하는 모습을 보이고, 안철수 후보는 37.5%에서 15.7%로 급락하는 모습을 볼 수 있다. 심상정 후보는 2.6%에서 6.8%로, 유승민 후보는 2.6%에서 3.8%로 상승하는 것을 볼 수 있다.

다음으로 주요 대선 후보 5인에 대한 5월 9일에 실시된 방송 3사 출구조사와 이번 대선의 최종 득표율은 다음과 같다. 방송 3사 출구조사는 표본크기가 9만9000명이므로, 표본오차가 작으며, 최종 득표율과 큰 차이는 보이지 않고 있다. 즉, 믿을 만하다고 보겠다.

여론조사에서의 문제점들

<그림 1>에서 보는 바와 같이 5월 1∼2일에 실시된 12개 조사기관의 여론조사에서 표본크기는 모두 1,000명 근처이므로, 표본오차는 3.1% 내외이다. 그러나 지지율이 홍준표 후보의 경우에는 작게는 13.7%에서 크게는 20.1%로 6.4%나 차이가 나고 있으므로, 여론조사 결과의 신뢰성이 떨어지는 조사기관이 있다는 의미이다.

그러면 어떤 잘못된 유형들이 여론조사의 신뢰성을 떨어뜨리고 있는가? 중앙선거관리위원회 중앙선거여론조사공정심의위원회에서 분류한 유형을 보면 열 가지가 있으며, 이들은 여론조사 결과 왜곡·조작, 공표·보도 전 홈페이지 미등록, 표본의 대표성 미확보, 여론조사 시 준수사항 위반, 질문지 작성 위반, 공표·보도 시 준수사항 위반, 가중값 배율범위 미준수, 결과분석방법 위반, 가상번호 준수사항 위반 등으로 되어 있다. 이들은 순수한 여론조사의 표본오차가 아니고, 여론조사 기관이 자초하는 비표본오차이며, 이를 줄이는 것이 여론조사의 신뢰성을 높이는 길이다.

우리나라의 유권자 전체를 모집단이라 하고, 여기서 조사의 대상으로 추출하는 집단을 표본집단이라고 한다. 표본집단에서 조사를 실시하여 응답한 사람을 응답자고 한다. 보통 응답 비율이 10% 정도이므로, 응답자 1,000명을 얻기 위해서는 표본집단을 1만 명을 구해야 한다. 조사대상자로 1만 명을 선정해야 한다는 뜻이다. 이번 대선 여론조사에서 신뢰성을 떨어뜨리는 중요한 문제점으로는 다음의 다섯 가지를 꼽고 싶다.

 

첫째로, 표본집단이 지역별, 성별, 연령별 등으로 잘 설계되어 있다고 하더라도, 응답자의 대부분이 어떤 정치적인 이념으로 편중되어 있고, 응답하지 않은 사람들은 다른 정치적인 이념으로 편중되어 있다면, 그 결과는 전혀 모집단을 대표할 수 없는 결과를 얻게 된다. 이번 대선에서도 이런 편중 현상이 일부분 나타났다고 판단된다.

두 번째로, 질문지의 작성 위반이다. 질문지는 응답자가 객관적으로 응답할 수 있도록 작성되고 질문되어야 하나, 간혹 어떤 결과를 유도하기 위하여 작성되는 경우도 있다. 이번 대선 기간 중에 사드배치와 관련된 여론조사(4월 29∼30일 내일신문이 의뢰하여 여론조사기관 디오피니언에서 실시함)를 살펴보자. 이 여론조사에의 한 질문이다.

“최근에 고고도 미사일 사드를 기습배치하면서 정치권에서 논란이 되고 있습니다. 선생님께서는 차기 정부의 부담을 덜어주기 위하여 배치를 감행했다는 주한 미군과 정부의 입장에 대해서 얼마나 공감하십니까?”

이 질문을 보면 “기습”, “감행”, “공감하십니까?” 등의 주관적인 용어를 사용하면서 응답자가 사드배치에 대하여 반대하도록 유도한 질문으로 볼 수 있다. 이런 질문이 대표적인 질문지 작성 위반이다. 당연히 결과를 믿을 수 없게 나올 것이다.

세 번째로, 표본 집단은 모집단의 지역별, 성별, 연령별 등에 맞춰 설계되었으나 응답자 분포가 설계와 맞지 않은 경우가 허다하다. 이런 경우에는 가중치를 사용하여 보정해 주는 것이 바람직하다. 가중치 보정 사용에서 흔히 실수를 하기 쉬우면, 이런 경우에 그 결과가 왜곡될 수 있다.

네 번째로, 여론조사 기관이 시간에 쫓기다 보니 표본 집단에게 모두 질문하지 않고, 늘 대답을 잘 해주는 ‘일부 응답자’들에게만 질문하는 경우이다. 이런 경우는 ‘일부 응답자’가 편향되어 있다면 당연히 결과도 잘못될 것이다.

마지막으로, 여론조사 질문자들의 자질과 정치적 편향성이다. 충분한 교육을 받지 않고 여론조사를 하다보면 응답자의 기분을 상하게 할 수도 있고, 질문자가 스스로 대답을 유도할 수도 있다. 이런 질문자들로 인하여 여론조사의 결과가 왜곡될 수도 있다.

 

앞에서 살펴본 바와 같이 여론조사에는 표본오차와 비표본오차가 같이 존재하며, 이로 인하여 여론조사 결과의 신뢰성이 대두되곤 한다. 이번 대선의 결과를 보고 그간의 여론조사의 변화추이를 볼 때, 지지율의 추정에는 큰 문제가 없어 보인다.

그럼에도 불구하고 여론조사 기관들은 여론조사의 신뢰성을 높이는 부단의 노력을 기울여야 할 것이다. 국민으로부터 여론조사의 신뢰성을 확보하는 것이 앞으로도 여론조사의 가치를 높이는 길이 될 것이기 때문이다.

▲ 노스캐롤라이나대 통계학박사 / 서울대 명예교수 / 전 한국연구재단 기초연구본부장 / 전 한국과학기술한림원 원장
본 기사는 시사주간지 <미래한국>의 고유 콘텐츠입니다.
외부게재시 개인은 출처와 링크를 밝혀주시고, 언론사는 전문게재의 경우 본사와 협의 바랍니다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.