[전문가진단] 4·15 총선 결과의 통계적 특이점들
[전문가진단] 4·15 총선 결과의 통계적 특이점들
  • 박성현 미래한국 편집위원·서울대 통계학과 명예교수
  • 승인 2020.05.18 09:41
  • 댓글 0
이 기사를 공유합니다

지난 4월 15일에 치러진 총선에서 국회의원 300석 중에서 여당인 더불어민주당·더불어시민당이 180석을 차지하고 야당인 미래통합당·미래한국당이 103석을 차지하여 여당의 압승으로 선거가 종료되었다.

일각에서는 총선에서 부정선거, 개표조작 등의 의혹을 제기하고 있으나 이 글에서는 그런 내용보다는 선거 결과에 대하여 통계적으로 매우 특이한 결과들을 정리해 보고자 한다. 통계적으로 고찰해 볼 때는 일어나기 힘든 사건이 일어났다고 판단된다.

사전투표와 당일투표 결과 간의 엄청난 괴리 현상

이번 투표는 중앙선거관리위원회에 따르면 전체 선거인 4399만4247명 중에서 1174만2677명이 사전 투표해 사전투표율이 매우 높은 26.7%이었다. 당일투표율이 39.5%이므로 이번 선거 투표율은 최종 66.2%로 아주 높은 편이며 사전투표수와 당일투표수의 비율은 대략 40:60이다.

사전투표와 당일투표의 결과를 합치면 국회의원 선거 지역구 총투표수 2912만1467 중 유효투표수가 2874만1408로 이 중에서 더불어민주당(이하 민주당)이 49.9%, 미래통합당(이하 통합당)이 41.5%, 정의당이 1.7%, 민생당이 1.4%, 기타정당과 무소속이 5.5%를 얻었다.

민주당과 통합당의 득표율은 5대 4이지만 의석수는 163대 84로 의석수는 두 배 가까이 차가 난다. 반면에 비례정당 투표에서는 유효투표수 2789만9864 중에서 3% 이상을 얻은 당으로는 미래한국당이 33.84%, 더불어시민당이 33.35%, 정의당이 9.67%, 국민의당 6.79%, 열린민주당 5.42% 순으로 나타나 비례대표 의석수 47석 중에서 각각 19, 17, 5, 3, 3석을 차지했다.

민주당과 통합당의 득표율을 볼 때 모든 253개 지역구에서 사전투표 결과와 당일투표 결과에 큰 차이점이 있다. 사전투표에서 민주당은 56.3%, 통합당은 34.9%로 민주당이 압승이었고, 당일투표에서는 민주당은 45.6%, 통합당이 46.0%로 통합당이 근소하나마 더 많은 표를 얻었다.

하지만 사전투표에서 워낙 민주당이 격차를 벌렸기 때문에 지역구 선거는 민주당의 기록적인 승리로 끝났다. 사전투표에서 통합당이 민주당을 앞선 곳은 전국 17개 광역자치단체 중 단 3곳으로 대구, 경북, 경남 뿐이다. 통합당이 우세하리라 예상했던 부산에서도 민주당이 앞섰다.

그러나 통계적으로 매우 특이한 점은 253개 지역구에서 민주당은 당일투표에서 사전투표보다 평균 10.7% 적게 득표하고, 통합당은 당일투표에서 사전투표보다 평균 11.1% 높게 득표한 것을 보여주고 있다는 점이다.

<그림 1>에 두 당의 사전과 당일의 득표율 차를 히스토그램으로 보여주고 있다. 두 당의 히스토그램이 전혀 겹치지 않는 것을 보면 모든 지역구에서 동일한 패턴을 보여주고 있다는 증거이다.

이와 반면 2016년 20대 총선에서는 <그림 2>와 같은 히스토그램을 보여주고 있다. 히스토그램이 서로 겹치는 부분이 있어 지역구에 따라 민주당이 사전투표보다 당일투표에서 더 좋은 투표율을 올릴 수도 있고 통합당(당시 새누리당)도 당일투표보다 사전투표에서 더 좋은 투표율을 올릴 수도 있었다.

민주당의 히스토그램의 평균은 -2% 정도이고, 통합당은 평균 3% 정도로 서로 격차가 크지 않아 충분히 일어날 수 있는 현상이다.

두 당만을 비교하기 위해 다른 당은 무시하고 두 당의 합을 100%로 하여 두 당만을 비교해 보자. 비교를 위해 4년 전의 20대 투표 결과도 같이 조사했다. 지역별(서울, 경기, 경북, 경남, 충청, 전라 등)로 각 당 득표율에 큰 차이가 있으므로 대표적으로 서울의 경우만을 자세히 살펴보자.

21대에서 관내사전투표 득표율은 대략 63:37로 민주당이 두 배 가량 높고, 관외사전투표는 대략 65:35로 유사한 결과를 보여주고 있으며 관내와 관내를 합치면 대략 64:36이다. 그러나 당일투표에서는 대략 51:49로 별로 차이가 없어 사전투표와 당일투표 간에 두 당의 득표율에 현저한 차가 있다.

20대에서는 사전투표나 당일투표에서 민주당이 조금 앞서기는 하지만 두 당의 득표율의 차가 크지 않다. 그러면 21대 선거에서 왜 이런 현상이 발생했을까?

일반적으로 사전투표에는 젊은 층이 대거 참여해 젊은이들의 민심이 민주당에 기운 것이 아닌가 생각할 수 있다. 그러나 사전 투표(4월 10-11일)에 참여한 선거인들의 연령분포를 보면 <그림 3>과 같다.

투표자 연령별 비율을 보면 60대 이상이 가장 많아 30.8%를 차지하고, 다음으로 50대가 21.9%로, 50대 이상을 합치면 52.7%가 된다. 사실상 20-30대 젊은이들보다는 50대 이상의 장·노년층이 사전투표에 더 많이 참가했다.

여론조사에서 보면 노인층이 통합당 지지도가 높기 때문에 이것으로 사전투표에서 민주당 지지도가 높이 나온다는 설명이 안 된다. 혹자는 사전투표 기간에 통합당 측의 ‘막말 파동’이 영향을 준 것이 아닌가 분석하기도 한다. “3040은 무지하다(김대호 전 후보)”와 세월호 논란(차명진 전 후보)이 벌어졌었다.

그러나 이러한 막말 파동이 당일투표일까지 계속되었으므로, 사전투표에서만 크게 영향을 주고 당일투표에서는 영향을 주지 못했다고 얘기하는 것도 그렇게 논리적이지 않다.

통계적으로 볼 때 전국 선거인들은 하나의 모집단이고, 이 모집단을 둘(사전 투표자 그룹, 당일투표자 그룹)로 랜덤하게 나눠 이들이 투표했다고 볼 때, 이 두 그룹 간에는 매우 큰 차가 나기 어렵다. 사전투표와 당일투표 간의 엄청난 괴리 현상은 통계적으로 이해하기 어려운 부분이다.

지역구 사전투표에서 민주당은 56.3%, 통합당은 34.9%를 얻어 민주당의 압승이고, 당일투표에서는 민주당이 45.6%, 통합당이 46.0%로 통합당이 근소한 차로 이겼다. 이런 현상을 설명하려면 사전투표에서 민주당 지지자들이 통합당 지지자들보다 사전투표에 더 많이 몰려 나왔을 것이라는 가설이 성립되어야 한다. 통계학적으로 이를 증명하여 보자.

<그림 4-1>과 <그림 4-2>를 살펴보자. 이 그림은 서울, 경기, 인천, 강원, 대전, 부산에 있는 1537개 동, 읍, 면, 리의 민주당 총득표율(사전+당일)을 세로축(x-축)으로 놓고 동네별 사전투표율(사전투표수/총득표수)을 가로축(y-축)으로 놓고 그린 1537점의 산점도이다.

만약 민주당 지지자들이 대거 사전투표에 몰려 나왔다는 가설이 옳다면 세로축의 민주당 총득표율이 높을수록 당연히 동네별 사전투표율도 올라가야 한다. 즉 산점도에서 양의 상관관계를 가지며 기울기도 플러스(+)가 되어야 한다. 그러나 <그림 4-1>은 그런 현상을 보여주지 못하고 있다.

사전투표에 민주당 지지자들이 몰려나왔다는 가설은 맞는가?

이와 다르게 통합당에 대해서도 <그림 4-2>에서 동일한 산점도를 그려보면 도리어 통합당이 약간의 플러스(+)의 상관관계를 보이고 있다. 그러나 두 그림 간에 특별한 유의차가 있어 보이지는 않는다. 결론으로 사전투표에서 민주당 지지자들이 대거 몰려 나왔다는 설명은 통계적으로 증명되지 않는다.

사전투표에는 민주당 지지율이 매우 높고 당일투표에는 도리어 약간 통합당 지지율이 높다는 괴리 현상으로 당락이 바뀐 후보들이 많다. <표 2>에 기록되어 있는 예를 들어보자. 광진구을과 동작을 지역구의 오세훈, 나경원 후보는 당일투표에서 높은 득표율을 기록하고도 사전투표에서 큰 차로 져 민주당의 고민정, 이수진 후보에게 승리를 넘겨줬다.

오세훈 후보의 경우에는 사전투표에서 고민정 후보에게 16.85% 포인트 졌으나 당일투표에서는 역전해 8.15% 포인트를 이겼다.

그러나 사전투표에서 너무 많이 진 관계로 떨어지고 만 것이다. 나경원 후보의 경우도 이와 유사하다. 이런 상황을 맞은 통합당의 후보가 40명에 이른 것으로 분석되고 있다.

만약 사전투표에서 관외투표 결과만으로 당락을 결정한다면 민주당 217석, 통합당 34석을 얻게 된다. 이를 관내투표 결과만으로 당락을 결정한다면 민주당 198석, 통합당 49석을 얻는 것으로 나타났다.

만약 본선 투표의 결과로만 당락을 결정한다면 민주당 123명, 통합당 124명 되는 것으로 조사되었다. 이 얼마나 사전투표 결과와 당일투표 결과가 주는 엄청난 괴리인가?

이런 결과가 호남만이 아니라 부산, 경남, 경북, 대구 등을 포함한 전국 유권자의 투표 결과라고 믿어질 수 있는가? 사전투표와 당일투표를 합친 결과는 민주당은 163석, 통합당은 84석을 갖게 되었다.

통계적으로 이해하기 힘든 서울 49개 지역구별 매우 유사한 패턴

서울의 지역구는 모두 49개로 지역마다 후보자 지지도에서 특색이 있으므로 다양하게 나오는 것이 보통이다. 그러나 이번 선거에서는 모든 지역구가 사전투표와 당일투표의 득표율 차가 거의 동일하다는 것은 통계적으로 이해하기 힘든 매우 특이한 현상이다.

이를 나타내기 위해 서울 지역구만 21대 총선 결과를 <표 3>에 만들어 비교해 봤고 <표 4>에는 지난 20대 총선에서 서울 지역 몇 개의 지역구만 조사해 봤다.

<표 3>과 <표 4>을 비교해 보면 일정한 패턴을 발견할 수 있다. 민주당 후보는 당일투표보다는 사전투표에서 더 높은 득표율을 올렸고 통합당은 그 반대이다. 그런데 20대에서는 사전투표와 당일투표의 득표율 차가 49개 지역구에서 민주당은 평균 약 3%이고 새누리당은 약 3%이므로 양당 후보의 평균 격차는 6% 정도였다.

이 정도는 충분히 통계적으로도 발생할 수 있는 격차이다. 그러나 21대에서는 이 차가 민주당은 모두 마이너스(사전투표 득표율이 당일투표 득표율보다 큼)를 크게 기록(-10∼-16%)하면서 평균 약 12%를 기록했다. 이와 반면 통합당은 모두 플러스를 크게 기록하면서 평균 약 12%를 보였다.

따라서 양당 후보의 평균 격차는 24% 정도로 엄청난 수치이다. 여기서 통계적으로 기이한 현상이라고 볼 수 있는 것은 49개의 모든 지역구에서 동일한 패턴을 보이면서 차가 났고 그 차가 매우 유사하게 민주당은 마이너스로, 통합당은 플러스를 보이고 있다.

서울의 49개 지역구에서 모두 유사한 패턴을 보이고 있으나 사전투표와 당일투표의 차를 극명하게 보이기 위해 송파구을 지역구의 결과를 비교해 보면

●송파구을: 민주당 최재성 / 통합당 배현진 득표율 비교

- 최종 결과: 65,763 / 72,072 = 0.912

- 당일 투표 결과: 36,528 / 49,006 = 0.745

- 사전 투표 결과: 28,939 / 22,793 = 1.270

(사전 관내투표 결과: 21,031 / 17,018 = 1.236)

(사전 관외투표 결과: 7,908 / 5.775 = 1,369)

으로 여기에서 결과 값이 1이 넘어가면 민주당이 우세하고 아니면 통합당이 우세한 것을 나타낸다. 두 후보의 사전투표 결과 비율과 당일투표 결과 비율의 비가 1.270/0.745 = 1.705로, 1.5가 넘어가고 있다.

상당히 많은 지역구에서 이런 결과가 나오고 있다. 일반적으로 선거에서 사전투표와 당일투표의 결과 비율이 1.0±0.1이 나오는 것이 정상이나 이 범위를 크게 벗어난 것은 통계적으로 이해하기 힘든 결과라고 볼 수 있다.

4개 동의 동일한 패턴

서울은 모두 424개 동으로 구성되어 있는데 민주당 후보의 사전득표율과 당일득표율의 차들을 히스토그램으로 그려 <그림 5>에 보였다. 이 차들이 평균 12%를 보이면서 매우 작은 표준편차인 2.4%를 가졌다.

통계적으로 기이한 현상은 모든 424개 동에서 민주당의 사전득표율이 당일득표율보다 크다는 것이고 그 표준편차도 매우 작다는 것이다. 424개 동들의 특색이 있을 것인데 이런 일률적인 결과가 도출된 것은 통계적으로 이해하기 어려운 대목이다.

지역에 따라 사전투표 득표율의 동일성

일부 시민단체나 유튜버들이 지적하는 바와 같이 사전투표에서 민주당과 통합당의 득표율이 서울, 인천, 경기에서 거짓말처럼 동일하게 나온 것은 통계적으로 볼 때 희귀한 일임에 틀림없다. <표 5>에는 이들 지역에서 두 당의 상대 득표율 비율을 보면 소수점을 빼고 정확히 63:36의 비율로 동일하다.

이에 대해 중앙선거관리위원회는 “수도권 유권자들의 투표성향 흐름이 유사하게 나타난 것일 뿐”이라고 설명하고 있는데 그렇다 하더라고 이런 결과가 나올 수 있는 확률은 매우 작다.

또한 일부 지역구의 사전투표에서 관내득표와 관외투표 결과를 보면 놀라운 상수 관계를 발견할 수 있다. 즉, 통계적으로 보면 상관관계를 나타내는 계수가 1.0으로 득표율이 100% 동일하다는 것이다.

예를 들어보자. 인천연수구을에 출마한 민주당, 통합당, 정의당 후보의 선거 결과를 보면 <표 6>과 같다. 여기에서 보면 관외 사전투표수가 관내 사전투표수의 39%에 해당한다. 즉,

●민주당 정일영의 관내 사전득표수 (15,797) X 0.391530 = 6,185

●통합당 민경욱의 관내 사전득표수 (11,335) X 0.393471 = 4,460

●정의당 이정미의 관내 사전득표수 (5,296) X 0.391427 = 2,073

으로 세 후보 모두 관내 사전득표수에 약 0.39라는 비율로 관외 사전득표수가 나왔다.

<표 6>과 같은 관외투표수가 관내투표수의 일정 상수(비율)로 나타나는 지역구가 다수 존재한다. 단 이 상수가 약간씩 다를 뿐이다. 예를 들면 성남시 분당구갑은 이 상수가 0.28, 분당구을은 이 상수가 0.29, 인천남동구갑은 0.30, 송파병은 0.31 등이다.

관외 사전득표율이 관내 사전득표율과 물론 유사하게 나올 수 있다. 그러나 일정 상수가 존재하여 상관관계가 거의 1에 가깝도록 나오는 것은 통계적으로 흔한 일은 아니다.

지난 21대 총선에서 통계적으로 일어나기 힘든 결과들에 대해 여러 가지로 나눠 조사해 봤다. 물론 각각의 사건 발생이 불가능한 것은 아니고 이것이 부정선거 여부를 증명하는 것도 아니다.  

그러나 각각의 사건이 일어날 확률이 작은 상황에서 이들이 동시에 발생할 확률은 아주 작다. 통계적으로 이해하기 어려운 매우 희귀한 사건이 발생한 것이 지난 총선이라고 볼 수 있다. 더 깊이 통계적으로 연구해볼 가치가 있는 케이스를 제공한 것이 지난 총선이었다.

박성현
서울대 통계학과 명예교수
노스캐롤라이나대 통계학 박사
전 한국과학기술한림원 원장

본 기사는 시사주간지 <미래한국>의 고유 콘텐츠입니다.
외부게재시 개인은 출처와 링크를 밝혀주시고, 언론사는 전문게재의 경우 본사와 협의 바랍니다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.