[신간] 나는 감이 아니라 데이터로 말한다...팩트의 홍수에서 진실을 골라내는 데이터 읽기의 기술
[신간] 나는 감이 아니라 데이터로 말한다...팩트의 홍수에서 진실을 골라내는 데이터 읽기의 기술
  • 김민성 미래한국 기자
  • 승인 2019.02.27 06:32
  • 댓글 0
이 기사를 공유합니다

2016년 러시아 월드컵 조별예선 3차전인 한국 대 독일. 긴박한 접전이 이어지던 후반 48분, 한국이 독일의 골문을 열어젖히자 TV 앞에 숨죽이던 수많은 사람들이 열광적인 환호를 쏟아내기 시작한다. 뉴스는 기존 방송을 멈추고 연신 한국의 골 장면을 하이라이트로 보여주기에 바쁘다.

그런데 데이터 전문가는 치켜든 맥주와 환호성에 휩쓸리지 않고 심장마비 데이터를 꺼내든다. “월드컵 기간 동안 뮌헨 지역에서 발생한 심장 관련 응급 환자를 분석하면, 월드컵이 없던 해에 비해 무려 2.66배나 심장 질환자가 늘었습니다. 남성은 3.26배, 여성은 1.82배로 남성에게 그 피해가 더 분명했습니다.”(69쪽) 다른 한 손에는 주가 데이터가 들려 있다. “주요 국제 경기에서 축구 국가대표팀이 패배하게 되면, 다른 변수를 통제했을 때 다음 날 해당국 주가는 0.5퍼센트 정도 하락합니다. 축구에서 진 국가의 투자자들이 기분이 나빠져서 향후 시장을 비관적으로 보기 때문입니다.”(72쪽) 

어떻게 월드컵 결승골에서 사람의 목숨을 결정하는 심장마비 발생률과 경제의 핵심축인 주식시장의 흐름을 읽어낼 수 있을까? 데이터 전문가는 하나의 팩트를 세밀하게 해부해 데이터들을 추출하고 이를 다양하게 조합해가며 복잡한 세상의 작동방식을 읽어낸다. 사소하게는 집에 책을 몇 권이나 가지고 있는 게 적절한지부터 가격표에 속지 않고 물건을 구매하는 방법뿐 아니라, 정치인을 잘 선택하는 법이나 사회 불평등을 줄이는 효과적인 정책 같은 거대한 문제도 데이터만 제대로 읽으면 답을 찾을 수 있다.
 

세상을 바라보는 당신의 눈은 당신이 어떤 데이터를 선택하고 조합하느냐에 따라 달라진다. 20년 넘게 학계, 기업, 정부를 넘나들며 데이터를 다뤄온 저자는 이 책에서 마치 8시 뉴스를 튼 것처럼 정치, 경제, 문화, 스포츠 등 전 분야에 걸친 이슈들을 데이터와 최신 연구자료를 통해 분석하고 세상사의 숨은 진실을 드러낸다. 

야구는 한국인들이 가장 사랑하는 스포츠다. 매해 700만 관중이 경기장을 찾고, 미국 메이저리그에 진출한 한국선수들의 경기는 빼놓지 않고 생방송으로 방영될 정도다. 이런 높은 관심 때문인지 야구에서는 심판 판정의 공정성 논란이 끊이지 않는다. 그런데 데이터를 살펴보면 심판 판정의 편향성에는 심판의 자질만이 아닌 인간의 집단 심리가 상당한 영향을 끼치고 있음을 보여준다.

실제로 많은 야구팬들은 투 스트라이크나 스리 볼 상황에서는 심판이 판정으로 타자를 아웃이나 출루시키지 말아야 한다고 생각한다. 심판이 아닌 선수들의 직접 행동으로 경기가 진행되길 원하기 때문이다. 그런 집단 무의식은 심판에게도 그대로 전달된다. 실제로 2008~2012년 메이저리그 150만 건의 투구를 분석해보면 심판은 연속 스트라이크 이후에는 다음 공이 스트라이크존에 들어와도 스트라이크 판정을 줄였고, 스리 볼 상황에서는 다음 공이 스트라이크존을 벗어나도 스트라이크 판정을 늘렸다. 더군다나 올스타전에 참여한 횟수가 높을수록(즉 관객이 사회적 지위가 높다고 인정하는 투수일수록), 심판은 유리한 볼 판정을 내렸다. 

데이터는 집단 심리가 4차 산업혁명의 최대 논쟁거리인 인공지능의 설계에도 강력한 영향을 끼칠 수 있음을 보여준다. 만약 도로를 달리는 자율주행차 앞에 갑자기 두 명이 뛰어들었다고 하자. 자율주행차는 핸들을 돌려서 인도에 서 있는 한 명을 희생시켜야 할까, 그대로 직진해서 이 두 명을 희생시켜야 할까? 이에 대한 4,000만 명의 응답자료를 분석한 데이터를 보면 아이, 성인 여성, 성인 남성 순으로 목숨을 가치 있게 여긴다고 나타난다.

그런데 데이터는 사람들이 노숙자와 범죄자, 심지어 뚱뚱한 사람을 등급이 낮은 목숨으로 여긴다는 것도 함께 보여준다. 국가별로도 가치 있는 목숨을 평가하는 기준이 달랐다. 프랑스, 영국, 미국에서는 두 명을 구하기 위해 한 명을 희생시키려는 성향이 강했지만, 반대로 한국, 중국, 일본에서는 이에 대해 강하게 저항했다. 이제 무인 자동차를 만드는 제조업자는 어떤 결정을 내려야 할까? 설문조사대로 여성과 아이들의 생명에 가중치를 주어야 할까? 노숙자와 비만인의 목숨은 낮추어야 할까? 국가별로 다른 판단 기준으로 설계해야 할까? 이처럼 데이터는 복잡미묘한 인간 심리에서 문화적 패턴을 읽어내고 그것이 일상의 오락거리부터 미래의 핵심 기술에까지 영향을 미칠 수 있음을 보여주면서 우리를 논쟁의 한복판으로 이끈다. 

한국뿐만 아니라 전 세계가 플라스틱 폐기물 때문에 골치를 썩고 있다. 데이터는 전 세계 플라스틱 생산량의 단 9퍼센트만이 재활용되고 있으며, 이 상태가 지속될 경우 2050년에는 바다에 물고기보다 플라스틱이 더 많아질 것이라며 우리에게 경종을 울린다. 그런데 이 데이터에 사람들이 자기 이름에 정체성을 강하게 부여한다는 데이터를 결합하면 어떤 결과가 도출될까? 실제로 자기 이름이 적힌 종이컵의 재활용률이 이름이 적혀 있지 않은 종이컵의 재활용률보다 두 배 이상 높았다.

정체성은 꼭 이름에만 해당되는 걸까? 학생들을 두 그룹으로 나눠 첫 번째 그룹은 졸업생의 성공을 담은 기사를, 두 번째 그룹은 졸업생의 범죄를 담은 기사를 읽게 한 뒤 학교 로고가 박힌 종이컵을 나눠줬을 때 첫 번째 그룹이 두 번째 그룹에 비해 종이컵 재활용률이 3배 이상 높았다. 폐기물 데이터와 이름 애착 데이터, 브랜드 가치 데이터를 연결시킴으로써, 재활용률을 높여줄 수 있는 데이터를 새롭게 만들어낸 것이다. 

일상에서 겪는 사소한 고민도 어떤 데이터를 가지고 살펴보느냐에 따라 거대한 사회 변화를 이끌어낼 수 있다. 아이를 키우는 부모라면 아이를 위해 집에 책을 몇 권 정도 구비해놓아야 하는지, 사놓은 책은 어떻게 하면 끝까지 읽게 만들지 고민한다. 그런데 책을 가지고만 있어도 아이의 인지능력이 상승하고, 그 효과가 최대 350권으로 늘어날 때까지 이어진다는 OECD 데이터는 부모의 고민을 해결해주는 과학적 지표가 되어준다. 그런데 그 위에 한국의 주거 데이터를 포개보자. 한국에서는 주택의 자가보유율이 57퍼센트에 불과하고, 이로 인한 잦은 이사로 책을 소장하는 것이 부담스러운 상황이다.

이처럼 가정 내 물리적인 책 보유가 어렵다면, 공공도서관을 늘릴 필요가 있다. 그런데 여기에 다시 공공도서관 이용실태 데이터를 결합해보자. 도시보다는 읍면에서 도서관 이용률이 훨씬 떨어진다는 것을 확인할 수 있다. 무조건 공공도서관을 확충하기보다 지역 특성에 따라 다양한 독서프로그램을 개발할 필요가 있음까지 데이터가 보여주고 있는 것이다. 이처럼 우리의 현실을 부정적으로 보여주는 데이터들도 새로운 데이터와 결합하는 순간 세상을 변화시키는 놀라운 정책과 방향을 제시한다. 데이터를 어떤 관점에서 바라보고 창의적으로 결합시키느냐에 따라, 누구도 생각지 못한 질문과 해답까지 구할 수 있다. 

데이터는 한국 사회를 뜨겁게 달구고 있는 젠더 불평등 문제를 어떻게 바라볼까? 남편과 아내의 소득수준 답변 데이터는 ‘남편은 집안 경제를, 아내는 집안 살림을 책임져야 한다’는 전통적 관념이 어떻게 체계적으로 데이터까지 왜곡하는지 보여준다. 한국보다 여성들의 경제활동 참가율이 높은 미국에서 부부의 소득 수준 응답과 국세청에 등록된 실제 소득 데이터를 비교 검토하면, 아내가 남편보다 소득이 더 높을 경우 아내는 소득을 낮춰 부르고, 반대로 남편은 아내보다 소득을 높게 부르는 경향이 드러났다.

이처럼 남녀에게 부여된 가부장적 젠더 상을 부수고, 여성의 경제활동 참가율을 늘릴 수 있는 효과적인 방법은 무엇일까? 데이터는 아내를 집 바깥으로 나오게 하는 것이 아니라, 아빠를 집 안으로 들어가게 하는 전략을 제안한다. 스웨덴을 시작으로 유럽의 여러 국가로 확산된 아빠 육아할당제는 아빠에게 육아휴가를 강제로 부여한다. 이를 분석한 데이터는 아빠가 아이의 육아에 적극 참여할 경우, 아이의 언어 및 인지능력이 향상되고, 성적이 오르며, 정서적으로 안정되고, 친구들과의 관계도 더 좋아지는 ‘아빠 효과(father effect)’가 발생한다는 것을 보여준다. 여성의 경제활동 참가율이 59퍼센트로 OECD 국가 중 5번째로 낮고 남녀 임금격차는 최대인 한국에서, 이 데이터는 남자의 가사와 육아활동을 강제적으로 보장하는 제도적 장치가 젠더불평등을 교정하는 강력한 수단이 되어줄 수 있다고 말한다. 

데이터는 한국 사회의 최대 화두인 불평등의 원인을 어떻게 진단할까? 데이터는 30년 전 탈옥범 지강헌이 외친 ‘유전무죄 무전유죄’가 오늘날 ‘3·5의 법칙’으로 새롭게 업데이트되었음을 보여준다. 이 말은 ‘징역 3년, 집행유예 5년’을 줄인 말로, 징역형이 3년 이하일 때만 집행유예를 선고할 수 있는 법을 한국 법원이 악용해 재벌을 석방하는 경향을 비꼬는 말이다. 실제로 재벌 피고인이 3·5의 법칙을 통해 석방되는 비율이 78퍼센트에 달한다는 걸 데이터는 보여준다. 법뿐만이 아니다.

부자들은 기부금을 통해서 정치권에 상당한 힘을 과시하고 있다. 미국의 데이터를 보면 일반인들이 압도적으로 지지하는 정책이나 거의 지지하지 않는 정책이나 모두 30퍼센트 실현율을 보이지만, 부자들이 지지하지 않는 정책은 5퍼센트, 압도적으로 지지하는 정책은 60퍼센트 이상 실현되었다. 이 데이터들을 종합해보면 부자들이 법원을 통해서는 처벌을 회피하고 정치권을 통해서는 자신들에게 유리한 정책을 펼치고 있음을 확인할 수 있다.

사회 불평등을 해소하기 위해서는 무엇보다 부자들이 정치기부금을 통해 정책에 영향을 끼치는 것을 제한하고, 사법개혁을 통해 재벌 범죄에 대한 처벌 수위를 높여야 한다는 것을 알 수 있다. 데이터는 우리에게 차별과 불평등이 어떤 방식으로 작동하는지 날것 그대로 보여주면서, 기울어진 운동장을 평평하게 만드는 효과적인 방법이 무엇인지도 함께 제시한다. 

우리는 자신의 경험이 세상의 전부라고 믿는 경향이 있다. 저자는 주변에서 쉽게 접할 수 있는 다양한 사례를 데이터를 통해 분석하고, 우리 경험에 숨어 있는 오류와 편견을 바로잡아 준다. 넘쳐나는 정보와 맥락 없는 세계에서 길을 잃은 독자에게 이 책은 세상사의 흐름을 꿰뚫는 강력한 인사이트를 제공해줄 것이다.

본 기사는 시사주간지 <미래한국>의 고유 콘텐츠입니다.
외부게재시 개인은 출처와 링크를 밝혀주시고, 언론사는 전문게재의 경우 본사와 협의 바랍니다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.