[서평] 통계적으로 생각하기... 빅데이터 세상을 꿰뚫어 보는 힘
[서평] 통계적으로 생각하기... 빅데이터 세상을 꿰뚫어 보는 힘
  • 김민성 기자
  • 승인 2017.02.02 07:02
  • 댓글 0
이 기사를 공유합니다

이 책은 통계적 사고방식에 대한 안내서이다. 개념적인 접근 방식으로 수학적·과학적·분석적 사고에 대한 저술과 강연 활동을 활발히 전개해온 저자는, 이 책을 통해 정식으로 통계학을 공부하지 않고도 통계학자처럼 생각하는 법을 알려준다. 책에 소개되는 예시는 매우 일상적이다. 다른 사람들이 무능하다고 생각하는 상사의 근거 없는 자신감을 ‘선택 편향’으로 해석하고, 마크 저커버그를 일반적인 사례로 사용할 수 없는 이유를 ‘내생성’ 문제로 설명하며, 애인이 바람피우고 있는지를 판단하기 위해 ‘베이즈의 정리’를 활용한다. 

수학을 포기한 인문계 학생, 평범한 직장인 등 누구나 쉽게 이해할 수 있도록 복잡한 수학 공식이나 전문 용어를 사용하지 않고 예시를 통해 이야기하듯 설명한다. 이 책으로 통계학 전반을 이해했다고 할 수는 없어도 일상생활에서 더 좋은 결정과 판단을 내릴 수 있는, 정말 통계적으로 사고할 수 있는 방법을 배울 수 있을 것이다. 

규모를 가늠할 수 없을 정도로 엄청난 양의 정보가 넘쳐나는 빅데이터 시대이다. 그러다 보니 데이터를 저장, 처리, 분석하는 업무를 전문적으로 하는 ‘데이터 과학자’가 유망 직종으로 떠오르고 있다. 데이터 과학자는 《하버드 비즈니스 리뷰》에서 21세기 가장 유망한 직업으로, 세계 최대 직장 평가 사이트인 글래스도어에서 인기 직업 1위로 선정되기도 했다. 구글의 수석 경제학자인 할 배리언이 “향후 10년간 가장 섹시한 직업은 통계학자일 것이다”라고 말한 것도 같은 맥락에서 해석할 수 있다. 데이터 과학은 통계학을 기반으로 하기 때문이다. 

우리나라에서도 통계와 빅데이터 시대에 발맞춰 여러 변화들이 일어나고 있다. 서울대에서 자유전공학부의 학생들이 가장 선호하는 전공으로 통계학과가 급부상했고, 여러 기관이나 기업체들도 통계와 빅데이터를 주제로 사내 교육 프로그램을 실시하고 있다. 

그런데 다양하고 방대한 규모의 데이터를 해석하여 의미 있는 자원으로 활용하는 능력은 전문가에게만 필요할까? 물론 아니다. 빅데이터 시대에 살아남기 위해서, 더 나아가 남보다 한발 앞서기 위해서는 누구라도 세상을 제대로 보는 눈, 즉 통계적 사고 능력이 필요하다. 

얼마 전 치러진 제45대 미국 대통령 선거의 결과는 한마디로 대반전이었다. 선거 하루 전까지만 해도 CNN, 《뉴욕 타임스》, 《워싱턴 포스트》 등 대다수의 미국 언론들은 민주당 힐러리 클린턴 후보의 당선 확률을 84~90%로 발표하며 힐러리의 승리를 확신했다. 하지만 일방적인 예상과 달리 대선에서 승리한 후보는 공화당 도널드 트럼프였다. 트럼프의 당선을 예측할 수 없었던 원인 중 하나로 ‘샤이 트럼프’ 현상을 지적한다. 언론사와 여론조사 기관이 트럼프의 부정적 이미지 때문에 공개적으로 자신을 드러내지 못한 트럼프 지지자들이 많다는 것을 읽지 못한 것이다. 

1948년 미국 대선에서도 모든 여론조사 기관들이 당선자 예측에 실패했다. 당시로서는 가장 대규모의 과학적 유선 조사를 실시한 후 확신을 가지고 공화당의 승리를 예측했지만 민주당 해리 트루먼이 ‘뜻밖의 승리’를 거둔 것이다. 예측에 실패한 주요 원인은 여론조사 표본의 선택 편향이었다. 당시 유선전화는 공화당을 지지하는 부유한 계층이 주로 소유했기 때문에 여론조사 결과 또한 편향될 수밖에 없었던 것이다. 

통계는 대통령 선거 여론조사나 국가의 정책 결정, 기업의 전략 수립에 중요한 영향을 미칠 뿐만 아니라, 일상생활에서 개인의 의사결정을 도와주는 훌륭한 근거로 작용하기도 한다. 일요일 아침 시장에 복숭아를 사러 갈 때, 우리는 자신도 모르는 사이 통계적 사고를 한다. 복숭아를 들어 살짝 찔러도 보고 흔들어도 보고 어디 상한 부분이 없는지 꼼꼼히 확인한 후 복숭아가 좋아 보이면 20개들이 한 박스를 구입한다. 처음 몇 개의 복숭아라는 작은 표본을 이용해 전체 복숭아 모집단의 상태를 추론한 것이다. 

통계적으로 생각할 때 좀 더 주의해야 할 점은 처음 몇 개의 복숭아가 무작위로 선택된 것인지를 고려해야 한다는 것이다. 가게 주인이 당신을 다시 찾지 않을 손님으로 생각하고 가장 상태가 좋은 복숭아 몇 개를 보여주어 나머지 복숭아 상태가 안 좋은 것을 속일 수도 있는 것이다. 이와 같은 문제가 바로 비무작위 표본을 무작위 표본인 것처럼 생각하고 사용할 때 발생하는 오류, 즉 선택 편향이다. 

이처럼 이 책은 일상생활에서 누구라도 한 번쯤은 생각해보았거나 경험해보았을 법한 사건들을 예시로 들어 통계학의 핵심 개념인 선택 편향, 내생성, 베이즈의 정리 등을 설명한다. 평균 학점이 학생의 노력과 학업 능력을 제대로 측정하지 못하는 이유, 아이스크림 판매량과 익사자 수의 상관관계, 친구가 추천한 식당이 맛집일 확률, 전혀 인기가 없을 것 같은 사람이 데이트를 많이 하는 이유 등과 같이 말이다. 

하지만 ‘통계’라는 말만 들어도 손사래를 치는 사람이 많다. 복잡한 수학 공식은 말할 것도 없고 표준 편차, 회귀분석, 카이제곱 분석, t 검정 등 듣기만 해도 어렵게 느껴지는 전문 용어들이 통계를 가까이하지 못하게 가로막고 있는 것이다. 저자는 우리가 살아가는 세상을 조사하고 해석하는 데 매우 큰 도움을 주는 통계 개념을 이해하기 위해서 꼭 통계 기술을 배울 필요는 없다고 말한다. 그리고 이 책에서 복잡한 수학 공식이나 전문 용어를 사용하지 않고 이야기를 통해 쉽고 재미있게 통계 개념을 설명한다. 

통계학도 빅데이터 시대에 맞춰 변화하고 있다. 과거에는 제한된 정보를 가지고 어떻게 하면 좋은 통계적 추론을 이끌어낼 수 있을 것인가를 고민했다면, 현재에는 너무도 많은 정보를 어떻게 정리해야 더 편리하게 사용할 수 있을 것인가로 바뀌었다. 하지만 정보가 많다고 꼭 좋은 것은 아니다. 많은 정보들이 그 목적에 맞게 올바르게 사용되기도 하지만 과장, 왜곡, 편향되어 사용되고 있는 것 또한 현실이다. 정보를 바르게 읽어내는 능력, 즉 통계적 사고가 무엇보다도 중요한 시대인 것이다. 

이 책을 읽고 나면 일상생활에서 어떤 정보를 접했을 때 ‘이 정보가 편향되어 있지 않을까?’ 혹은 ‘이 정보의 상관관계와 인과관계를 혼동하여 잘못 생각하고 있지는 않을까?’, ‘혹시 어떤 정보가 누락된 것은 아닐까’라고 생각해볼 수 있을 것이다. 이러한 간단한 사고의 차이가 좀 더 나은 결정과 판단을 내리는 데 결정적인 역할을 하며, 그렇게 조금이라도 더 나은 판단을 내리다 보면 나중에는 개인의 미래에 큰 차이가 발생할 것이다

본 기사는 시사주간지 <미래한국>의 고유 콘텐츠입니다.
외부게재시 개인은 출처와 링크를 밝혀주시고, 언론사는 전문게재의 경우 본사와 협의 바랍니다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.