"미래의 인재는 데이터 사이언스에서 나온다"
"미래의 인재는 데이터 사이언스에서 나온다"
  • 박성현 미래한국 편집위원 서울대 명예교수
  • 승인 2018.06.14 12:00
  • 댓글 0
이 기사를 공유합니다

4차 산업혁명 시대의 데이터 사이언스의 역할과 미래비전

4차 산업혁명은 인공지능, 빅데이터, 사물인터넷(IoT), 클라우드 컴퓨팅, 자율주행 자동차 기술 등으로 불리는 소프트웨어와 데이터 기반의 지능 디지털 기술(intelligent digital technology) 혁명을 말한다. 이 혁명은 우리의 산업과 생활방식을 급격히 바꿔 놓고 있으며, 인류 문명에 주는 충격도 엄청날 것으로 예상된다.

4차 산업혁명 적응 상태에 대한 2016년 글로벌 평가(UBS. 스위스연방은행)는 한국이 조사대상 국가 139개국 중에서 25위로 낮은 수준이다. 5개 부문별 평가에서 한국은 기술수준(23위), 교육시스템(19위), SOC 수준(20위)은 그렇게 나쁘지는 않은 편이나, 노동시장 유연성(83위)과 법적 보호(62위)에서 가장 취약점을 나타내고 있다.

우리나라가 노동시장이 유연하지 않은 것은 잘 알려진 사실이며 법적 보호는 4차 산업혁명과 관련된 새로운 기술 개발들이 각종 규제 법안에 묶여 보호를 받지 못하는 것을 의미한다. 예를 들면 빅데이터 활용에 제약을 주고 있는 개인정보호보호법, 원격진료를 막는 의료법, 자율주행차 시험운행을 허용하는 규제프리존특별법이 제정되지 않는 것, 폭넓은 비행금지구역 설정으로 드론 연구 개발이 어려운 것 등이다.

빅데이터 시대의 도래와 정보통계학의 발전

빅데이터는 4차 산업혁명 기술의 총아이며 우리 사회 전반에 빅데이터가 주는 영향은 막강하다. 데이터는 그 생산방식에 따라서 구조적 데이터(structured data. 정형 데이터)와 비구조적 데이터(unstructured data. 비정형 데이터)로 나눌 수 있다. 구조적 데이터는 정해진 서식에 따라 특정 형식에 맞춰 잘 구조화되어 관리되는 데이터이다.

이와 반면 비구조적 데이터는 데이터 하나하나마다 크기와 내용이 달라 통일된 구조로 정리하기 어려운 데이터로, SNS 관련 데이터, 언론사나 포털 사이트에 뜬 뉴스 게시물, 유튜브에 올라와 있는 동영상, 음악, 사진, CCTV 정보 등 다양한 데이터이다. 일반적으로 빅데이터는 비구조적 데이터를 다량 포함하고 있는 엄청나게 큰 규모의 데이터와 그 처리기술을 말한다.

과거 1차 산업혁명에서는 석탄과 철이 주요한 역할을 했고, 2차 산업혁명에서는 전기가, 3차 산업혁명에서는 컴퓨터의 등장으로 정보혁명이 시작되었다. 최근에는 정보 폭발 시대를 맞아 다양한 경로로 취합된 빅데이터에서 숨은 정보와 새로운 지식을 발굴해 혁신을 도모하려는 노력이 모든 분야에 확산되면서 빅데이터가 차세대 지식혁명을 이끌 주역으로 부상하고 있다.

빅데이터를 분석, 가공해 새로운 비즈니스 기회를 발굴하고 소비자 행동과 시장 변동을 예측하는 것이 기업 혁신을 폭발적으로 증가시키고 있으며, 빅데이터 플랫폼을 잘 이용하는 기업들은 승승장구하고 있다.

빅데이터의 초기 사례를 들어보자. 2008년 네덜란드에서 창업한 스파크드(Sparked) 회사를 보자. 이 회사는 수 만 마리의 소에 센서를 부착해 소에 대한 정보를 실시간으로 수집했다. 이렇게 축적한 연간 약 200MB의 정보를 이용해 축산업자가 소에 대한 움직임, 건강 등을 수시로 확인 가능하게 해주며, 기후 변화 등 외부 빅데이터와 결합해 소의 사육 방식을 정밀화해서 더 많은 소를 건강하게 키울 수 있도록 지원했다. 이런 시스템 덕분에 스파크드는 소 한 마리당 세계 최고 수준의 우유 생산량을 기록할 수 있었다.

또한 빅데이터는 필요한 정보를 신속 정확하게 창출해 사회적 문제 해결에 큰 역할을 하고 있다. 대표적인 예를 들면, 2005년 런던 지하철 폭탄 테러 사건의 용의자 검거의 일등공신은 CCTV였다고 한다. 용의자들의 모습이 찍힌 버스와 지하철 내의 CCTV의 빅데이터 분석을 통해 결정적 단서를 잡았다고 한다. 영국 경찰청의 빅데이터 분석 실력이 높음을 증명하고 있는 것이다. 이처럼 빅데이터 분석은 사회의 중요한 문제를 해결하기 위해 과거에는 하기 어려웠던 새로운 정보 창출 능력이 탁월하다.

빅데이터는 엄청난 양의 데이터이며, 데이터로부터 유용한 정보를 추출해 내기 위해서는 통계적 분석 방법을 거치지 않을 수 없다. 따라서 빅데이터는 통계학과 불가분의 관계에 있다. 빅데이터 시대가 도래하면서 컴퓨터를 활용해 빅데이터로부터 정보를 정확하고 순발력 있게 얻어내는 통계적 방법들이 최근 주요 연구 대상이 되며, 이런 분야를 연구하는 통계학을 정보통계학(informative statistics)이라고 부르기도 한다.

통계학에서 사용되는 모든 통계적 방법이 빅데이터 분석에 사용될 수 있으나, 비교적 많이 사용되는 것은 데이터 마이닝(data mining), 군집분석(cluster analysis), 동적 그래픽스(dynamic graphics), 데이터 시각화(data visualization) 등이 있다. [박성현 등 2016]의 저서 <통계로 풀어가는 빅데이터>(한국표준협회미디어, 서울)에는 빅데이터와 사례와 빅데이터 분석 방법에 대한 상세한 설명이 되어 있다.

데이터 사이언스란?

4차 산업혁명의 근간에는 다량의 데이터를 소프트웨어와 연계해 신속정확하게 정보를 창출하고 활용하는 과학이 중요성을 띠고 있다. 이런 학문을 데이터 사이언스(data science)라고 부른다.

데이터 사이언스는 데이터의 수집과 저장에 필요한 데이터 프로세싱 기술과 데이터 분석에 관한 지식(통계학, 데이터 마이닝, 머신 러닝 등)을 기반으로 다량의 데이터로부터 패턴을 찾아내고, 통계적 추정, 예측 모델링 등을 통해 필요한 정보를 창출하고, 이를 실제로 활용하는 것을 연구하는 융합과학(convergence science)이다. 21세기가 시작된 지 오래되지 않았지만 어쩌면 21세기 사회 발전에 가장 기여도가 큰 학문은 데이터 사이언스가 될 것이라고 예측된다.

데이터 사이언스란 용어는 [Naur 1974] 교수의 저서 <Concise Survey of Computer Methods>(Studentlitteratur, Sweden)에서 처음으로 등장했다고 한다. 그 후 1996년 국제분류학회연합(IFCS)에서 공식적으로 이 용어가 사용되었고, 2002년에는 학회지로 <Data Science Journal>이 발행되면서 보편화되기 시작했다. Wikipedia 사전은 데이터 사이언스 프로세스로 <그림 1>을 제시했다.

이 그림에서 보면 원시데이터를 먼저 수집(raw data collected)하고, 이를 프로세싱해(data is processed) 정리하고 저장해야 한다. 다음으로 잘못된 데이터를 제거해 깨끗한 데이터(clean dataset)를 만드는 작업을 수행해야 한다. 여기까지는 주로 전산과학(computational science)의 연구영역이다.

다음 단계는 탐구데이터분석(exploratory data analysis)과 모델링(models & algorithms)으로 이는 통계학 및 응용수학의 연구영역이다. 그 다음 단계로는 소통하고 시각화해 보고서(communicate, visualize and report)를 작성하고 의사결정에 중요한 정보를 제공하는 것이다.

이는 전문 학문 영역(예로, 경영학, 산업공학, 보건학 등)의 영역이라고 볼 수 있다. 데이터 결과물(data product)은 현실을 정확히 반영해야 하며, 이는 다음 단계의 원시데이터 수집에 가이드라인 역할을 하는 것이다. 즉, 데이터 사이언스는 전산과학, 통계학, 응용수학, 전문 학문(경영학, 산업공학, 보건학 등) 등의 융합학문이라고 볼 수 있다.

데이터 사이언스에서는 어떤 과목을 공부하는가

데이터 사이언스는 신학문으로 어떤 과목을 공부해야 할지 정확히 명시된 기준은 없다. 그러나 미국에서 데이터 사이언스 대학원 과정을 개설한 60여개 대학의 과목을 살펴보면 다음과 같이 세 분야의 과목이 주로 다뤄지고 있다.

(1) 전산과학 분야 과목: 프로그램밍, 데이터 저장 및 정보검색, 데이터 베이스(DB) 관리, 머신 러닝(machine learning), 빅 데이터 관련 기술(Hadoop, 텍스트 마이닝, 오피니언 마이닝 등), 알고리즘(algorithms) 등

(2) 통계학 및 응용수학 분야 과목: 탐구데이터 분석(exploratory data analysis), 선형통계분석, 다변량통계분석, 데이터 마이닝(data mining), 동적 그래픽스(dynamic graphics), 데이터 시각화 방법(data visualization methods), 통계 예측 모델링(statistical prediction modelling), 다변량 통계, 통계 소프트웨어(R, SAS, SPSS, Minitab 등) 등

(3) 경영학(산업공학) 등 기타 전문 영역 과목: 소셜 네트워크 분석(SNS), 커뮤니케이션 스킬(communication skill), 운영연구(OR), 고객만족 품질경영, 연구방법론(research methods), 경영최적화와 시뮬레이션, 빅데이터 프로젝트 등

물론 위의 과목은 수가 많으므로 학교의 특성에 따라 필수과목과 선택과목 등으로 구분해 과정을 운영하고 있다. 우리나라에서도 2014년부터 데이터 사이언스 석사과정을 설립하기 시작했으며, 국민대, 단국대, 성균관대, 건국대, 서울과학기술대, 세종대 등의 31개 대학에서 대학원 과정을 운영하고 있다.

데이터 사이언스와 통계학은 얼마나 인기가 있을까?

데이터 사이언스를 전공한 인재를 데이터 사이언티스트(data scientist)라고 부른다. 직업 알선과 직장연봉 비교 사이트로 유명한 글래스도어(Glassdoor.com)는 2016년 일과 삶의 균형(work-life balance; WLB)측면에서 가장 좋은 직업 상위 29개를 공개한 바 있다.

일과 삶의 균형은 재택근무, 출퇴근 시간 자유, 만족도, 연봉 등을 종합해 판단하는 것이며, 높은 연봉이라고 해서 반드시 좋은 직업은 아니다. 또한 일과 삶의 균형은 회사(일)와 가정(개인생활)을 적절하게 분리해 균형을 유지할 수 있는 것에 초점을 맞추고 있다. <도표 2>에 공개한 리스트에서 데이터 사이언티스트는 3위에 올라 있다. 즉, 데이터 사이언티스트는 이미 최고 인기 직종군으로 부상하고 있는 것이다.

주목할 점은 29개 업종 중에서 반 이상이 IT와 데이터 관련 기술 분야의 직종이라는 것이다. 4차 산업혁명 시대에는 확실히 고유 기술을 가진 전문가가 사회로부터 대접을 받는 것이다. 데이터 분석가는 20위로 되어 있는데, 데이터 분석가는 기업에서 생산되고 수집되는 각종 데이터를 분석하고 결과를 보고서로 작성하는 기존의 통계분석가를 의미한다.

데이터 사이언티스트는 분석, 결과를 넘어 산업연관분석과 미래 지향적인 시사점을 도출해 기업의 생존전략에 필요한 비법을 제시하는 것을 주요 업무로 한다. 따라서 데이터 사이언티스트는 통계분석가를 넘어 사회, 경제, 경영 등 여러 학문의 융합하여 시너지를 낼 수 있는 인재를 말한다.

대학생들이 대학원에 진학할 때 ‘어떤 전공이 나에게 맞고, 미래 성장 가능성이 있을까?’라며 궁금해 하는 경우가 흔하다. 하고 싶은 전공분야가 연봉도 높고 직업 만족도까지 충족된다면 금상첨화이다. 미국 포춘지(Fortune)는 2016년 최고의 15개 전공학위 분야를 <도표 3>과 같이 발표했다. 포춘지의 조사에서는 데이터 사이언티스트는 빠져 있는데, 이는 아직도 데이터 사이언스 전공분야가 시작된 지 오래되지 않아 학위 배출자가 적어 넣을 수 없어서 제외된 것이다.

이들 순위는 단순 설문조사가 아니라 연봉(salary), 장래 직업 성장 가능성(projected growth in jobs by 2024), 직업 만족도(highly satisfied) 등을 종합해 심층적으로 분석한 후 순위를 낸 것이라 신뢰성이 높다.

보통 높은 연봉을 받으면 좋은 직장이라고 말하지만 삶의 질(quality of life)이 중요해지고 있는 현재에는 연봉만 높다고 우수한 직업을 가졌다고 말하기 힘든 시대로 변해버렸다. 포춘지는 생물통계학(biostatistics) 석사가 장래 직업성장 가능성이 23.0%로 가장 높고 10만 6000달러의 비교적 높은 연봉으로 1위로 선정했다.

상위 5개 직업을 살펴보면 장래 직업 성장성과 연봉이다. 즉, 연봉과 장래 직업 성장성이 상대적으로 높으면 최고의 전공 분야인 셈이다. ‘상위 5’의 장래 직업 성장성은 최고 23.0%, 최저 11.3%, 연봉은 최고 14만 7000달러, 최저 10만 6000달러이다.

그리고 상위 5의 전공분야는 생물통계학, 통계학, 컴퓨터 과학, 경제학, 응용수학으로, 데이터 사이언스와 밀접한 관계가 있는 학문들이다. 1위와 2위를 차지하고 있는 생물통계학과 통계학은 직업 성장 가능성도 높고 직업 만족도도 좋으며, 연봉도 좋은 편이라 유망한 직종이라고 하겠다. 이런 결과는 빅데이터 시대 도래에 따라 데이터분석, 정보 추출, 미래 예측에 대한 수요가 급증하고 있기 때문이다.

박성현  미래한국 편집위원· 서울대 명예교수, 전 한국과학기술한림원 원장

본 기사는 시사주간지 <미래한국>의 고유 콘텐츠입니다.
외부게재시 개인은 출처와 링크를 밝혀주시고, 언론사는 전문게재의 경우 본사와 협의 바랍니다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.