[신간] 4차 산업혁명 현장 전문가가 알려주는 빅데이터 분석과 활용
[신간] 4차 산업혁명 현장 전문가가 알려주는 빅데이터 분석과 활용
  • 김민성 미래한국 기자
  • 승인 2019.02.02 07:10
  • 댓글 0
이 기사를 공유합니다

현장 전문가가 직접 전하는 4차 산업혁명 시대에 어울리는 빅데이터 구축 노하우

이 책은 4차 산업혁명 시대에 왜 빅데이터가 중요한가에 대해 말하고, 실제로 빅데이터를 구축하려면 어떠한 기술이 필요한지 설명한다.

특히, 최근까지 다수의 빅데이터 구축 경험을 가진 현장 전문가의 설명은 빅데이터를 구축하는 데 필요한 효율적이고도 현실적인 조언이 되어줄 것이다. 나아가 빅데이터와 인공지능, 블록체인과의 연계 방안과 기술에 관해서도 설명한다. 빅데이터를 도입하거나 구축하려는 기업의 기획자나 실무자에게 유용한 자료가 될 것이다.
 

이 책의 시작을 4차 산업혁명으로 시작하는 이유가 여기에 있다. 빅데이터는 하나의 기술이고 트렌드일 뿐 더욱 중요한 것은 이러한 빅데이터를 얼마나 산업에 적용할 것인지를 고민하는 창업가의 의지와 모험심이라고 생각한다. 1부에서는 빅데이터로 인한 4차 산업혁명의 짧은 스냅샷을 보여 준다. 그리고 빅데이터가 무엇인가에 관한 사전적, 경험적 정의를 내려 준다.

아무리 실무가 중요하다고 해도 간단한 정의 정도는 내리고 출발하는 것이 좋겠다. 그리고 빅데이터가 현재 산업에 얼마나 사용되고 있는지 그 활용 사례를 보여 줌으로써 4차 산업혁명의 원유(原油)라고 하는 이유를 설명하고자 한다. 1부는 빅데이터를 그동안 잘 모르고 있었거나 피상적으로만 알고 있었던 분들이 읽으면, 짧지만 강한 여운을 남길 수 있을 것이다. 그럼, 4차 산업혁명의 미래 모습 속으로 잠시 여행을 다녀오자. 

통계분석과 데이터 마이닝, 빅데이터의 차이점을 간단히 설명하면 다음과 같다. 통계분석은 모집단에서 집단의 대표성을 가지는 표본집단으로부터 데이터를 분석한다. 그러므로 모집단으로부터 집단의 대표성을 가지는 표본집단을 얼마나 잘 추출하는가에 따라 데이터의 분석 결과가 달라질 수 있다. 표본집단 추출의 한계가 곧 통계분석의 한계로 연결된다. 이러한 통계분석의 한계를 극복한 것이 데이터 마이닝이다.

데이터 마이닝은 모집단 전체를 대상으로 분석하게 된다. 또한, 통계분석은 가설 또는 가정을 검증하는 과정인 데 반해, 데이터 마이닝은 신경망 알고리즘, 연관분석, 회귀분석, K-평균(K-means) 알고리즘 등의 수학적 분석 방법론으로 데이터를 분석하게 된다. 통계에서는 대량의 데이터를 대상으로 했을 때 한계가 있다. 이는 통계가 전체 데이터 중 부분 데이터를 다루기 때문이다. 통계가 전체 데이터를 다룰 때도 있지만, 이는 정말 특별한 경우에만 그렇다. 

빅데이터 플랫폼은 빅데이터를 생산.분석.유통시키는 시스템이다. 현대는 플랫폼 시대다. 단순히 하나의 시스템을 구축하는 것이 중요한 것이 아니라 지속적으로 개발?분석?유통할 수 있는 시스템이 필요하다. 빅데이터 역시 플랫폼을 구축하는 것이 중요하다. 빅데이터 플랫폼은 일반적인 전산 시스템 카테고리에 따라 크게 세 가지 유형으로 분류한다. 첫째, 운영계 시스템은 기간계 시스템이라고도 한다. 둘째, 분석계 시스템은 기업에서 데이터 웨어하우스라고 부르는 시스템이다. 분석계 시스템은 운영계 시스템에서 만들어진 빅데이터를 분석하는 시스템이다. 셋째, 데이터 레이크(Data Lake)는 데이터 소스가 제공하는 원시 데이터 그대로를 저장해놓은 시스템이다. 

데이터 전처리가 무엇일까? 빅데이터에서 데이터 전처리는 데이터를 특정 플랫폼 또는 시스템에 공급하기 위해 필요한 작업의 전체를 말한다. 좀 더 구체적으로 말하면 이 기종 시스템 간에서 데이터를 전송하고 적재하는 데 필연적으로 필요한 과정이 데이터 전처리다. 또한, 데이터 마이닝 및 분석을 위해 결측치를 처리하고, 데이터를 변환, 가공, 잡음 제거, 손실 데이터 보정, 데이터 형변환하는 과정을 말하기도 한다. 최근에는 비정형 데이터를 정형화(파싱, 자연어 처리)하는 과정을 말하기도 한다. 이렇게 데이터 전처리는 여러 가지 의미로 쓰인다. 

빅데이터 운영은 일반 IT 인프라 운영과 마찬가지로 기존의 IT 인프라 운영 인력이 있다면 통상 한 달 전에 인수인계 절차를 거쳐야 하며, 그렇지 않을 경우 운영 기획을 통해 개발 부서로부터의 인수, 운영 자원 및 예산 계획, 표준 지침 및 절차서를 마련하여야 한다. 빅데이터 운영이라고 해서 일반 IT 인프라 운영과 특히 다른 점은 없으나 운영 관리를 위해 필요한 업무 절차 및 산출물, 문서 양식 등은 수행 기관의 규모, 업무 분야, 시스템 종류 및 유형에 따라 다를 수 있으므로 각 기관에 맞게 운영 관리 지침 및 절차서를 반드시 수립하고 적용한다. 
 

본 기사는 시사주간지 <미래한국>의 고유 콘텐츠입니다.
외부게재시 개인은 출처와 링크를 밝혀주시고, 언론사는 전문게재의 경우 본사와 협의 바랍니다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.