직접 발표를 들은 것이 아니기 때문에 기사의 내용만 보면 플랫폼을 갖추기 전에 먼저 기업의 분석 역량을 갖추고 도입 시에는 반드시 ROI를 잘 분석해서 도입해야 한다는 의견입니다. 저는 항상 반대의 의견을 주장해 왔었습니다. 즉 무엇을 분석하기 전에 먼저 플랫폼을 갖추고 데이터를 수집하라. 무엇을 분석할지도 모르는데 ROI는 의미없다. 이 주장의 핵심은 오픈 소스와 x86 장비를 이용하여 저렴한 비용으로 플랫폼을 갖추어야 한다는 것입니다. 국내 많은 회사들은 10 ~ 20대 정도로 하둡 클러스터를 구성하면 현재 기업의 데이터를 이용하여 저장, 분석하는 작업은 대부분 수행이 가능합니다. 이 비용은 하드웨어 비용만 보면 1 ~ 2억 정도입니다. 여기에 오픈 소스 기반이니 소프트웨어 비용은 거의 들지 않으며 이를 관리하거나 기능을 만드는 엔지니어 비용으로 연 2 ~ 3명 정도 투입할 경우 전체 5억 미만으로 플랫폼을 갖출 수 있습니다. 기사에서도 막대한 비용을 들여 인프라를 갖추기 이전에 분석 역량을 가져야 한다고 하지만 기업 입장에서 5억이 막대한 비용일까요? 또 다른 관점에서 국내 많은 기업들은 데이터에 대한 관리 체계가 부족하여 부서간, 시스템간 데이터 공유가 어렵습니다. 그리고 데이터 공개가 잘 되어 있지 않아 분석하고 싶어도 데이터가 없는 경우가 대부분입니다. 이런 현실에서 데이터를 모아서 분석하는 관리 체계를 갖추어야만 분석 역량을 갖출 준비가 되는 것입니다. 아무리 해외 논문을 많이 보고 사례 연구를 많이 해도 막상 데이터가 없으면 아무것도 할 수 없습니다. 제가 포털에 있을때 몇분은 이 회사에 들어온 이유가 데이터가 있기 때문이라고 했습니다. 여러 기업의 빅데이터 프로젝트의 내부를 보면 가장 시간이 많이 걸리고 어려운 부분이 바로 데이터를 모으는 일입니다. 데이터를 모으는 시스템을 구축하는 것이 어려운 것이 아니라 부서간의 협의를 얻고 시스템을 연동하는 부분이 더 어렵다고 할 수 있습니다. 제가 주장하는 플랫폼이나 인프라는 물리적인 서버나 시스템이기도 하지만 한편으로는 이런 시스템을 구축하면서 기업 내부의 데이터에 대한 시각을 바꾸고 부서간의 협의 체계를 정의하고 데이터의 공유 범위를 정의하는 등의 프로세스를 만드는 것도 포함하고 있습니다. 닭이 먼저냐 달걀이 먼저라는 논란에서 빠져 나올 수 있는 방법은 지금 당장 실행할 수 있는 것을 하면서 그것이 닭인지 달걀인지 스스로 알아나가는 것이 최선이라고 생각합니다. 여러분들은 어떻게 생각하시나요?