몽고DB 쓰지 마세요...라는 기사를 보며

몽고DB 쓰지 마세요 라는 기사가 나왔습니다.

http://www.bloter.net/archives/103400


기사의 내용이 진의 여부를 가리기 전에 이런식의 기사는 문제가 많다고 생각합니다. 시스템을 구축하는데 있어 모든 상황을 만족시켜주는 솔루션(은총알)은 없는 것과 마찬가지고 어느 정도 완성도가 있는 솔루션이라면 요구사항에 따라 아주 잘 사용될 수도 있습니다.
몽고 DB가 어떤 문제를 가지고 있다 하더라도 어떤 업무에서는 아주 잘 동작하고 최선의 선택이 될 수도 있는데 무턱대고 쓰지 말아야 한다는 식으로 선입견을 주는 것이 잘못된 것이 아닌가 생각합니다.
이 기사를 관리자가 보게 되었을 때 그 개발 조직에서는 MongoDB가 최적의 솔루션임에도 불구하고 개발자가 관리자를 설득하는게 훨씬 더 힘들어 질 것입니다.
언론에서 기사를 내기 위해서는 단정을 짓기 전에 장단점, 해당 솔루션이 사용되기 좋은 상황, 사용하지 말아야 할 상황 등과 같은 정보를 제공했어야 기사로써의 가치가 있지 않을까요?
기사에서 언급한 HBase, Cassandra도 일부 문제점을 가지고 있습니다. 그러면 이들 솔루션도 쓰지 말아야 할까요?
물론 아직까지는 대부분이 NoSQL 솔루션이 쉽게 사용하기 어려운 것이 사실입니다. 제가 하는 대부분의 세미나에서는 NoSQL을 사용하기 위해서는 설치, 사용방법을 익히는 수준에서 검증해보고 사용해서는 안되고 반드시 아키텍처, 동작원리, Failover, Replica 메커니즘 등에 대해 반드시 이해하고 확신이 생길때만 사용하라고 하였습니다. 가능하면 코드 수준에서 검증하는 것이 가장 좋다고도 강조하였고요.
MongoDB도 같은 맥락이지 않을까 합니다.오픈 소스이고 활발하게 사용되는 솔루션이기 때문에 노력만 하면 안정적으로 사용할 수 있고 다소 불안한 부분은 회피 또는 수정을 통해 사용도 가능하기 때문입니다.
이미 MongoDB를 사용하고 있거나 사용을 계획하고 있는 기사에 언급된 문제점들에 대해 정확히 분석을 하고 해당 프로젝트에 그 위험 요소들이 얼마나 영향을 미칠것인가를 예측, 실험을 통해 검증하는 과정을 거친 후 결정을 내리시는 것이 합리적이라고 생각합니다.
 
크리에이티브 커먼즈 라이센스
Creative Commons License

Posted by 김형준


데이터 분석에 대한 상반된 시각

최근 빅데이터와 관련되어 많은 기사와 글이 나오고 있는데 상반된 의견이 눈에 띄네요.

넥스알 한재선 대표,
“분석 알고리즘이 좋지 않아도 전체 데이터가 많다면 성능은 얼마든지 좋아진다”
http://www.zdnet.co.kr/news/news_view.asp?artice_id=20120326181347&type=xml

트리움 김도훈 대표,
"때론 수집한 데이터 양이 적어도 충분히 통찰력을 얻을 수 있습니다."
http://www.bloter.net/archives/103242

둘 다 새겨들을 만한 얘기인 듯합니다.

각 주장은 회사의 기반이 어디에 있고 무엇을 더 중요시 하느냐에 따라 주장하는 것이 상반되지 않을까 합니다. 넥스알의 경우 빅데이터 기반의 플랫폼을 기반으로 한 분석 플랫폼을 제공하는 것을 메인 비즈니스로 하고 있습니다. 따라서 데이터를 어떤 insight를 가지고 분석을 하느냐에 대한 이슈보다 데이터에 대한 insight를 어떻게 빠르고 쉬운 컴퓨팅 환경에 적용할 수 있느냐에 집중하고 있습니다. 넥스알도 내부적으로는 데이터 분석 기술을 보유하고 있는 것으로 알고 있습니다. 다만 특정 도메인에 대한 접근 보다는 분석 기법 등으로 접근하는 것으로 알고 있습니다.
특정 도메인의 데이터를 집중해서 보는 입장에서는 데이터가 아무리 많아봐야 분석을 제대로 하지 못하면 쓰레기 데이터라고 하는 것도 맞는 이야기인것 같고요.

그러면 제가 속해 있는 그루터는 어떤 상황일까요? 그루터는 빅데이터를 관리, 분석할 수 있는 플랫폼을 기반으로 하여 데이터 분석 서비스를 제공하고 있습니다.
현재는 트위터와 같은 소셜 네트워크 서비스의 데이터를 분석해서 서비스 형태로 제공하고 있습니다. 따라서 두가지를 다 하고 있다고 볼 수 있습니다.  그루터가 제공하고 있는 서비스가 제대로 된 분석을 하고 있는지에 대해서는 고객이 평가할 부분이겠지만 특정 주제를 가지고 심도있게 분석하는 분석(그루터는 이것을 Ad-hoc 분석 서비스라고 합니다)과 다양한 고객을 대상으로 한 온라인 서비스는 다르게 접근하고 있습니다.

http://news.hankooki.com/lpage/it_tech/201203/h20120325213608122310.htm
http://news.hankooki.com/lpage/society/201203/h2012032220571621950.htm

이런 기사들이 빅데이터 플랫폼 기반으로 분석된 내용들입니다.

온라인 서비스는 일반적으로 고객들이 보고 싶어하는 통계에 대한 정보와 필터링, 검색 등의 기능을 중심으로 메세지의 전파 경로, 링크의 전파 경로 등과 같이 데이터가 너무 많아서 사용자가 한눈에 파악하기 어려운 정보를 분석을 통해 잘 모으고, 정리해서 보여주고 있습니다.
이 서비스에도 더 심화된 분석 결과를 제공하는 것을 목표로 서비스를 개선하고 있지만 일반화 시키는 부분과 UI로 어떻게 표현해야 하는지에 대해서 여전히 고민 중입니다.

크리에이티브 커먼즈 라이센스
Creative Commons License

Posted by 김형준


빅데이터와 한국 시장

빅데이터 대한 많은 이야기가 나오고 있습니다. 다양한 회사들이 빅데이터를 외치고 있습니다. 빅데이터 시장에 어떤 회사들이 있는지 정리해 보았습니다.
개인적인 의견이며 글에 많은 오류가 있을 수 있음을 인정합니다. 댓글로 남겨주세요.

흔히 시장을 분석할때 Value Chain을 그립니다. 저는 마케팅 전문가가 아니고 공부도 하지 않았기 때문에 단순히 제가 생각하는 수준에서 분류해 보았습니다.
빅데이터도 데이터이기 때문에 시장에서 데이터에 대한 이해 관계자는 다음 정도일 것입니다.

그림1.
사용자 삽입 이미지
[그림 수정 되었습니다]
- 데이터 생산자
전통적인 데이터 분석 시장에서 데이터 생산자는 기업 자기 자신이었습니다. 기업 내부의 시스템(ERP, CRM, MES 등)이나 고객과의 거래 내역 등의 데이터 였습니다. 빅데이터에서의 데이터 생산자는 기업과 아무런 관계가 없는 일반 사용자 또는 소비자가 대부분입니다.
 
- 데이터 (수집)가공자
생산된 데이터를 수집하여 의미 있는 정보로 만드는 역할을 수행합니다. 전통적인 데이터 분석 시장에서도 이 역시 기업 자신이었습니다. 하지만 인터넷 서비스의 발전과 소셜 네트워크 데이터의 축적으로 데이터의 생산자와 상관없는 회사가 데이터를 분석해서 서비스를 제공하는 사례가 늘어 나고 있습니다.

- 데이터 소비자
  기업 내부 데이터의 경우 분석 결과에 대한 소비자 역시 기업 자신이 됩니다. 공개된 데이터에 대한 분석 결과는 지금까지는 대부분 검색의 형태로 제공되며 데이터 소비자도 일반인이었습니다.

- 데이터 가공 솔루션(장비 등) 제공자
기업 시장에서는 오라클, IBM, HP, 테라데이터 등과 같은 BI/DW 솔루션 공급자가 이 역할을 주로 수행했으며 공개된 데이터에 분석 솔루션은 뚜렷한 솔루션이 없고 자체 개발을 하거나 국내 검색 솔루션 제공 업체가 이 역할을 수행하고 있습니다.  

다음은 국내 시장에서 빅데이터에 관심을 보이거나 빅데이터 시장으로 진입을 하려는 업체들을 부분해 보았습니다.

- 포털
포털의 주 서비스이면서 수익원인 검색은 이미 과거부터 빅데이터였습니다. 따라서 이미 10년전부터 빅데이터 시장이 진입해서 수익을 내고 있는 회사들입니다. 빅데이터 관련 기술도 내부적으로 많이 축적된 상태입니다.
 
- 이동 통신 사업자
이동 통신 사업자는 현재의 통신 사업이 수익적인 측면에서는 포화상태이기 때문에 새로운 사업 기회를 찾고 있습니다. 또한 2천만 ~ 3천만 정도의 사용자를 가지고 있으며 이들 사용자의 콜 이력, 메시지 이력, 앱 사용 이력 등은 이미 빅데이터 입니다. 따라서 이동 통신 사업자도 이미 빅데이터를 가지고는 있습니다. 과거에는 이런 데이터를 단순히 통신 사업을 하는 용도(과금 계산, 요금 추전 등)에만 주로 사용하였으며 이런 용도로 사용하기 위해서는 비용보다는 신뢰성이 더 중요했기 때문에 고가의 장비와 고가의 솔루션으로 많이 해결헀습니다.
최근에는 통신 사업자가 가지고 있는 데이터, 사용자를 이용한 다양한 분석/활용을 하고자  빅데이터 기술에 접근하고 있고 일부 사업자는 몇년전부터 사용하고 있거나 NEXR과 같은 전문 회사를 인수하기도 했습니다.  

- 디바이스 생산 회사
삼성전자, LG전자의 경우 과거에는 하드웨어를 만들어서 공급하는 것이 시장에서의 역할이었기 때문에 데이터를 다루는 것은 기업 내부 시스템의 데이터 위주 였습니다. 하지만 애플의 아이폰 등장과 구글의 안드로이드, 아마존의 킨들 파이어 등의 등장으로 전자 회사가 더이상 하드웨어만 공급해서는 경쟁력이 없게 되었고 하드웨어와 잘 연동되는 서비스, 컨텐츠 등을 제공해야 시장에서 살아 남는 시대가 되었습니다.
일년에 판매되는 디바이스가 수억개 이상이 되고 디바이스 자체 또는 디바이스에 탑재되는 앱에서 생산되는 데이터는 빅데이터가 되었습니다. 이렇 상황이 발생한게 불과 2 ~ 3년이기 때문에 그 동안 빅데이터에 대한 준비가 덜 되어 있는 상황입니다. 초창기에는 기존의 엔터프라이즈 솔루션으로 해결을 시도하다가 실패를 경험을 했을 것이며 최근에 오픈 소스 기반의 빅데이터 처리에 대해 관심을 가지며 내부 기술력을 내재화 시키고 있습니다.

- 외산 벤더
빅데이터라는 용어가 작년 초반을 거쳐 하반기에 폭풍같이 이슈화 되면서 가장 발빠르게 움직이고 있습니다. 기존의 BI/DW 솔루션 회사인 테라데이터, 오라클을 비롯하여 EMC, HP, IBM 등도 기존 솔루션 또는 신규 솔루션을 이용하여 공격적인 마케팅을 하고 있습니다.
하지만 빅데이터라는 것이 과거에 비용이 비싸거나 기술적으로 한계가 있고 덜 중요한 데이터를 최근에 공개된 기술을 이용하여 빠르고 저렴하게 분석 가능하게 되면서 발전되어 온 상황에서 고객들이 선듯 외산 벤더를 구매할 것인가에 대해서는 의문입니다.
물론 기존의 BI/DW 구축의 연장 선상에서 프로젝트를 진행할 경우 외산 벤더를 구매하겠지만 이것은 엄밀하게 말하면 빅데이터 라기 보다는 그냥 전통적인 데이터 분석, BI/DW 인 것입니다.
도입하는 조직의 실적이나 외부 포장을 위해 빅데이터라는 용어로 포장을 하고 있는 경우가 많고 벤더도 여기에 동조하고 있는 분위기 입니다.

- 국내 벤더
국내 소프트웨어를 개발하고 배포하는 회사 자체가 별로 없다 보니 빅데이터 관련해서 뚜렷한 솔루션 벤더는 없는 상황입니다.

- SI 사업자
국내 SI 사업자는 두가지로 관점에서 빅데이터를 바라보고 있는 것 같습니다. 하나는 기존 SI 비즈니스가 아닌 새로운 사업 진출의 기회로 삼으려는 시도입니다. 바이오 인포메틱스 등이 이런 경우입니다. 두번째는 기존 SI 사업 즉 고객에 빅데이터 분석 시스템을 구축해주는 사업니다. 전자의 경우 내부 기술력을 확보하는 어려움을 겪고 있으며 후자의 경우 SI 업종의 성격상 매출 규모가 어느 정도 발생해야 하는데 오픈 소스 기반으로 접근할 경우 매출 발생에 어려움이 있기 때문에 애매한 상황입니다.
고객과 협의가 잘되어서 전통적인 솔루션(BI/DW) 중심으로 프로젝트를 수행하면서 포장을 빅데이터로 포장하는 경우가 더 많지 않을까 생각합니다.

- 기존 국내 검색/분석 업체
다음소프트, 솔트룩스, 다이퀘스트 등과 같은 기존 국내 검색/분석 업체로 국내 업체로 가장 활발하게 빅데이터를 이용하여 시장에 참여하려는 시도를 하고 있습니다. 이 업체들은 데이터 분석에 대한 역량을 이미 확보하고 있으면 일부 데이터도 축적하고 있습니다. 하지만 필자가 보는 시각은 이런 업체들도 "빅데이터"라고 말하기 어렵습니다. 기존에 있던 방법론, 기술 등을 그대로 사용하고 있으며 분석, 처리의 비용에 대한 절감도 없으며 성능, 확장성에 대한 부분도 대부분 과거의 기술 상태라고 생각합니다. 물론 내부적으로는 연구하고 있겠지만 아직 상용 수준으로 끌어 올리기에는 부족하다고 할 수 있습니다.
이들 업체들이 세미나, 신문 보도 등을 통해 빅데이터라는 용어를 많이 언급하고 있는데 시장을 왜곡 시키고 있는 원인 중의 하나라고 생각합니다. 고객들이 과거의 전통적인 데이터 분석과 빅데이터 시대의 데이터 분석에 대해서 차이점이나 특징 등에 대해서 구분 못하는 상황이 발생하고 있습니다.

- 연구 기관
국내에 여러 국책 연구 기관 또는 대학 연구소에서도 빅데이터에 대한 연구를 시작하고 있습니다. ETRI에서는 빅데이터 관련 연구 센터가 개소 했다는 소식을 들었습니다. 연구 기관에서의 연구는 다음 항목으로 구분해 볼 수 있습니다.

  . 연구 기관 중 일부는 자체 보유한 데이터가 많이 이런 데이터를 처리하기 위해 과거에 사용하는 그리드 컴퓨팅 기술에서 최근의 하둡 기반 분석을 적용하는 연구
  . 소프트웨어 개발과 관련된 연구 기관으로 빅데이터를 위한 소프트웨어 플랫폼 연구 및 개발
  . 과거의 데이터 분석과 비교하여 빅데이터 시대에서 다양한 데이터가  어떤 의미를 줄 수 있으며 어떤 방법, 시각으로 데이터를 분석해야 하는 지에 대한 데이터 분석 자체에 대한  연구

- 정부
최근 가장 활발하게 빅데이터 대한 토론이나 정책을 수립하고 있습니다. 작년 하반기 대통령의 관심으로 인해 급증했다고 볼 수 있습니다. 여러 국책 과제가 나오고 있지만 이를 수행하는 업체가 빅데이터에 대한 전문성을 가지고 있지 못하기 때문에 과제의 결과물 수준이 좋을 것이라고 생각하지는 않습니다.

- 신생 업체
빅데이터 기술을 바탕으로 하여 새롭게 출현하는 업체가 있습니다. KT거 인수한 NEXR이 대표적인 회사라고 할 수 있습니다. 물론 제가 속한 그루터도 빅데이터 기술을 기반으로 만들어진 회사입니다. 이런 회사는 처음부터 하둡 기반의 에코 시스템에 집중 하면서 기술을 쌓고 이런 기술을 이용하여 데이터 분석 플랫폼을 갖추는데 집중하고 있습니다. NEXR은 KT에서 인수했기 때문에 시장에서 적극적으로 참여하기 보다는 KT 내부 프로젝트에 집중하고 있는 모습입니다. 그루터는 자체 보유한 기술력과 방대한 데이터를 이용하여 데이터 분석 서비스 집중하고 있기 때문에 외부로 빅데이터 기술을 딜리버리 하는데 집중하지는 않고 있습니다.  필자의 생각에는 빅데이터라고 외치는 기술의 중심에 서 있는 부류라고 하면 기존과 다른 방식, 즉 하둡 에코 시스템 중심으로 움직이고 있는 이런 신생업체가 진정한 기빅데이터 전문 기업이라고 생각합니다.  

그림2.
사용자 삽입 이미지

위의 상황을 요약해보면 현재 시장에서 빅데이터를 가장 크게 외치고 있는 부류는 "외산 벤더", "국내 검색 업체", "정부" 입니다. 하지만 실제로 빅데이터를 절실하게 필요로 하는데는 "통신 사업자", "전자 회사" 정도 뿐입니다. 그리고 이 두 부류는 전통적인 방법, 솔루션으로 어렵다는 것을 이미 몇차례의 실수로 인해 인식하고 있으며 자체 기술력을 확보하기 위해 인력 확보 및 연구를 하고 있는 상황입니다.
또 다른 관점에서 보면 과거에는 그림1에서처럼 데이터의 종류에 따라 명확하게 구분이 되었으며 각자의 영역에서 역할 분담이 잘 되었다면 빅데이터 시대에는 모든 종류의 데이터가 분석 대상이 되면서 더 많은 이해 관계자가 필요하거나 서로의 범위를 침범해야만 합니다. 특히 포털이나 인터넷 서비스 업체에서 보유하고 있는 기술, 분석 방법이 필요하지만 이들 업체는 이런 비즈니스를 하지 않거나 이제 시작하는 단계로 시장의 기대 수준을 만족시켜주지 못하고 있습니다. 그림 2에서 "?"로 되어 있는 "데이터 분석/가공자", "솔루션 제공자"의 역할을 수행할 주체가 아직 확실하게 정립되지 않은 상황입니다. 이렇다 보니 시장이 아직 혼동스러운 것이 아닌가 생각합니다.  
빅데이터와 관련해서 시장 형성이 어려운 가장 큰 이유는 필자는 ROI에 있다고 생각합니다. 기업은 투자를 했으면 투자 비용 이상으로 이익을 가져와야 합니다. 전통적인 BI/DW에서 다루는 데이터는 기업의 핵심 데이터이며 이들은 비싼 솔루션을 도입하여 분석할 가치가 있는 데이터였습니다.
하지만 빅데이터에서 다루는 주요 데이터는 분석 결과가 주는 이익도 명확하지 않으며 데이터 크기나 분석에 투입되는 리소스는 훨씬 더 많습니다. 빅데이터라는 개념이 출현하게 된 것도 하둡 에코 시스템을 기반으로 한 저렴한 비용으로 빠르게 분석할 수 있는 체계가 구성되었기 때문에 투자 금액을 작게해서 분석이 가능하기 때문입니다. 분석 결과가 주는 이익이 작거나 불분명해도 기업 입장에서는 투자할 가치가 있다는 것입니다. 오라클이 빅데이터 어플라이언스라는 제품을 출시하면서 제품의 구성 대부분을 하둡 에코 시스템인 오픈 소스로 배치시키고 가격도 50만불 수준으로 비교적(?) 저렴하게 출시한 것도 시장의 요구가 이렇다는 것을 알기 때문입니다.
 하지만 국내에서의 빅데이터를 움직이는 주요 참여자는 외산 솔루션 벤더나 기존 검색 사업자인데 이들의 비용 구조는 변함없는 고비용 구조입니다. 이런 상황에서 기업이 선뜻 투자하기는 어려울 것입니다. 그래서 일부 기업은 자체 기술력 확보에 주력하고 있기도 합니다.

최근 빅데이터가 시장에 관심을 받으면서 "그루터 돈 많이 벌었겠네요." 라는 이야기를 많이 듣고 있습니다. 상황을 다음과 같이 정리해보겠습니다.

인력 투입 방식 프로젝트
- 데이터 분석 플랫폼을 갖추기 위해 그루터에 프로젝트 참여 요청
- 프로젝트가 구축 사업 중심이다 보니 인력 투입 요청
- 인력 단가 많아야 1000만원/월, 심지어 어떤 경우는 600 ~ 700만원/월
- 적절한 수익을 유지하기 위해서는 200 ~ 300만원/월 정도 되는 인력을 많이 투입시키고 핵심 인력 몇명으로 프로젝트를 수행하게 방법이 있지만 그루터의 회사 비전에 맞지 않기 때문에 이런 방식의 계약은 지양
- 현실적인 비용 요구
- 발주 회사 내부 규정 상 어려움이 있음. 검증되지 않은 벤처 인력에 많은 비용을 지불할 수 없음. 외국 회사는 가능
- 프로젝트 참여하지 않는 것으로 결정

솔루션 납품 프로젝트
그루터는 하둡 에코 시스템을 이용하여 빅데이터 플랫폼을 구축하고 모니터링 할 수 있는 솔루션인 BAAS와 Cloumon 보유
- 솔루션 제시
- 레퍼런스 부족(가장 최신의 기술을 도입하면서도 레펀러스를 요구하는...)
- 일단 레퍼런스 문제는 해결
- 가격 협상 -> 구매 부서에서 빅데이터 대한 접근 보다는 기존 솔루션과의 기능, 가격비교
  (기존 로그 분석 시스템은 수백만원 정도면 도입 가능한데 기능적으로는 비슷한 것 같은데 왜 그렇게 비싸냐?)
- 오픈 소스 기반의 소프트웨어 스택 제공에 대한 이해 부족
- 솔루션 납품뿐만 아니라 컨설팅도 같이 요구
- 컨설팅에 대한 비용 산정의 앞의 인력 투입 방식에서와 동일한 문제 발생
- 솔루션 납품 실패

크게 이런 두가지 상황으로 나누어 집니다. 물론 도입에 적극적인 고객이 있어 BAAS, Cloumon 등은 레퍼런스도 확보 했으며 인력 투입 프로젝트로 몇군데 수행을 했습니다. 하지만 지금의 빅데이터의 바람에 비하면 실제 프로젝트까지 연결되는 것은 많지 않았습니다.

빅데이터 시장은 여전히 안개속이지만 빅데이터에 대한 제대로된 이해와 기술을 중심으로 접근하기 보다는 기존 사업자들에 의해 왜곡된 형태로 진행되고 있는 것 같아 안타깝습니다. 이런 시장 상황으로 지속되면 비싼 솔루션만 잔뜩 도입하고 결과는 내지 못하는 시행착오를 겪으면서 빅데이터 시장 자체가 붕괴되지 않을까 하는 걱정입니다.
빅데이터를 제대로 하기는 방법은 단 하나입니다. 하둡 에코 시스템에 대한 기술력을 쌓고 이를 기반으로 한 플랫폼을 갖추고 데이터를 축적 시키고 데이터를 분석하는 것입니다. 다른 길은 없습니다. 그 정도 규모의 데이터가 아니면 고민 없이 전통적인 솔루션을 도입하면 됩니다. 단, 전통적인 솔루션, 기법을 도입해 놓고 빅데이터로 포장은 하지 마세요. 시장이 왜곡됩니다.
크리에이티브 커먼즈 라이센스
Creative Commons License

Posted by 김형준